Vision Banana do Google: Um modelo de visão unificado supera modelos específicos de tarefa em segmentação e geometria 3D

Mensagem do Gate News, 23 de abril — Pesquisadores do Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo geral de compreensão visual criado por meio de ajuste fino leve de instruções do modelo de geração de imagem Nano Banana Pro (Gemini 3 Pro ). A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e predição de normais de superfície por meio de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação por expressão de referência, ele superou o SAM 3 Agent. No entanto, ficou atrás do SAM 3 em segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade alcançou 0,929 de acurácia média em quatro conjuntos de dados padrão, superando os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informações reais de profundidade ou parâmetros de câmera durante a inferência. A estimativa de normais de superfície obteve resultados de ponta em três benchmarks internos.

O ajuste fino envolveu dados mínimos de tarefas de visão misturados ao treinamento original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treinamento de geração de imagens em visão é paralelo ao pré-treinamento de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, com o ajuste fino de instruções apenas liberando essa capacidade.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Empresa de Dados de IA Mercor Sofre Pelo Menos 7 Ações Coletivas por Violação de Dados, Monitoramento por Computador

Mensagem do Gate News, 23 de abril — A empresa de rotulagem de dados de IA Mercor, avaliada em $10 bilhões e sediada em San Francisco, enfrenta pelo menos sete ações coletivas nas últimas semanas devido a violações de dados de terceiros. A empresa trabalha com clientes incluindo OpenAI, Anthropic e Meta, fornecendo dados de feedback

GateNews20m atrás

SpaceX Estima Mercado Endereçável Total em US$ 28,5 Trilhões, Com US$ 26,5T Provenientes do Setor de IA

Mensagem do Gate News, 23 de abril — A SpaceX estima que seu mercado endereçável total (TAM) seja de US$ 28,5 trilhões, de acordo com documentos internos. A empresa projeta que mais de 90% do mercado, aproximadamente US$ 26,5 trilhões, virá da inteligência artificial. A IA corporativa deve responder pela maior parte da oportunidade do mercado de IA, representando cerca de US$ 22,7 trilhões do TAM total.

GateNews56m atrás

《Naval》Naval lança fundo de IA USVC, investidores de varejo também podem investir antes da listagem em OpenAI, Anthropic

O conhecido investidor de Silicon Valley Naval, por meio de sua plataforma AngelList, lançou recentemente um novo fundo chamado USVC, com foco em permitir que investidores comuns também participem indiretamente de empresas de tecnologia privadas em alta, com a menor exigência de entrada de 500 dólares, como OpenAI, Anthropic, xAI, Vercel, Crusoe, Sierra e Legora. Oficialmente, ele foi embalado como “investir em empresas futuras antes que tudo fique óbvio” e enfatiza que se trata de um fundo aberto a todos os investidores, sem necessidade de qualificação de investidor credenciado, tentando transformar o capital de venture que antes pertencia apenas aos ricos e pessoas de dentro em um produto que também possa ser acessado por pequenos investidores. É possível investir em empresas de IA em estágio inicial com apenas 500 dólares A narrativa central do USVC é direta: quando cada vez mais startups em ascensão escolhem permanecer por muito tempo no mercado privado, o crescimento de avaliação realmente explosivo, muitas vezes, ocorre em I

ChainNewsAbmedia1h atrás

Tesla vai adquirir empresa de hardware de IA por até $2 bilhões

Mensagem do Gate News, 23 de abril — A Tesla anunciou em 23 de abril que concordou em adquirir uma empresa de hardware de inteligência artificial por até $2 bilhões em ações ordinárias da Tesla e prêmios de ações. Aproximadamente US$ 1,8 bilhão

GateNews1h atrás

Escritórios de advocacia de primeira linha cobram mais de 2.000 dólares por hora, e documentos judiciais foram desmascarados por “alucinações de IA e erros em série”

Um documento judicial apresentado no caso de falência de Manhattan pelo escritório de advocacia de ponta dos EUA Sullivan·Kren... (Inman) ao juiz pediu desculpas por cerca de trinta erros gerados por IA, precedentes falsos e disposições inventadas. Apesar de taxas elevadas por hora e de políticas internas de treinamento, na prática a revisão não foi implementada durante a preparação; o incidente voltou a reacender discussões sobre o uso de IA no setor jurídico e responsabilidades éticas.

ChainNewsAbmedia1h atrás

DeepSeek disponibiliza código-fonte aberto do TileKernels, biblioteca de kernels de GPU para treinamento e inferência de modelos em larga escala

Mensagem do Gate News, 23 de abril — A DeepSeek disponibilizou o código-fonte aberto do TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para treinamento e inferência de modelos de linguagem em larga escala. O TileLang é uma linguagem de domínio desenvolvida pela equipe tile-ai para expressar kernels de GPU de alto desempenho em

GateNews1h atrás
Comentário
0/400
Sem comentários