O Vision Banana da Google: Um modelo visual unificado supera modelos específicos de tarefa na segmentação e na geometria 3D

Mensagem do Gate News, 23 de Abril — Investigadores da Google, incluindo He Kaiming e Xie Saining, publicaram um artigo que apresenta o Vision Banana, um modelo de compreensão visual de propósito geral criado através do ajuste fino leve de instruções do modelo de geração de imagens Nano Banana Pro ( Gemini 3 Pro Image) da empresa. A principal inovação unifica as saídas de todas as tarefas visuais como imagens RGB, permitindo segmentação, estimativa de profundidade e previsão de normais de superfície através de geração de imagens, sem arquiteturas ou funções de perda específicas da tarefa.

Na segmentação semântica, o Vision Banana superou o modelo especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; na segmentação de expressões de referência, ultrapassou o SAM 3 Agent. No entanto, ficou aquém do SAM 3 na segmentação de instâncias. Para tarefas 3D, a estimativa métrica de profundidade atingiu 0,929 de precisão média em quatro conjuntos de dados padrão, excedendo os 0,918 do Depth Anything V3, usando apenas dados sintéticos sem informação real de profundidade ou parâmetros de câmara na inferência. A estimativa de normais de superfície alcançou resultados de última geração em três benchmarks interiores.

O ajuste fino envolveu dados mínimos de tarefas visuais misturados no treino original de geração de imagens, preservando as capacidades de geração do modelo — o desempenho correspondeu ao Nano Banana Pro original nos testes de qualidade de geração. O artigo propõe que o pré-treino de geração de imagens em visão é semelhante ao pré-treino de geração de texto em linguagem: os modelos aprendem as representações internas necessárias para a compreensão de imagens durante a geração, enquanto o ajuste fino por instruções apenas liberta esta capacidade.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Empresa de Dados de IA Mercor Atingida por pelo Menos 7 Processos de Ação Coletiva por Violação de Dados, Monitorização por Computador

Mensagem do Gate News, 23 de abril — A empresa de rotulagem de dados de IA Mercor, avaliada em $10 mil milhões e sediada em São Francisco, enfrenta pelo menos sete processos de ação coletiva movidos nas últimas semanas devido a violações de dados por terceiros. A empresa trabalha com clientes, incluindo OpenAI, Anthropic e Meta, fornecendo dados de feedback para treino de IA através de trabalhadores contratados. Os dados divulgados incluem entrevistas em vídeo de contratados, dados biométricos faciais e capturas de ecrã do computador. Foram apresentados na terça-feira, no Norte da Califórnia, processos que alegam que a Mercor recolheu dados de verificação de antecedentes de candidatos a emprego e os partilhou com parceiros em violação de regulamentos federais. Os demandantes também acusam a empresa de monitorizar os computadores dos contratados e de partilhar dados com clientes, utilizando entrevistas em vídeo para treinar modelos de IA, e treinar modelos dos clientes com materiais potencialmente pertencentes a outras empresas. A Mercor nega as alegações, afirmando que cumpre todas as leis aplicáveis e que contratou especialistas forenses de terceiros para investigar a violação. David Bevvino-Berv, um antigo empregado do Goldman Sachs e um dos demandantes, afirma que viu modelos financeiros e prompts contendo marcadores de terminais de dados institucionais e nomes reais de contrapartes enquanto trabalhava na Mercor, sugerindo informação proprietária de outras firmas. Outro demandante, Thitipun Srinarmwong, alega que os gestores de projeto incentivaram os trabalhadores a usar dados reais dos seus trabalhos principais, com apenas anonimização, e que os revisores criticaram as suas submissões como "demasiado curtas e demasiado vagas" quando ele deliberadamente ocultou informação sensível. A Mercor exige que os contratados instalem o software de screenshots Insightful, que os trabalhadores dizem conseguir capturar capturas de ecrã a cada minuto. Bevvino-Berv relata que o Insightful capturou imagens de aproximadamente 240 candidaturas, incluindo o seu portal de conta bancária e de seguro de saúde, sem notificação prévia de que o monitorização se estenderia para além de trabalho relacionado com a Mercor. A Meta suspendeu a sua parceria com a Mercor e lançou uma investigação. A Mercor empregou 30.000 contratados em 2025.

GateNews21m atrás

A SpaceX Estima o Mercado Total Endereçável em 28,5 Biliões de Dólares, Com 26,5T da Seção de IA

Mensagem da Gate News, 23 de abril — A SpaceX estima que o seu mercado total endereçável (TAM) é de 28,5 biliões de dólares, segundo documentos internos. A empresa prevê que mais de 90% do mercado, aproximadamente 26,5 biliões de dólares, venha da inteligência artificial. Espera-se que a IA empresarial responda pela maioria da oportunidade de mercado de IA, representando cerca de 22,7 biliões de dólares do TAM total.

GateNews57m atrás

《Naval Handbook》Naval lança fundo de IA USVC, também os pequenos investidores podem investir antes da estreia em OpenAI, Anthropic

O conhecido investidor de Silicon Valley, Naval, viu a sua AngelList lançar recentemente um novo fundo chamado USVC, com o objetivo de permitir que investidores comuns participem indiretamente em empresas tecnológicas privadas em alta, como a OpenAI, Anthropic, xAI, Vercel, Crusoe, Sierra e Legora, com um requisito mínimo de apenas 500 dólares. Oficialmente, apresentaram-no como «investir para construir empresas do futuro antes que tudo se torne óbvio» e salientaram que se trata de um fundo aberto a todos os investidores, sem necessidade de qualificações de investidor qualificado, tentando transformar ativos de capital de risco que no passado só pertenciam a ricos e a pessoas do círculo interno num produto que também os pequenos investidores podem alcançar. Pode investir em empresas de IA em fase inicial com apenas 500 dólares A narrativa central do USVC é muito direta: quando cada vez mais startups em destaque escolhem permanecer no mercado privado durante longos períodos, o crescimento verdadeiramente explosivo das avaliações, muitas vezes, em I

ChainNewsAbmedia1h atrás

Tesla vai adquirir empresa de hardware de IA por até $2 mil milhões

Mensagem do Gate News, 23 de abril — A Tesla anunciou a 23 de abril que concordou em adquirir uma empresa de hardware de inteligência artificial por um montante até $2 mil milhões em ações ordinárias da Tesla e prémios em ações. Aproximadamente $1,8 mil milhões

GateNews1h atrás

As principais firmas de advogados cobram mais de dois mil dólares por hora, documentos judiciais foram divulgados: “alucinações de IA, erros em série”

Um documento judicial apresentado pelo escritório de advocacia de topo dos EUA, Sullivan·Cromwell, num processo de falência em Manhattan, incluindo um pedido de desculpas ao juiz por cerca de trinta erros de geração por IA, casos falsos e disposições fabricadas. Apesar de honorários elevados por hora e de políticas internas de formação, na preparação prática não foram implementadas verificações; o incidente voltou a suscitar debates sobre o uso de IA na área jurídica e a responsabilidade ética.

ChainNewsAbmedia1h atrás

DeepSeek lança em open-source o TileKernels, biblioteca de kernels de GPU para o treino e a inferência de grandes modelos

Notícia de Gate, 23 de Abril — A DeepSeek lançou em open-source o TileKernels sob a licença MIT, uma biblioteca de kernels de GPU escrita em TileLang para o treino e a inferência de grandes modelos de linguagem. O TileLang é uma linguagem específica de domínio desenvolvida pela equipa tile-ai para expressar kernels de GPU de alto desempenho em

GateNews1h atrás
Comentar
0/400
Nenhum comentário