Estudo de Cambridge: Em 2026, os dados humanos serão quase totalmente aprendidos por LLM, e a IA poderá entrar em colapso devido ao "fenómeno Habsburgo".

ChainNewsAbmedia

Na era da IA generativa, os modelos de gigantes como OpenAI, Google e Anthropic praticamente consumiram todos os dados públicos disponíveis na internet. Mas, de acordo com uma pesquisa da Universidade de Oxford e várias instituições, até 2026 a 2028, os dados públicos de alta qualidade que a humanidade pode fornecer à IA estão prestes a se esgotar. Quando a internet for inundada por conteúdos gerados por IA, novos modelos terão que treinar-se utilizando dados gerados por IA. Este processo de autorreferência é semelhante ao incesto entre parentes próximos da IA.

Em 2026, os dados gerados pela humanidade serão completamente aprendidos pela IA.

As universidades de Oxford e Cambridge, juntamente com várias instituições de pesquisa, publicaram em abril de 2024 o artigo intitulado 〈The Curse of Recursion: Training on Generated Data Makes Models Forget〉, que revela este fenômeno.

Eles descobriram que, quando modelos generativos usam repetidamente seus próprios dados para treinamento, mesmo em condições ideais, o modelo gradualmente esquece a realidade e acaba entrando em degradação. A equipe de pesquisa, após experimentar com várias arquiteturas, como modelos de linguagem, variational autoencoders (VAE) e modelos de mistura gaussiana (GMM), apontou que cada re-treinamento é como uma impressora que reimprime uma cópia: os detalhes desaparecem gradualmente, e eventos raros são os primeiros a serem esquecidos. Após algumas gerações, o modelo se reduz a uma média e a uma aparência mainstream, tornando-se, em última análise, medíocre, monótono e até errado.

Este processo é como uma contaminação de dados autoinduzida pelo modelo (self-poisoning). O resultado final é que o modelo deixa de entender a linguagem e a realidade, e a saída torna-se um discurso repetitivo e sem sentido.

Stanford Paper: A participação contínua de dados reais impede que a IA entre em colapso

No entanto, o artigo publicado em abril de 2024 pela Universidade de Stanford e pela equipe da Constellation, intitulado 〈Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data〉, trouxe uma resposta mais otimista. Eles reproduziram os experimentos da equipe de Oxford, mas propuseram uma nova estratégia de treinamento: acumular dados em vez de substituir. Ou seja, a nova geração de IA não descarta os dados humanos antigos, mas continua a sobrepor e fundir conteúdos gerados por humanos e pela IA.

Os resultados mostram que se, a cada treino, os novos dados sintéticos substituírem os dados antigos, o desempenho do modelo irá deteriorar-se linearmente. Mas se os dados originais forem mantidos e acumulados continuamente, o erro do modelo tenderá a estabilizar-se e até pode parar de se deteriorar. Eles validaram repetidamente isso nos modelos de linguagem (GPT-2, Llama 2), geração de imagens (VAE), e modelos de geração molecular (Diffusion model), chegando a uma conclusão consistente: desde que os dados reais continuem a participar, a IA não irá colapsar.

Os pesquisadores também provaram teoricamente: quando os dados se acumulam, o limite do erro do modelo é finito e não se expande indefinidamente. Isso significa que o “incesto” da IA não é um destino inevitável, contanto que não cortemos a ligação com os dados reais humanos.

A IA também tem o fenômeno dos Habsburgo, o ciclo de autorreferência é como o casamento entre parentes próximos.

O fundador da iKala, Cheng Shijia, que foi engenheiro de software do Google, usou a famosa família Habsburgo da história humana para descrever esse fenômeno. A famosa dinastia Habsburgo da história europeia, para manter a pureza do sangue, usou casamentos entre parentes para manter a riqueza e o poder dentro da família. O resultado foi a famosa “mandíbula Habsburgo”, mas isso é apenas a ponta do iceberg dos problemas genéticos. Várias doenças genéticas, epilepsia, deficiências intelectuais e até altas taxas de mortalidade infantil são a maldição da família Habsburgo, e o último rei Carlos II, por isso, padeceu de várias doenças e morreu sem deixar herdeiros.

Cheng Shijia usou exemplos mais concretos para explicar que originalmente era uma paisagem repleta de detalhes, com até pequenas imperfeições. O estilo do artista, detalhes, pinceladas, imperfeições, etc., na verdade representam a diversidade genética. Na primeira impressão, a IA gerou uma cópia ( com dados sintetizados ). Neste momento, a cópia estava a 99,9% próxima do original. No entanto, a IA é um modelo que tira a média, suaviza as imperfeições ( que representam conhecimentos raros ), e reforça ligeiramente as características mais comuns ( que são pontos de vista predominantes ). A próxima geração aprende com isso, tirando novamente a média, e esse é o ciclo de auto-referência.

Este artigo da pesquisa de Cambridge: em 2026, os dados humanos serão aprendidos quase completamente pelos LLMs, e a IA poderá entrar em colapso devido ao “fenômeno Habsburgo”, apareceu pela primeira vez na Chain News ABMedia.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário