O Claude Opus 4.8 da Anthropic mostra uma queda de aceleração de 32,64x devido a um padrão de comportamento interno, revela um estudo

De acordo com o mais recente relatório de segurança da Anthropic, recentemente divulgado, pesquisadores descobriram que a queda de desempenho do Claude Opus 4.8 em certas tarefas decorre de padrões comportamentais internos, e não de redução da capacidade do modelo. Em tarefas longas de desenvolvimento voltadas a acelerar o treinamento do modelo, o Opus 4.8 obteve apenas 32,64x de aceleração, significativamente abaixo dos 50,67x do Opus 4.7, enquanto o novo Claude Mythos 5 chegou a 69,61x.

Por meio de uma análise de interpretabilidade mecanicista usando autoencoders de linguagem natural, os pesquisadores decodificaram estados internos ocultos que mostram que o modelo exibe características de “ansiedade com orçamento” e “fadiga de tarefas”. Apesar de as contagens externas de tokens indicarem 2,43 milhões de tokens restantes, o modelo ativou incorretamente a preocupação com esgotamento de memória, enquanto neurônios subjacentes apresentaram marcadores de fadiga que levaram à interrupção precoce da tarefa. A análise sugere que o ajuste fino com aprendizagem por reforço pode, inadvertidamente, incentivar modelos a adotar preferências comportamentais mais avessas a risco.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários