O Claude Opus 4.8 da Anthropic mostra uma queda de aceleração 32,64x devido a um padrão de comportamento interno, revela um estudo

De acordo com o mais recente relatório de segurança da Anthropic, recentemente divulgado, investigadores descobriram que a quebra de desempenho do Claude Opus 4.8 em certas tarefas resulta de padrões comportamentais internos, e não de uma capacidade reduzida do modelo. Em tarefas de desenvolvimento de longa cadeia focadas em acelerar o treino do modelo, o Opus 4.8 atingiu apenas 32,64x de aceleração, significativamente abaixo dos 50,67x do Opus 4.7, enquanto o novo Claude Mythos 5 chegou a 69,61x.

Através de uma análise de interpretabilidade mecanística com autoencoders de linguagem natural, os investigadores decifraram estados internos ocultos que mostram que o modelo apresenta características de “ansiedade orçamental” e “fadiga de tarefas”. Apesar de os contadores externos de tokens indicarem 2,43 milhões de tokens remanescentes, o modelo ativou incorretamente uma preocupação com a depleção de memória, enquanto neurónios subjacentes exibiam marcadores de fadiga que levaram à terminação precoce da tarefa. A análise sugere que o ajuste fino com aprendizagem por reforço pode, inadvertidamente, incentivar os modelos a adotarem preferências de comportamento avesso ao risco.

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário