De acordo com a BridgeBench AI e a Arena.AI, o restabelecimento do Claude Fable 5 a 1 de julho desencadeou resultados de referência contraditórios. A BridgeBench reportou que as pontuações de depuração caíram de 86,2 para 25,9, mas os dados mostraram que nove das doze tarefas foram redirecionadas para o Opus 4.8 pelo novo classificador de segurança da Anthropic, em vez de chegarem ao próprio Fable 5. Entretanto, os milhares de votos de preferência humana da Arena.AI descobriram que o desempenho do Fable 5 permaneceu praticamente estável ou melhorou na maioria das categorias quando o modelo realmente processou os pedidos, com o desempenho em documentos a subir 34 pontos Elo e o texto de especialista a subir 25.
A distinção é importante: os utilizadores gerais em escrita criativa, investigação e análise de texto verão uma diferença mínima, enquanto os programadores que trabalham em reparação de código e depuração enfrentam um encaminhamento de recurso constante. A Anthropic reconheceu que os novos classificadores lançaram uma rede demasiado ampla ao bloquear prompts relacionados com explorações e afirmou que as melhorias surgirão ao longo do tempo, mas não forneceu qualquer calendário.