
O cofundador da OpenAI, Andrej Karpathy, que se juntou à Anthropic no mês passado, partilhou em 9 de junho a sua avaliação sobre o Claude Fable 5, afirmando que este apresenta uma evolução de desempenho com significado entre gerações, descrevendo o seu impacto na produtividade com a metáfora de que o “software sai como água da torneira, de forma contínua”. No entanto, Karpathy avisou claramente para não abdicar da revisão de código.
Avaliação da capacidade de validação de Fable 5 por Karpathy
Evolução de desempenho entre gerações: Karpathy confirmou que o Fable 5 atingiu uma evolução de desempenho entre gerações, com uma vantagem particularmente evidente ao lidar com tarefas mais longas, permitindo executar instruções complexas com quase nenhuma intervenção humana.
Depuração complexa de percursos longos: Karpathy indicou que, perante objetivos ambiciosos de desenvolvimento, o Fable 5 consegue perceber rapidamente a intenção e avançar de forma autónoma, sendo a primeira vez que sentiu um forte impulso de querer executar sem sequer olhar o código.
Aviso explícito (palavras de Karpathy): Ele sublinhou que não se deve pular completamente a revisão de código em ambientes de produção; este é o aviso direto que faz aos utilizadores.
Explicação do modelo subjacente (confirmação de Karpathy): Karpathy referiu que o Claude Fable 5 e o Claude Mythos 5 partilham o mesmo modelo subjacente, e que o Fable 5 acrescenta, sobre esta base, medidas adicionais de proteção.
O paradoxo de Jevons: quadro de análise de Karpathy
Na sua análise, Karpathy apontou que, quando o software disponível flui “como água da torneira, de forma contínua”, será ativado o “paradoxo de Jevons” (Jevons Paradox) no domínio do software.
Definição do paradoxo de Jevons: Quando a eficiência do uso dos recursos melhora de forma significativa, devido a uma descida acentuada do custo de utilização, a procura total por esse recurso acaba por crescer de forma exponencial, em vez de diminuir.
Análise da aplicação por Karpathy (a partir dos seus comentários na plataforma X): Ele indicou que este efeito desencadeará a criação de inúmeras ferramentas de utilização única “hiperespecíficas” e de enormes conjuntos de testes, acabando por impulsionar o crescimento exponencial da procura global de software.
Problemas de verificação dos mecanismos de proteção
Karpathy afirmou nos seus comentários que, no lançamento inicial do Claude Fable 5, a configuração dos mecanismos de proteção ainda se encontra demasiado sensível, sendo necessário otimizá-la mais tarde. Esta avaliação está alinhada com a explicação da Anthropic no anúncio de lançamento do Fable 5: a Anthropic reconheceu que, atualmente, as medidas de segurança por vezes geram falsos positivos em pedidos inofensivos (taxa de ativação global inferior a 5%) e indicou que está a trabalhar para melhorar e reduzir rapidamente os falsos positivos.
Perguntas frequentes
O que significa o “paradoxo de Jevons” mencionado por Karpathy na geração de código por IA?
De acordo com os comentários de Karpathy na plataforma X, quando a IA faz com que o custo de produção de software se aproxime de zero, a procura de software não diminui; pelo contrário, cresce de forma exponencial. Ele prevê que isto levará os programadores a criar mais ferramentas de utilização única altamente personalizadas e grandes conjuntos de testes, ampliando o consumo global de software.
Porque é que Karpathy avisa de forma tão clara para não saltar completamente a revisão de código em ambientes de produção?
Karpathy afirmou que, embora as capacidades do Fable 5 o tenham levado pela primeira vez a sentir o impulso de querer executar sem olhar o código, ao mesmo tempo avisou de forma clara que esta prática não deve ser implementada em ambientes de produção. O seu aviso está alinhado com a recomendação oficial da Anthropic — mesmo com saídas de modelos poderosos, é necessária supervisão humana para garantir fiabilidade.
O que pensa Karpathy, de forma concreta, sobre os mecanismos de proteção do Fable 5?
Karpathy apontou nos seus comentários que, no lançamento inicial do Fable 5, a configuração dos mecanismos de proteção está demasiado sensível, necessitando de otimização posterior. A própria Anthropic confirmou no seu anúncio oficial que, atualmente, as medidas de segurança por vezes geram falsos positivos em pedidos inofensivos, com uma taxa de ativação inferior a 5%, e indicou que está a melhorar continuamente.