Mensagem do Gate News, 20 de abril — Os principais modelos de IA se destacam ao resolver problemas complexos como matemática de olimpíada, mas têm dificuldade com o trabalho corporativo rotineiro, segundo David Meyer, da Databricks. Alguns modelos podem corrigir um número de fatura incorreto em vez de sinalizá-lo como erro, enquanto ferramentas de codificação como Claude também podem ficar aquém em tarefas de engenharia de dados.
A lacuna se origina de diferenças fundamentais entre os dados corporativos e o texto público da web usado para treinar modelos grandes. Os dados corporativos frequentemente têm rótulos de colunas pouco claros, muitos campos em branco e códigos armazenados como texto simples. Em um estudo acadêmico, a pontuação F1 de um modelo de IA, que equilibra precisão e recall, caiu de 0,94 em dados públicos para 0,07 em dados corporativos para uma tarefa de engenharia de dados. Além disso, modelos grandes tendem a voltar a padrões familiares do treinamento; alguns voltaram a Structured Query Language (SQL) mesmo depois de receber instruções e documentação para a linguagem proprietária de consultas de uma empresa.
Modelos menores de código aberto, ajustados com aprendizado por reforço, conseguem lidar com tarefas específicas de forma mais eficiente e com custos de treinamento significativamente menores do que modelos gerais grandes. A Databricks está construindo agentes de IA menores para fluxos de trabalho específicos, como KARL, que usa aprendizado por reforço para raciocínio em múltiplas etapas com documentos da empresa. A indústria está mudando da dependência de modelos gigantes para arquiteturas híbridas, em que modelos pequenos e eficientes lidam com o volume rotineiro e, então, escalam apenas casos pouco claros ou complexos para sistemas maiores e mais caros.
A Databricks adquiriu recentemente a Quotient AI para ajudar grandes empresas a executar agentes de IA com mais confiabilidade. A competição no negócio de IA agora se concentra em executar todo o ciclo de vida da IA, incluindo sistemas de feedback para rastrear erros e melhorar continuamente os modelos ao longo do tempo, tornando ferramentas de avaliação e ajuste cada vez mais valiosas após a implantação.