Согласно OneMillion_AI, компания Mistral AI недавно выпустила Leanstral 1.5 — модель формального доказательства для Lean 4 с общим количеством параметров 119 миллиардов и 65 миллиардов активных параметров. Модель выпущена под лицензией Apache-2.0 с бесплатным доступом по API. На PutnamBench Leanstral 1.5 достигает средней стоимости примерно 4 доллара за задачу для решения, что значительно ниже, чем предыдущие системы, стоимость которых составляла от десятков до сотен долларов за задачу.
Модель решает 587 из 672 задач PutnamBench и достигает 87% на бенчмарке абстрактной алгебры FATE-H и 34% на FATE-X, устанавливая новые рекорды производительности в своей категории. Помимо математических доказательств, Leanstral 1.5 также применялась для верификации кода, обнаружив 11 реальных ошибок в 57 репозиториях Rust с открытым исходным кодом, 5 из которых ранее не были зарегистрированы.