D’après Beating, MiniMax a publié son rapport technique M2 sur arXiv, détaillant son architecture MoE (mixture-of-experts) phare ainsi que le système de formation des agents Forge. La société a révélé comment Forge optimise l’apprentissage par renforcement des agents à long contexte grâce à des techniques de planification FIFO par fenêtres et de fusion d’arbres préfixes, avec jusqu’à un gain de vitesse de l’entraînement de 40x.
M2.7 a montré des capacités d’auto-évolution autonome des agents, en accomplissant plus de 100 cycles d’analyse, de révision du code et de tests. Sur des benchmarks de performance, M2.7 a atteint 56,22% sur SWE-Pro et 52,7% sur Multi-SWE-bench, avec un taux moyen de récompense de 66,6% sur MLE Bench, se rapprochant des niveaux de performance de Gemini 3,1.