Laut Beating veröffentlichte MiniMax seinen technischen M2-Report auf arXiv und stellte dabei seine Flaggschiff-MoE-(mixture-of-experts)-Architektur sowie das Agent-Training-System Forge im Detail vor. Das Unternehmen legte offen, wie Forge langfristiges Kontext-Agent-Training im Bereich Reinforcement Learning durch windowed FIFO-Scheduling und Prefix-Tree-Merging-Techniken optimiert und dabei eine Trainingsbeschleunigung von bis zu 40x erreicht.
M2.7 zeigte autonome Fähigkeiten zur Selbstentwicklung von Agenten, indem es über 100 Runden aus Analyse, Code-Revision und Test-Zyklen abschloss. Auf Performance-Benchmarks erreichte M2.7 56,22% auf SWE-Pro und 52,7% auf Multi-SWE-bench, mit einer durchschnittlichen Belohnungsrate von 66,6% auf MLE Bench und kam damit an die Performance von Gemini 3.1 heran.