GLM 5.2 は Vending-Bench 2 長期ビジネスシミュレーションで2位にランクインし、月間利益成長約1,000ドルを示す

Andon Labsの最新のVending-Bench 2評価によると、GLM 5.2は長期ビジネスシミュレーションテストで2位となりました。
このベンチマークは自販機会社の365日間の運営をシミュレートし、モデルが財務データに基づいて在庫と価格について毎日意思決定を行い、長期タスクにおける判断の一貫性を評価しました。
GLMバージョンは一貫した線形成長を示し、月間平均利益の改善は約$1,000でした(GLM 5は平均$4,432、GLM 5.1は$5,634に達しました)。
対照的に、Kimi K2.7 CodeはK2.6と比較してパフォーマンスが低く、Minimax M3はM2.5から大幅に改善したものの、全体的な収益性ではKimiシリーズとGLMシリーズの両方を大幅に下回りました。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし