MiniMaxは200Kトークンをスキャンし、M2シリーズのモデルで4.9%の劣化を発見

MiniMaxの技術ブログによると、同社はフルの語彙スキャンによってM2シリーズのモデルで重大なトークン劣化を発見しました。約4.9%の200,000トークンに顕著な性能低下が見られ、日本のトークンが最も大きな打撃を受け、29.7%でした。これは韓国(3.3%)、ロシア(3.7%)、中国(3.9%)、英語(3.5%)と比べての数値です。この劣化は、低頻度トークンがポストトレーニング中に不適切なベクトル空間の方向へ押し出されることに起因します。そこで、高頻度トークン(tool_callマーカーのようなもの)が周囲のパラメータを継続的に更新します。

MiniMaxは、語彙全体を安定化するために、単純なトークン反復タスクを用いた合成データの修正を実施しました。結果はすぐに出ました。日本語の応答に混ざるロシア文字は47%から1%へ低下し、ベクトルの安定性(コサイン類似度)は、0.329という低水準から全トークンで0.97を超えるまで改善しました。

免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし