ティルド・リサーチがムオン・オプティマイザーはニューロンの25%を破壊すると発見。オーロラの代替案はデータ効率を100倍に向上。

Tilde Researchによると、DeepSeek V4やKimi K2.5を含む主要なAIモデルが採用しているMuonオプティマイザには隠れた欠陥があります。それは、初期トレーニングの間にMLP層のニューロンのうち25%以上が永久に死んでしまうことを引き起こすというものです。チームは代替オプティマイザであるAuroraを設計し、オープンソース化しました。1.1Bパラメータのモデルは、わずか100Bトークンだけで学習し、HellaSwagやWinograndeのような言語理解ベンチマークにおいて、36Tトークンで学習したQwen3-1.7Bと同等の性能を達成し、データ効率が約100倍向上したことを示しています。AuroraはMuonと比べて計算オーバーヘッドが6%増えるだけで、直接の置き換えとして利用できます。
免責事項:本ページの情報には第三者提供の内容が含まれる場合があり、参考目的のみで提供されています。これらはGateの見解や意見を示すものではなく、金融、投資、または法律上の助言を構成するものでもありません。暗号資産取引には高いリスクが伴います。意思決定を行う際には、本ページの情報のみに依存しないでください。詳細については、免責事項をご確認ください。
コメント
0/400
コメントなし