BioMysteryBench:Mythos 解専門家無解題 29.6%

ChainNewsAbmedia

Anthropicは4月29日、公式な研究発表でBioMysteryBench—AIのバイオインフォマティクス解析能力を対象とした新しい評価基準—を公開し、実在する研究シナリオにおけるオープンエンド型の問題で構成されていると述べた。最も注目すべきデータは、人間の専門家グループが試しても解けなかった問題のうち、AnthropicのフラッグシップモデルMythosが29.6%、Opus 4.7が27.0%を解けた点だ。

評価設計:解ける問題と、専門家でも解けない問題の二本立て

BioMysteryBenchは2種類の問題で構成される。第一のタイプは「解ける問題」—バイオインフォマティクスの研究者が設計し、標準解答との照合が可能な解析タスク。第二のタイプは「専門家でも解けない問題」—人間の専門家グループが試みても、信頼できる解答を見つけられなかった問題で、モデルが現在の分野知識の境界を越えられるかを試すためのものだ。

解ける問題のパートでは、Anthropicの各世代モデルが明確な能力の勾配を示す。Claude Haiku 4.5は36.8%を解き、Claude Sonnet 4.6は71.8%、最新のフラッグシップであるClaude Mythosは82.6%まで到達した。この勾配は、Anthropicが対外的に主張するモデル能力の差—Haikuは軽量型、Sonnetは主力型、Mythosは最上位の研究型—と概ね一致している。

本当に話題性があるのは、専門家でも解けない問題のほうだ。この種の問題は、バイオインフォマティクス領域の専門家グループによる評価の後、「解けない、または合意が得られない」としてラベル付けされたもの。Mythosはそのうち29.6%、Opus 4.7は27.0%を解けた。この結果は「モデルが人間より強い」という単一の証明ではない。より正確に言えば、専門家が経路や時間、資源の制約で扱えなかった問題に対して、AIが検証可能な解法の道筋を提示できる、ということであり、必ずしも最終解答そのものではないものの、「人間が試してこなかった観点」を持ち合わせている点が特徴だ。

Claude for Life Sciencesと並行して推進

BioMysteryBenchは、Anthropicが2025年下半期から推進している「Claude for Life Sciences」計画と同じ方向性を持つ。後者は創薬、ゲノム学、臨床試験の設計などの具体的な応用シーンを狙っている。一方、前者は評価手法によって、生命科学分野におけるAIの「研究レベルの能力」の進展を定量化するものだ。両者が組み合わさって示すシグナルは、Anthropicが生物医学をClaudeの長期的な応用の主要戦場の一つとして位置づけていること、そしてDeepMindのAlphaFoldとは異なる入口からの競争になっている点だ。

Mythosが約30%の専門家でも解けない問題を解けるという数値が、独立した第三者の検証で再現できるなら、AIモデルが研究の場で具体的に持つ価値を示す早期の実証となるだろう。今後の観察ポイントには、BioMysteryBenchが他の研究機関で標準的な評価として採用されるかどうか、人間の専門家による検証手順はどのように行われるのか、そしてMythosが実際の研究計画でテスト結果を再現できるかどうかが含まれる。

この記事『BioMysteryBench:Mythosが専門家でも解けない問題を29.6%解く』は、最初にチェーンニュースのABMediaで掲載された。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

シュナイダーエレクトリックの第1四半期売上高が98億ユーロに到達、AIによるデータセンター需要で11.2%押し上げられる

ロイターによると、シュナイダーエレクトリックは4月30日に第1四半期の売上高が98億ユーロ(114億米ドル)だったと報告し、AIデータセンター需要によってオーガニック成長率は11.2%まで引き上げられた。同社は、フランスの電力・冷却設備サプライヤーであり、この結果はコンセンサス予想をわずかに上回っていたと述べている。

GateNews4分前

Protum、AIガバナンス・プラットフォーム向けにシードラウンド200万ドルを調達、2026年6月のクローズを目指す

TechCrunchの「Startup Spotlight」によると、AIガバナンスのスタートアップであるProtumは、2026年6月までのクローズを目指して、200万ドルのシードラウンドを調達している。Protumは、企業の変革における25年の経験を持つSandeep J.によって設立されており、継続的に企業へ提供することを目的としたプラットフォームだ

GateNews34分前

企業のリストラ急増が労使双方に損失をもたらす恐れがあり、研究では提言:AIの自動化に対する税を導入すべきだ

研究によれば、AIのレイオフには需要の外部性がある。解雇コストは企業が独り占めするが、消費力の損失は市場全体が負担する。より多く解雇すればするほど需要は縮小し、双方ともに損をする。AI自動化税を課して外部コストを内部化し、税収で再教育を支援することで、需要を回復させ経済を安定させることを提案する。

ChainNewsAbmedia38分前

クロードは言語税を徴収するのか?研究が翻訳で中国・日本・韓国のコンテンツを扱うと、直近3倍近くトークンが最も消費されることを暴露

研究者の小松崎氏はXで、主流LLMのトークナイザに非英語言語税が存在すると指摘している。『The Bitter Lesson』の翻訳テストでは、Claudeのインド語、アラビア語、ロシア語、中国語でのトークン増幅がそれぞれ約3.24×、2.86×、2.04×、1.71×と、OpenAIより明らかに大きい。中国のローカルモデルは中国語により親和的であり、英語中心の訓練データによってコスト面の不平等が生じ、普及の障壁になっていることが示される。

ChainNewsAbmedia41分前

Microsoft AI事業は$370B ARRまで2倍に拡大; 2026年に向けて$190B Capexを計画

4月29日、マイクロソフトは、3月31日に終了した期間の第3四半期(会計年度2026年)の業績を報告し、市場予想を上回った。Q3の売上高は317780億ドルに達し、前年同期比18%増となり、予想の814億ドルを上回った。GAAPの純利益は23%増の828860億ドルだった。非GAAPの希薄化後1株当たり利益 per

GateNews54分前

OpenAI DevDay 2026は9/29にサンフランシスコで開催されます

OpenAI 4月29日付の公式発表では、旗艦開発者会議の DevDay 2026 が 9月29日にサンフランシスコで開催されます。長らく実現していなかった対面形式の大規模イベントへと回帰します。同時に発表されたのは投稿企画です。開発者が GPT-5.5 と Image Gen を使って作品を制作し、毎週 Codex がその中から創造性のある投稿者を 2〜3 件選出し、DevDay の無料チケット(都市間の航空券および宿泊費を含む)が授与されます。 会議のテーマ:GPT-5.5 + Image Gen を軸にした開発者エコシステム 今回の DevDay の中核となるアプリケーションスタックは明らかに GPT-5.5 です。GPT-5.5 は 4月23日に提供開始され、24日に API が全面的に利用可能になりました。さらに 4月末時点で GPT-5.4

ChainNewsAbmedia1時間前
コメント
0/400
コメントなし