Google Gemini 3 Deep Think крупное обновление: способность к рассуждению превосходит Opus 4.6, GPT-5.2, чтобы стать «самым научным ИИ»

BTC-0,54%

Google выпустила значительное обновление Gemini 3 Deep Think. В тесте ARC-AGI-2, специально разработанном для предотвращения обмана ИИ и оценки его способности самостоятельно выявлять закономерности по нескольким примерам, Gemini 3 Deep Think набрал 84,6%, значительно превзойдя Claude Opus 4.6 (68,8%) и GPT-5.2 (52,9%), а также достиг уровня «легендарного мастера» на Codeforces.
(Предыстория: Появление режима обучения ChatGPT: закат наставничества или рассвет золотой эпохи образования?)
(Дополнительный фон: Google официально запустила «Gemini 3»! Чем он выделяется среди самых умных ИИ моделей в мире?)

Содержание статьи

  • Не только умеет сдавать экзамены, но и выявлять ошибки человека
  • Изменения в рыночной доле
  • Влияние на индустрию криптовалют
  • Научные победы только начинаются

Сегодня (13-го числа) Google объявила о значительном обновлении Gemini 3 Deep Think. В тесте ARC-AGI-2, который не оценивает знания, а проверяет способность самостоятельно выявлять закономерности, Gemini 3 Deep Think набрал 84,6%.

Для сравнения, Claude Opus 4.6 (в режиме Thinking Max) получил 68,8%, GPT-5.2 (в режиме Thinking xhigh) — 52,9%, а средний показатель у человека составляет около 60%.

Еще более впечатляюще, что на оригинальной версии ARC-AGI-1 Deep Think достиг 96%, практически достигнув потолка по этому тесту, который ранее считался одним из самых сложных для ИИ.

В настоящее время Deep Think доступен подписчикам Google AI Ultra, а API — для раннего корпоративного доступа.

Не только умеет сдавать экзамены, но и выявлять ошибки человека

Помимо результатов тестов, в объявлении Google был отмечен важный кейс: Deep Think при рецензировании математической статьи, прошедшей экспертную проверку, обнаружил логическую ошибку, которую не заметили все предыдущие рецензенты. Статью подтвердили математики из Университета Рутгерса.

Этот пример важен тем, что речь идет не о стандартных тестах, а о реальных научных задачах. Рецензирование — ключевой механизм контроля качества в науке. Если ИИ сможет стабильно помогать в этом процессе, его вклад в ускорение научных исследований будет значительно выше, чем любые показатели тестов.

Кроме того, Deep Think достиг уровня золотого медалиста на международной олимпиаде по физике и химии 2025 года, а на платформе Codeforces его рейтинг Elo составляет 3455, что соответствует уровню «легендарного мастера» — немногие человеческие программисты могут похвастаться таким уровнем.

На «Последнем экзамене человечества» — стандарте, созданном экспертами из разных областей, чтобы усложнить задачу ИИ — Deep Think набрал 48,4% без использования инструментов, установив новый рекорд.

Изменения в рыночной доле

Гонка технологий между тремя гигантами ИИ меняет карту рынка. Доля ChatGPT снизилась с пика 87% до примерно 68%, а Gemini выросла с менее 5% до более 18%, в то время как Claude от Anthropic постепенно захватывает корпоративный сегмент.

Уникальное преимущество Google — в распространении. Gemini встроен в Android, Chrome, Google Workspace и поисковик, что позволяет даже при равных возможностях модели привлекать пользователей через каналы.

Однако распространение — это меч с двумя острицами. Если опыт использования Gemini окажется неудовлетворительным, он может быстрее потерять доверие пользователей, поскольку они «подвержены пассивному восприятию», а не «активному выбору». Пользователи OpenAI платят за услуги и, следовательно, более терпимы и лояльны.

Влияние на индустрию криптовалют

Каждое обновление в гонке ИИ увеличивает спрос на вычислительные ресурсы. Стоимость обучения передовых моделей выросла с сотен миллионов долларов в 2024 году до нескольких миллиардов в 2026-м. Это влияет на две ключевые области.

Первое — трансформация майнеров биткоина. Когда прибыльность майнинга снижается (по оценкам JPMorgan, себестоимость добычи BTC снизилась до 77 тысяч долларов, а цена колеблется около 66 тысяч), крупные майнинговые фермы ускоряют переход к предоставлению AI-вычислений.

Высокие издержки не означают «отход», а «переквалификацию»: майнеры меняют профиль с добычи биткоинов на предоставление AI-услуг по контрактам.

Второе — нарратив вокруг токенов AI. Каждое крупное обновление от Google, OpenAI или Anthropic вызывает краткосрочные спекуляции на рынке децентрализованных вычислительных протоколов и связанных с ними токенов.

Но фундаментальные проблемы остаются: децентрализованные вычисления по задержкам и пропускной способности пока далеки от требований корпоративных AI-обучений. Нарратив развивается быстро, а инфраструктура — нет.

Научные победы только начинаются

Обновление Deep Think возвращает Google в лидеры гонки ИИ, по крайней мере в области логики и науки. Но если внимательно прочитать заявление Google, заметна тонкая смена акцента: вместо «самого умного универсального ИИ» компания все чаще говорит о «создании для науки».

Когда стандарты общего ИИ становятся все более насыщенными и трудно дифференцировать, ценность «ИИ, который помогает в научных исследованиях» становится более убедительной, чем «мой ИИ показывает самые высокие результаты в тестах». Если Deep Think сможет стабильно помогать рецензентам, ускорять открытие лекарств или находить решения в физических моделях, это будет иметь гораздо больше значения, чем любые рейтинги.

Проблема в том, что переход от «высоких баллов в тестах» к «надежной помощи в реальной науке» может оказаться более сложным, чем намекает Google: тесты имеют правильные ответы, а наука — нет.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Ethereum ETFs See Fourth Consecutive Day of Inflows

Ethereum ETFs are experiencing increasing institutional confidence, with four consecutive days of net inflows led by BlackRock. This trend highlights growing investor interest in regulated crypto investments, despite varied performances among ETF providers.

CryptoFrontNews2ч назад

马斯克:特斯拉Terafab芯片工厂将于7天后启动,年产能目标1000-2000亿颗

马斯克宣布特斯拉的Terafab工厂将于3月21日启动,该工厂将综合生产逻辑AI芯片、内存等,目标年产1000亿至2000亿颗芯片,旨在满足特斯拉日益增长的AI算力需求,减少对外部供应商的依赖。

GateNews5ч назад

新台幣穩定幣應用場景待釐清!兆豐金實測:大額跨境匯款「銀行仍佔優」

兆豐銀行進行穩定幣與傳統銀行跨境匯款的比較實測。結果顯示,穩定幣在小額匯款上速度快且成本較低,但當金額超過約7,000美元時,銀行的成本優勢明顯。穩定幣跨境匯款受到多國監管限制影響,實際應用場景仍需探討。董瑞斌強調傳統銀行在資金清算與合規管理上具有不可取代的基礎設施。

区块客7ч назад

貝萊德「以太幣質押 ETF」重磅登場!上市首日成交額破 1,550 萬美元

貝萊德推出的「iShares 質押型以太幣信託 ETF(ETHB)」首日交易額突破1,550萬美元,成為機構資金進駐以太坊的里程碑。此ETF持有以太幣並進行質押,提供投資者價格波動及質押獎勵。ETHB預計將70%至95%的以太幣投入質押,82%的收益按月分配給持有者。

区块客8ч назад

Strategy 本周或购入超 3 万枚 BTC,下一目标 80 万枚

Gate News 消息,3 月 14 日,据 MSTR 分析师透露,Michael Saylor 旗下的 Strategy(MicroStrategy)仅在本周或购入超过 3 万枚 BTC,公司下一个目标为持有 80 万枚 BTC。

GateNews8ч назад

USDC 市值逼近 800 亿美元历史高位,稳定币总市值一周增长 0.93%

当前全网稳定币总市值为3159亿美元,USDC市值接近800亿美元。迪拜房价下跌27%,地产指数跌31%。阿联酋资本外流助推USDC需求增长,部分房产卖家开始接受加密货币付款,并提供折扣。

GateNews8ч назад
комментарий
0/400
Нет комментариев