Microsoft відкриває вихідний код моделі Phi-Ground 4B, перевершує OpenAI Operator і Claude за точністю кліків по екрані

За Beating, Microsoft нещодавно відкрито опублікувала у відкритому доступі сімейство моделей Phi-Ground, створених для вирішення проблеми того, куди саме ШІ має клікати на екрані комп’ютера. Версія з 4 мільярдами параметрів у парі з більшими мовними моделями для планування інструкцій перевищила точність кліків OpenAI Operator і Claude Computer Use у бенчмарку Showdown та посіла перше місце серед усіх моделей із менш ніж 100 мільярдами параметрів у п’яти оцінюваннях, зокрема в ScreenSpot-Pro.

Команда навчала модель більш ніж на 40 мільйонах датасетів і з’ясувала, що три поширені техніки тренування, які використовують у наукових статтях, стали неефективними в масштабі. Ключовий підхід виявився простим: виводити координати як звичайні числа, наприклад, “523, 417.” Попередні дослідження створювали спеціалізовані словники позицій для координат, але вони не витримали масштабування. Також команда виявила, що розміщення текстових інструкцій перед зображеннями підвищує продуктивність, оскільки моделі могли визначати цілі під час опрацювання пікселів. Крім того, методи підкріплювального навчання на кшталт DPO покращили точність навіть після донавчання.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Quantra і FishWar оголошують стратегічне партнерство для інтеграції AI-ігор із інфраструктурою RWA 9 травня

За офіційними оголошеннями від 9 травня Quantra та FishWar оголосили про стратегічне партнерство, щоб об’єднати ігрові досвіди з підтримкою ШІ та інфраструктуру блокчейну реальних активів. Співпрацю, яку опублікували в офіційних соцмережах обох компаній, спрямовано на інтеграцію рішень Quantra для токенізації RWA з платформою FishWar GameFi у мережі Sei Network. Партнерство має на меті посилити масштабованість блокчейн-ігор, взаємодію в ланцюжку та інтеграцію цифрових активів, водночас вирішуючи

GateNews6хв. тому

Сем Альтман розкрив розподіл використання ChatGPT за віком: понад третину людей 18–24 років користуються ним щодня станом на 10 травня

Згідно з Fortune, CEO OpenAI Сем Альтман 10 травня розповів, що користувачі ChatGPT різних вікових груп мають відмінні моделі використання. Старші користувачі розглядають платформу як заміну Google-пошуку, тоді як ті, кому 20–30 років, використовують її як персонального радника. Університетські студенти застосовують її як щоденну операційну систему, використовуючи пам’ять розмов для емоційних порад, переговорів щодо кар’єри, медичних консультацій і важливих життєвих рішень. Понад третину америка

GateNews46хв. тому

Фінансовий секретар Гонконгу Пол Чан підкреслив три ключові переваги Великої затоки: ШІ, промисловість і фінанси

Згідно з ChainCatcher, фінансовий секретар Гонконгу Пол Чан нещодавно оприлюднив письмову заяву, у якій окреслив три ключові переваги Великої затоки: передові дослідження в галузі ШІ, повні високотехнологічні виробничі ланцюги та міжнародний фінансовий хаб. Чан заявив, що таке поєднання «ШІ + виробництво + фінанси» дає Гонконгу змогу виконувати під час періоду 15-ї п’ятирічки дві ключові функції: промислову координацію та регуляторне узгодження, зокрема виступати як «міжнародний інтерфейс» для г

GateNews1год тому

Anthropic Code Mode: спір між MCP і CLI: інструменти замість runtime, токени з 150 тис. до 2 тис.

Упродовж усього 2025 року в AI-інженерній спільноті точилися суперечки щодо того, що краще для виклику інструментів агентом: «MCP чи CLI». Аж у листопаді 2025 року Anthropic опублікувала роботу «Code execution with MCP», яка переосмислила проблему з позицій першопринципів. akshaypachaar 5/10 зібрав thread і пояснив: проблема ніколи не в самій угоді, а в старій звичці «пакувати всі описи інструментів у context на старті session». Рішення Anthropic — змусити модель писати код для виклику інструмен

ChainNewsAbmedia4год тому

ByteDance планує збільшити витрати на інфраструктуру для ШІ на 25% до 200 мільярдів юанів цього року

Згідно з ChainCatcher із посиланням на Golden Data, ByteDance планує збільшити витрати на AI-інфраструктуру на 25% до 200 мільярдів юанів цього року, що зумовлено зростанням витрат на мікросхеми пам’яті та прискореним розвитком штучного інтелекту.

GateNews4год тому

Платформа для корпоративного AI Pit закриває $16M раунд фінансування серії, який очолює a16z

За даними Odaily, корпоративна платформа для підприємницького ШІ Pit оголосила про завершення раунду фінансування на 16 мільйонів доларів під керівництвом a16z за участі Lakestar і керівників OpenAI, Anthropic, Google, Deel та Revolut. Pit позиціонує себе як «AI product team as a service» — рішення, покликане замінити традиційні електронні таблиці та негнучкі системи SaaS.

GateNews4год тому
Прокоментувати
0/400
Немає коментарів