Борясь с трудностями, Microsoft недавно открыла исходный код семейств модели Phi-Ground, предназначенных для решения проблемы того, где именно ИИ должен кликать по экрану компьютера. Версия на 4 миллиарда параметров в паре с более крупными языковыми моделями для планирования инструкций превзошла по точности кликов OpenAI Operator и Claude Computer Use в бенчмарке Showdown и заняла первое место среди всех моделей с менее чем 100 миллиардами параметров по пяти оценкам, включая ScreenSpot-Pro.
Команда обучалась на более чем 40 миллионов наборах данных и выяснила, что три распространённые техники обучения из научных работ перестали работать эффективно при масштабировании. Ключевой подход оказался простым: выводить координаты как обычные числа, например «523, 417». Ранее исследования предлагали специализированные словари позиций для координат, но они не масштабировались. Также команда обнаружила, что размещение текстовых инструкций перед изображениями повышает качество, поскольку модели могли распознавать цели, обрабатывая пиксели. Кроме того, методы обучения с подкреплением, такие как DPO, улучшали точность даже после дообучения.
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.
Связанные статьи
Quantra и FishWar объявляют о стратегическом партнёрстве для интеграции AI-игр с инфраструктурой RWA 9 мая
9 мая Quantra и FishWar объявили о стратегическом партнёрстве, чтобы объединить игровые впечатления с ИИ и инфраструктуру блокчейна для реальных активов. О сотрудничестве, которое было опубликовано в официальных соцсетях обеих компаний, говорится в целях интеграции решений Quantra по токенизации RWA с платформой FishWar GameFi в сети Sei. Партнёрство нацелено на повышение масштабируемости блокчейн-игр, взаимодействия в ончейне и интеграции цифровых активов, одновременно решая технические проблем
GateNews6м назад
Сэм Альтман раскрывает доли использования ChatGPT по возрасту: более одной трети пользователей в возрасте 18–24 лет используют его ежедневно на 10 мая
По данным Fortune, генеральный директор OpenAI Сэм Альтман сообщил 10 мая, что пользователи ChatGPT в разных возрастных группах демонстрируют разные модели использования. Пожилые пользователи воспринимают платформу как замену Google Поиску, тогда как люди в возрасте 20–30 лет используют её как личного советника. Университетские студенты применяют её как ежедневную операционную систему, используя функцию памяти диалогов для эмоциональных советов, переговоров о карьере, медицинских консультаций и
GateNews46м назад
Финансовый секретарь Гонконга Пол Чан подчеркнул три ключевых преимущества «Большого залива»: ИИ, промышленность и финансы
Согласно ChainCatcher, финансовый секретарь Гонконга Пол Чан недавно опубликовал письменное заявление, в котором изложил три ключевых преимущества Большого залива: передовые исследования в области ИИ, полностью выстроенные цепочки высокотехнологичного производства и международный финансовый хаб. Чан заявил, что сочетание «ИИ + производство + финансы» позволяет Гонконгу выполнять две ключевые функции в период 15-го пятилетнего плана: промышленную координацию и регуляторное согласование, включая р
GateNews1ч назад
Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.
2025 年 весь год AI-инженерное сообщество бурно спорило о том, что лучше для вызова инструментов агентами — «MCP vs CLI». Опубликованная в ноябре 2025 года статья Anthropic «Code execution with MCP» переопределила проблему с точки зрения первых принципов. akshaypachaar 5/10 собрал thread и пояснил: дело никогда не в самом протоколе, а в старой привычке — на старте session пихать в context описание всех инструментов целиком; решение Anthropic заключается в том, чтобы модель писала код для вызова и
ChainNewsAbmedia4ч назад
ByteDance планирует увеличить расходы на AI-инфраструктуру на 25% до 200 миллиардов юаней в этом году
Ссылаясь на Golden Data, ChainCatcher сообщает, что ByteDance планирует увеличить расходы на ИИ-инфраструктуру на 25% — до 200 миллиардов юаней в этом году — на фоне роста стоимости чипов памяти и ускорения развития искусственного интеллекта.
GateNews4ч назад
Предприятие AI-платформа Pit закрывает $16M раундов финансирования серии, лидером выступает a16z
Согласно Odaily, корпоративная платформа для ИИ Pit объявила о завершении раунда финансирования на 16 миллионов долларов, который возглавила a16z; в нём также участвовали Lakestar и руководители из OpenAI, Anthropic, Google, Deel и Revolut. Pit позиционирует себя как «AI product team as a service», предназначенную для замены традиционных таблиц и жёстких систем SaaS.
GateNews4ч назад