Команда Мита Кайминга Хе выпустила модель диффузии языка ELF с 45 млрд токенов обучения

По словам Beating, команда МИТ Кайминга Хэ недавно выпустила ELF (Embedded Language Flows) — модель диффузии языка, которая отходит от авторегрессионного подхода «предсказывать следующий токен», используемого моделями в стиле GPT. Вместо этого ELF выполняет генерацию текста в непрерывном пространстве встраиваний, переводя в дискретные токены только на последнем шаге.

В бенчмарках безусловной генерации OpenWebText модель ELF-B с 105 млн параметров достигла примерно 24,1 перплексити генерации (Gen. PPL) при 32-шаговом семплировании, обойдя несколько базовых моделей дискретной и непрерывной диффузии языка. Примечательно, что ELF-B понадобилось только примерно 45 миллиардов обучающих токенов — примерно на один порядок меньше, чем сопоставимые методы, которые обычно превышают 500 миллиардов токенов.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

Tesla планирует больше продуктов на базе ИИ для Китая, опирается на 400+ местных поставщиков

По данным China Daily, Tesla планирует привезти в Китай больше продуктов с ИИ и более «умных» решений, а вице-президент Грейс Тао подчеркнула глубокую интеграцию компании в местную цепочку поставок. По состоянию на март 2026 года Tesla работает более чем с 400 китайскими поставщиками, более 60 из которых обеспечивают ее глобальную сеть, при этом локализация деталей на ее Шанхайском заводе Gigafactory превышает 95%. Компания управляет 588 напрямую принадлежащими магазинами в 119 городах материков

GateNews11м назад

SoftBank сообщает о нереализованной прибыли в размере 45 миллиардов долларов от инвестиций в OpenAI по состоянию на конец марта

Согласно ChainCatcher, SoftBank сообщила о накопленной нереализованной прибыли в размере 45 миллиардов долларов от своих инвестиций в OpenAI по состоянию на конец марта. В апреле 2026 года компания направила 20 миллиардов долларов привлечённых заимствований в первую очередь на инвестиции в OpenAI, из которых 2,5 миллиарда долларов были погашены в течение того же месяца.

GateNews11м назад

Посол Китая Се Фэн призывает к здоровой конкуренции в сфере ИИ с США перед визитом Трампа

Согласно посольству США в Китае, китайский посол в США Се Фэн обсудил отношения США и Китая, а также предстоящий визит президента Трампа в Китай в интервью старшему дипломатическому корреспонденту Newsweek Тому О’Коннору, опубликованном до поездки.

GateNews21м назад

ЕС обсуждает присоединение к альянсу Pax Silica, поддерживаемому США, в ближайшие недели

По данным Bloomberg, Европейский союз ведёт переговоры о присоединении к Pax Silica — альянсу, поддерживаемому США, в сфере полупроводников, инфраструктуры для ИИ, критически важных полезных ископаемых и дата-центров, в рамках усилий по снижению зависимости от Китая. Европейская комиссия планирует направить в США старшего чиновника в ближайшие недели, чтобы проработать условия. Решение принимается на фоне того, что Швеция и Финляндия уже присоединились к альянсу, а ЕС ищет поддержку со стороны Ф

GateNews31м назад

Samsung планирует массовое производство модулей памяти для AI-серверов CXL 3.1 в Q4

По данным The Korea Herald, Samsung Electronics планирует начать массовое производство модулей памяти CXL 3.1 для AI-серверов в четвертом квартале после отгрузок образцов в третьем квартале. Модуль CMM-D 3.1 объединяет DRAM и контроллер CXL на одной плате, обеспечивая до 1 терабайта при пропускной способности 72 гигабайта в секунду на PCIe 6.0. Ранее Samsung поставляла образцы CXL 2.0 более чем 40 компаниям, включая Microsoft и Amazon.

GateNews41м назад

Бывший исследователь Alibaba по ИИ Линьцзюнь Линь запускает новую AI-лабораторию на сумму около 2 миллиардов долларов

По данным The Information, Линьцзюнь Линь, бывший исследователь ИИ в Alibaba, недавно основал новую лабораторию искусственного интеллекта. Оценка стоимости стартапа составляет примерно 2 миллиарда долларов.

GateNews43м назад
комментарий
0/400
Нет комментариев