Юйфань Чжан розкриває повні технічні специфікації DeepSeek V4: 1,6T параметрів, 384 експерти з 6 активаціями

Повідомлення Gate News, 22 квітня — аспірант Принстонського університету Юйфань Чжан розкрив повні технічні характеристики DeepSeek V4 у X після попереднього анонсу 19 квітня. V4 має загалом 1,6 трильйона параметрів і полегшений варіант V4-Lite, який містить 285 мільярдів параметрів.

Модель використовує механізм уваги DSA2, який поєднує попередню DSA (DeepSeek Sparse Attention) від V3.2 та NSA (Native Sparse Attention) із вкладеннями для голови розмірністю 512, у парі з Sparse Multi-Query Attention (MQA) та Sliding Window Attention (SWA). Рівень MoE (Mixture of Experts) містить 384 експерти, з 6 активованими під час кожного прямого проходу, із використанням Fused MoE Mega-Kernel. Від’ємні зв’язки застосовують архітектуру Hyper-Connections.

Деталі тренування, розкриті вперше, включають використання оптимізатора Muon (applying Newton-Schulz orthogonalization to momentum updates), контекстного вікна для попереднього навчання на 32K токенів, а також GRPO (Group Relative Policy Optimization) з корекцією за розбіжністю KL під час підкріплювального навчання. Кінцеве контекстне вікно розширюється до 1 мільйона токенів. Модель є лише текстовою.

Чжан не працює в DeepSeek, і компанія офіційно не коментувала розкриту інформацію.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OpenClaw, Hermes і SillyTavern Підтверджені як підтримувані в GLM Coding Plan

PM від Zhipu AI Лі оголошує OpenClaw, Hermes і SillyTavern як підтримувані проєкти в межах GLM Coding Plan; інші інструменти будуть оцінені в кожному конкретному випадку. Не діліться обліковими даними та не використовуйте підписки як доступ до API; зверніться в підтримку через помилку 1313. Продуктовий менеджер Zhipu AI Лі оголосив, що OpenClaw, Hermes і SillyTavern офіційно підтримуються в межах GLM Coding Plan, а інші інструменти оцінюватимуться в кожному конкретному випадку. У примітці застерігають від поширення облікових даних або використання підписок як доступу до API та вказують користувачам із помилкою 1313 звернутися в підтримку.

GateNews2год тому

Генеральний директор Google Cloud: Gemini забезпечить запуск персоналізованого Siri від Apple у 2026 році

Підсумок: Gemini забезпечить персоналізований Apple Siri у 2026 році, створений на основі Foundation Models від Apple та співпраці Gemini; Apple тестує чатоподібний Siri в iOS 27/macOS 27, запланований до показу на WWDC 2026. Анотація: Google Cloud's Gemini має бути задіяний для створення персоналізованого Apple Siri до 2026 року, поєднуючи Gemini з Foundation Models від Apple у межах співпраці приблизно на $1 мільярд. Apple тестує перероблену, чатоподібну версію Siri в iOS 27/macOS 27 з інтерфейсом Dynamic Island та новими функціями, напередодні офіційної презентації на WWDC 2026 8 червня.

GateNews2год тому

Угода SpaceX $60B Cursor Підживлює Наступ СБФ за Помилування, а Частка $200K FTX Тепер Варто $3B

Повідомлення Gate News, 22 квітня — сьогодні SpaceX оголосила про масштабне партнерство з AI-стартапом з програмування Cursor, з опцією викупити компанію за $60 мільярд. Угода дала нові аргументи Семові Бенкману-Фрідові (SBF), який наразі перебуває в ув’язненні та добивається президентського помилування, оскільки вона демонструє потенціал відновлення вартості, який він давно стверджував, що FTX могла б досягти, як він

GateNews2год тому

Акції Chegg падають на 99% через те, що ШІ порушує ринок edtech

Короткий огляд: Chegg різко злетіла на тлі попиту на онлайн-освіту, а потім інструменти на базі ШІ зруйнували її модель, що спричинило масові скорочення та падіння нижче $2, при цьому ширші зміни, зумовлені ШІ, вдарили по майнерах криптовалют і фінтех-компаніях. Анотація: У цій статті розглядається злет Chegg як улюблениці edtech у період пандемії та її подальше падіння на тлі стрімкого впровадження генеративного ШІ, який дає швидкі відповіді й підриває ціннісну пропозицію Chegg. Тут описано скорочення у 2025 році та падіння акцій із наближенням до делістингу, а також показано досвід Chegg у ширшому контексті збоїв через ШІ, які змінюють технології та криптоіндустрію: майнери Bitcoin переорієнтовуються на операції з ШІ, а AI-орієнтовані стратегії переозначають конкурентоспроможність у фінтеху та за його межами.

CryptoFrontier2год тому

OpenAI випустила модель фільтра конфіденційності з відкритим кодом для виявлення та редагування ПД

Анотація: Фільтр конфіденційності OpenAI — це модель із відкритим кодом, яку можна запускати локально, і яка виявляє та редагує ПД (персональні дані) у тексті. Вона підтримує великі контексти, визначає багато категорій ПД та призначена для робочих процесів із збереженням конфіденційності, зокрема підготовки даних, індексації, журналювання та модерації. Фільтр конфіденційності OpenAI — це локально запущена модель із відкритим кодом (128k-token context), яка виявляє та редагує ПД у тексті, охоплюючи контактні, фінансові та облікові дані для робочих процесів із конфіденційністю.

GateNews3год тому

OpenAI планує розгорнути 30 ГВт обчислювальної потужності до 2030 року

OpenAI прагне досягти 30 ГВт обчислювальної потужності до 2030 року, щоб задовольнити зростаючі потреби в ШІ, при цьому вже завершено 8 ГВт із цільових 10 ГВт на 2025 рік. Розширення сигналізує про стратегію масштабування інфраструктури для розробки й розгортання ШІ нового покоління. OpenAI має намір досягти 30 ГВт обчислювальної потужності до 2030 року, щоб задовольнити зростаючі потреби в ШІ, уже виконавши 8 ГВт із цілі 10 ГВт на 2025 рік. Крок відображає стратегічне розширення інфраструктури для підтримки розробки й розгортання ШІ нового покоління.

GateNews3год тому
Прокоментувати
0/400
Немає коментарів