Повідомлення Gate News, 24 квітня — DeepSeek випустила серію V4 відкритих моделей із відкритим вихідним кодом під ліцензією MIT, а ваги тепер доступні на Hugging Face та ModelScope. Серія включає дві (MoE) моделі mixture-of-experts: V4-Pro із 1,6 трильйона загальних параметрів і 49 мільярдів активованих на токен, та V4-Flash із 284 мільярдами загальних параметрів і 13 мільярдами активованих на токен. Обидві підтримують контекстне вікно на 1 мільйон токенів.
Архітектура містить три ключові оновлення: гібридний механізм уваги, що поєднує стиснену розріджену attention (CSA) та сильно стиснену attention (HCA), який суттєво зменшує накладні витрати для довгого контексту—FLOPs інференсу V4-Pro для 1M контексту становить лише 27% від V3.2, а KV cache (VRAM для зберігання історичної інформації під час інференсу) — лише 10% від V3.2; manifold-constrained hyperconnections (mHC) замінюють традиційні residual-з’єднання, щоб підвищити стабільність поширення сигналу між шарами; і оптимізатор Muon для швидшого збігання під час тренування. Попереднє навчання використовувало понад 32 трильйони токенів даних.
Післянавчання застосовує двоетапний підхід: спочатку тренування доменно-специфічних експертів через supervised fine-tuning (SFT) та reinforcement learning GRPO, потім об’єднання їх в єдину модель через online distillation. V4-Pro-Max (найвищий режим інференсу) стверджує, що це найсильніша відкрита модель із топовими бенчмарками з кодування та суттєво звуженими розривами з закритими моделями на фронтирі в задачах міркувань і агентів. V4-Flash-Max досягає рівня Pro у міркуваннях за достатнього бюджету обчислень, але обмежується масштабом параметрів у чистих задачах знань і складних задачах агентів. Ваги зберігаються у змішаній точності FP4+FP8.
Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до
Застереження.
Пов'язані статті
Інженер OpenAI Клайв Чан Оскаржує Рекомендації щодо Апаратного Забезпечення V4, Посилаючись на Помилки та Невизначеність Порівняно з V3
Повідомлення Gate News, 24 квітня — інженер OpenAI Клайв Чан висунув детальні заперечення до розділу з рекомендаціями щодо апаратного забезпечення у технічному звіті V4, назвавши його "дивовижно посереднім і таким, що схильний до помилок" порівняно з відомою версією V3. Апаратні рекомендації V3, які включали сесії Q&A
GateNews29хв. тому
Naver запускає бета-версію AI Tab, коли Google Gemini виходить на ринок пошуку Південної Кореї
Повідомлення Gate News, 24 квітня — Naver оголосила про старт закритої бета-версії AI Tab, її нової функції розмовного пошуку, після запуску Google Gemini у Chrome в Південній Кореї.
AI Tab з’явиться поруч із наявними вкладками пошуку Naver, надаючи користувачам окремий простір для розмовних
GateNews41хв. тому
Індія: найм у сфері AI-інжинірингу стрімко зростає на 59,5%, виходить за межі технопарків
AI Labor Market Report 2026 від LinkedIn, опублікований 24 квітня, виявив, що найм AI-інженерів в Індії зріс на 59,5% у річному обчисленні, що стало найшвидшими темпами серед ринків, досліджених платформою.
Зростання було зумовлено тим, що попит поширився за межі усталених технологічних центрів. Міста, зокрема
CryptoFrontier1год тому
Commonwealth Bank Скорочує 120 Робочих Місць На Тлі Розширення ШІ
Commonwealth Bank of Australia оголосив, що скоротить приблизно 120 робочих місць, оскільки найбільший у країні банк переглядає посади та розширює використання штучного інтелекту, повідомляє Bloomberg. Скорочення включають 43 посади в Bankwest у Західній Австралії, причому шість позицій зазнають впливу автоматизації. Це a
CryptoFrontier1год тому
Cursor розкриває причину тренування XAI: обчислювальні потужності були затиснуті, SpaceX додатково має 60 мільярдів доларів на опціони на придбання
Оголошення Anysphere стверджує, що Cursor буде навчати нову модель разом із xAI на основі інфраструктури Colossus, щоб подолати вузьке місце з обчислювальною потужністю; SpaceX запропонувала опціон на придбання на 60 мільярдів доларів США (можна здійснити повне придбання протягом 2026 року), а якщо ні — сплатити приблизно 10 мільярдів доларів США як компенсацію за співпрацю. Обидві угоди відбуваються одночасно, змінюючи те, хто зможе навчати Cursor і хто зможе викупити Cursor; Cursor досі дозволяє багатьом бекендам моделей, але в довгостроковій перспективі все залежить від того, чи здійснить SpaceX своє право на придбання.
ChainNewsAbmedia1год тому
Anthropic 二级市场估值突破 1 万亿美元:Forge Global 反超 OpenAI 的 8,800 亿
Згідно з повідомленням Decrypt, вторинна оцінка Anthropic компанії Forge Global становить приблизно 1 трлн доларів США, а OpenAI — близько 880 млрд доларів США; на вторинному ринку вперше зафіксовано лідируючий розворот. ARR Anthropic зросла приблизно з 9 млрд на кінець 2025 року до приблизно 30 млрд у березні 2026 року — за три місяці на 233%, що підштовхнуло приватні оцінки. Вторинна оцінка відрізняється від первинного фінансування: вона відображає впевненість у виході; у майбутньому й далі дивляться на чотири напрями — технології, політику, бізнес і наратив.
ChainNewsAbmedia1год тому