Data Pelatihan DeepSeek V4 Berlipat Ganda Jadi 33T, Memicu Ketidakstabilan yang Menunda Rilis

Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.

DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”

Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Infrastruktur AI Web3 AIW3 Menggalang $2M dalam Pendanaan Seed yang Dipimpin oleh Buffalo Capital

Berita Gate, 24 April — Platform infrastruktur AI Web3, AIW3, mengumumkan penyelesaian pendanaan putaran seed sebesar $2 juta. Putaran ini dipimpin oleh Buffalo Capital, dengan GalaXin Capital dan Three-stones Ventures berpartisipasi sebagai co-investor. AIW3 beralih menuju paradigma eksekusi on-chain Agent-as-a-Service AaaS, menyediakan layanan strategi yang dapat dipanggil, orkestrasi agen otonom, dan aliran modal yang terkoordinasi oleh vault secara native. Proyek ini bertujuan membangun lapisan eksekusi on-chain generasi berikutnya yang bersifat sistem-level. Perusahaan menyatakan bahwa infrastruktur protokol intinya secara resmi telah memasuki tahap operasional real-time yang sepenuhnya dapat diverifikasi, meletakkan dasar bagi pengembangan jangka panjang jaringan agen terdesentralisasi yang dapat diskalakan dan ekosistemnya.

GateNews16menit yang lalu

Cohere Mengakuisisi Perusahaan AI Jerman Aleph Alpha, Mengamankan $600M Investasi untuk Ekspansi Eropa

Berita Gate, 24 April — Perusahaan AI Kanada Cohere mengumumkan rencana untuk mengakuisisi perusahaan AI Jerman Aleph Alpha guna memperkuat kehadirannya di Eropa. Schwarz Group, pendukung Aleph Alpha, berencana untuk menginvestasikan $600 juta dalam putaran pendanaan Seri E Cohere. Putaran pendanaan diperkirakan akan ditutup pada 202

GateNews58menit yang lalu

Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show

Gate News message, April 24 — Chinese automakers showcased advanced in-car AI systems at the Beijing Auto Show on April 24, as the country accelerates its AI Plus strategy and seeks greater independence from foreign semiconductors. Xpeng demonstrated voice-controlled parking that allows drivers to

GateNews1jam yang lalu

Mantan Insinyur Seed ByteDance: Iterasi AI ByteDance Butuh Enam Bulan vs Tiga Bulan Google

Pesan Berita Gate, 24 April — Zhang Chi, mantan insinyur di tim Seed ByteDance dan kini asisten profesor di Universitas Peking, mengungkapkan dalam podcast "Into Asia" bahwa ByteDance membutuhkan sekitar enam bulan untuk menyelesaikan satu siklus penuh pelatihan pra-pelatihan model bahasa besar (pretraining

GateNews1jam yang lalu

Insinyur OpenAI Clive Chan Menantang Rekomendasi Perangkat Keras V4, Mengutip Kesalahan dan Ketidakjelasan Dibanding V3

Kabar Gerbang, 24 April — Insinyur OpenAI Clive Chan telah mengajukan keberatan terperinci terhadap bab rekomendasi perangkat keras dalam laporan teknis V4, menyebutnya "mencengangkan: biasa saja dan rawan kesalahan" dibandingkan versi V3 yang terkenal. Panduan perangkat keras V3, yang mencakup sesi Tanya Jawab

GateNews2jam yang lalu

Naver Meluncurkan Beta AI Tab saat Google Gemini Masuk Pasar Pencarian Korea Selatan

Pesan Berita Gate, 24 April — Naver mengumumkan dimulainya beta tertutup untuk AI Tab, fitur pencarian percakapan barunya, setelah peluncuran Gemini oleh Google di Chrome di Korea Selatan. AI Tab akan muncul berdampingan dengan tab pencarian Naver yang sudah ada, memberi pengguna ruang khusus untuk pertanyaan percakapan

GateNews2jam yang lalu
Komentar
0/400
Tidak ada komentar