Berita Gate, 24 April — Laporan teknis DeepSeek V4 mengungkap bahwa V4-Flash dan V4-Pro masing-masing telah dipra-latih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token yang digunakan untuk V3. Laporan tersebut mengakui menemui “tantangan ketidakstabilan yang signifikan” selama pelatihan, dengan lonjakan loss yang berulang kali terjadi akibat anomali pada lapisan Mixture-of-Experts (MoE); mekanisme routing itu sendiri memperparah anomali ini, dan rollback sederhana tidak dapat menyelesaikan masalah tersebut.
DeepSeek menerapkan dua solusi yang kini digunakan pada pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan tulang punggung dan secara otomatis hanya memicu saat lonjakan loss terdeteksi (menambahkan overhead sekitar 20%), serta SwiGLU Clamping, yang secara langsung menekan anomali dengan mengapit nilai aktivasi pada rentang tetap. Laporan tersebut menyatakan kedua pendekatan efektif, tetapi mengakui “prinsip-prinsip yang mendasarinya masih belum dipahami secara memadai.”
Susan Zhang, peneliti Google DeepMind yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan “menjelaskan keterlambatannya.” Ia menggambarkan dua solusi tersebut sebagai “perban sementara” sambil mengakui transparansi teknis DeepSeek.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Infrastruktur AI Web3 AIW3 Menggalang $2M dalam Pendanaan Seed yang Dipimpin oleh Buffalo Capital
Berita Gate, 24 April — Platform infrastruktur AI Web3, AIW3, mengumumkan penyelesaian pendanaan putaran seed sebesar $2 juta. Putaran ini dipimpin oleh Buffalo Capital, dengan GalaXin Capital dan Three-stones Ventures berpartisipasi sebagai co-investor.
AIW3 beralih menuju paradigma eksekusi on-chain Agent-as-a-Service AaaS, menyediakan layanan strategi yang dapat dipanggil, orkestrasi agen otonom, dan aliran modal yang terkoordinasi oleh vault secara native. Proyek ini bertujuan membangun lapisan eksekusi on-chain generasi berikutnya yang bersifat sistem-level.
Perusahaan menyatakan bahwa infrastruktur protokol intinya secara resmi telah memasuki tahap operasional real-time yang sepenuhnya dapat diverifikasi, meletakkan dasar bagi pengembangan jangka panjang jaringan agen terdesentralisasi yang dapat diskalakan dan ekosistemnya.
GateNews16menit yang lalu
Cohere Mengakuisisi Perusahaan AI Jerman Aleph Alpha, Mengamankan $600M Investasi untuk Ekspansi Eropa
Berita Gate, 24 April — Perusahaan AI Kanada Cohere mengumumkan rencana untuk mengakuisisi perusahaan AI Jerman Aleph Alpha guna memperkuat kehadirannya di Eropa. Schwarz Group, pendukung Aleph Alpha, berencana untuk menginvestasikan $600 juta dalam putaran pendanaan Seri E Cohere.
Putaran pendanaan diperkirakan akan ditutup pada 202
GateNews58menit yang lalu
Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show
Gate News message, April 24 — Chinese automakers showcased advanced in-car AI systems at the Beijing Auto Show on April 24, as the country accelerates its AI Plus strategy and seeks greater independence from foreign semiconductors.
Xpeng demonstrated voice-controlled parking that allows drivers to
GateNews1jam yang lalu
Mantan Insinyur Seed ByteDance: Iterasi AI ByteDance Butuh Enam Bulan vs Tiga Bulan Google
Pesan Berita Gate, 24 April — Zhang Chi, mantan insinyur di tim Seed ByteDance dan kini asisten profesor di Universitas Peking, mengungkapkan dalam podcast "Into Asia" bahwa ByteDance membutuhkan sekitar enam bulan untuk menyelesaikan satu siklus penuh pelatihan pra-pelatihan model bahasa besar (pretraining
GateNews1jam yang lalu
Insinyur OpenAI Clive Chan Menantang Rekomendasi Perangkat Keras V4, Mengutip Kesalahan dan Ketidakjelasan Dibanding V3
Kabar Gerbang, 24 April — Insinyur OpenAI Clive Chan telah mengajukan keberatan terperinci terhadap bab rekomendasi perangkat keras dalam laporan teknis V4, menyebutnya "mencengangkan: biasa saja dan rawan kesalahan" dibandingkan versi V3 yang terkenal. Panduan perangkat keras V3, yang mencakup sesi Tanya Jawab
GateNews2jam yang lalu
Naver Meluncurkan Beta AI Tab saat Google Gemini Masuk Pasar Pencarian Korea Selatan
Pesan Berita Gate, 24 April — Naver mengumumkan dimulainya beta tertutup untuk AI Tab, fitur pencarian percakapan barunya, setelah peluncuran Gemini oleh Google di Chrome di Korea Selatan.
AI Tab akan muncul berdampingan dengan tab pencarian Naver yang sudah ada, memberi pengguna ruang khusus untuk pertanyaan percakapan
GateNews2jam yang lalu