Yifan Zhang Mengungkap Spesifikasi Teknis Lengkap DeepSeek V4: 1,6T Parameter, 384 Pakar dengan 6 Aktivasi

Berita Gate, 22 April — Mahasiswa PhD Princeton, Yifan Zhang, mengungkapkan spesifikasi teknis lengkap untuk DeepSeek V4 di X, setelah pratinjau pada 19 April. V4 memiliki 1,6 triliun parameter total dan varian ringan, V4-Lite, dengan 285 miliar parameter.

Model menggunakan mekanisme perhatian DSA2, yang menggabungkan DSA (DeepSeek Sparse Attention) sebelumnya dari DeepSeek pada V3.2 dan NSA (Native Sparse Attention) dengan embedding kepala berdimensi 512, dipasangkan dengan Sparse Multi-Query Attention (MQA) dan Sliding Window Attention (SWA). Lapisan MoE (Mixture of Experts) berisi 384 pakar dengan 6 yang diaktifkan per sekali forward pass, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan arsitektur Hyper-Connections.

Detail pelatihan yang diungkap untuk pertama kalinya mencakup penggunaan optimizer Muon (applying Newton-Schulz orthogonalization to momentum updates), jendela konteks pra-pelatihan 32K token, serta GRPO (Group Relative Policy Optimization) dengan koreksi divergensi KL selama reinforcement learning. Jendela konteks akhir diperluas hingga 1 juta token. Model hanya teks.

Zhang tidak bekerja untuk DeepSeek, dan perusahaan belum secara resmi memberikan komentar atas informasi yang diungkapkan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

OpenClaw, Hermes, dan SillyTavern Dikonfirmasi sebagai Dukungan di GLM Coding Plan

Manajer Produk Zhipu AI, Li, mengumumkan OpenClaw, Hermes, dan SillyTavern sebagai proyek yang didukung dalam GLM Coding Plan; alat lain akan dievaluasi berdasarkan kasus per kasus. Jangan bagikan kredensial atau gunakan langganan sebagai akses API; hubungi dukungan untuk error 1313. Manajer produk Zhipu AI Li mengumumkan bahwa OpenClaw, Hermes, dan SillyTavern secara resmi didukung di bawah GLM Coding Plan, dengan alat lain dievaluasi berdasarkan kasus per kasus. Catatan tersebut memperingatkan agar tidak membagikan kredensial atau menggunakan langganan sebagai akses API serta mengarahkan pengguna yang mengalami error 1313 untuk menghubungi dukungan.

GateNews2jam yang lalu

CEO Google Cloud: Gemini akan Menggerakkan Peluncuran Siri Apple yang Dipersonalisasi pada 2026

Ringkasan: Gemini akan menggerakkan Siri Apple yang dipersonalisasi pada 2026, dibangun di atas Foundation Models milik Apple dan kolaborasi Gemini; Apple sedang menguji Siri bergaya obrolan di iOS 27/macOS 27, yang dijadwalkan untuk WWDC 2026. Abstrak: Gemini milik Google Cloud ditargetkan untuk menggerakkan Siri Apple yang dipersonalisasi pada 2026, menggabungkan Gemini dengan Foundation Models milik Apple dalam kolaborasi bernilai sekitar $1 miliar. Apple sedang menguji versi Siri yang didesain ulang dan bergaya obrolan di iOS 27/macOS 27, dengan antarmuka Dynamic Island dan fitur baru, menjelang pengungkapan di WWDC 2026 pada 8 Juni.

GateNews2jam yang lalu

Kesepakatan SpaceX $60B Cursor Menjadi Bahan Dorongan Pengampunan SBF, Taruhan $200K FTX Kini Bernilai $3B

Pesan Gate News, 22 April — SpaceX mengumumkan kemitraan besar dengan startup pengkodean AI Cursor hari ini, dengan opsi untuk mengakuisisi perusahaan tersebut seharga $60 miliar. Kesepakatan ini telah memberi amunisi baru kepada Sam Bankman-Fried (SBF), yang saat ini dipenjara dan mendesak pengampunan presiden, karena hal ini menunjukkan potensi pemulihan nilai yang telah lama ia argumenkan bahwa FTX seharusnya bisa capai. Dalam kesepakatan ini, amunisi baru untuk Sam Bankman-Fried SBF, yang saat ini dipenjara dan mendorong pengampunan presiden, karena hal ini menunjukkan potensi pemulihan nilai yang telah lama ia argumenkan FTX bisa capai.

GateNews2jam yang lalu

Saham Chegg Anjlok 99% karena AI Mengganggu Pasar Edtech

Ringkasan: Chegg melonjak seiring permintaan pendidikan online, lalu alat AI mengganggu modelnya, memicu PHK besar-besaran dan anjlok hingga turun di bawah $2, dengan pergeseran yang lebih luas didorong AI yang juga menekan penambang kripto dan perusahaan fintech. Abstrak: Artikel ini menelaah kebangkitan Chegg sebagai idola edtech pada era pandemi dan penurunannya berikutnya di tengah adopsi cepat AI generatif, yang memberikan jawaban cepat dan menggerus proposisi nilai Chegg. Artikel ini mendokumentasikan PHK pada 2025 dan penurunan saham yang mendekati penghapusan pencatatan, serta menempatkan pengalaman Chegg dalam konteks gangguan AI yang lebih luas: penambang Bitcoin beralih ke operasi AI, dan strategi yang lahir dari AI mendefinisikan ulang daya saing di fintech dan seterusnya.

CryptoFrontier2jam yang lalu

OpenAI Merilis Model Filter Privasi Open-Source untuk Deteksi dan Penyensoran PII

Abstrak: Filter Privasi OpenAI adalah model open-source yang dapat dijalankan secara lokal untuk mendeteksi dan menyensor PII dalam teks. Model ini mendukung konteks yang besar, mengidentifikasi banyak kategori PII, dan dimaksudkan untuk alur kerja yang menjaga privasi seperti persiapan data, pengindeksan, pencatatan, dan moderasi. Filter Privasi OpenAI adalah model open-source yang dijalankan secara lokal (konteks 128k-token) yang mendeteksi dan menyensor PII dalam teks, mencakup data kontak, data finansial, dan data kredensial untuk alur kerja privasi.

GateNews3jam yang lalu

OpenAI Berencana Menerapkan 30GW Kekuatan Komputasi pada 2030

OpenAI menargetkan 30GW komputasi pada tahun 2030 untuk memenuhi kebutuhan AI yang terus meningkat, dengan 8GW telah diselesaikan dari target 10GW pada tahun 2025. Ekspansi ini menandakan strategi untuk memperbesar infrastruktur bagi pengembangan dan penerapan AI generasi berikutnya. OpenAI berencana mencapai 30GW kekuatan komputasi pada tahun 2030 untuk mengakomodasi meningkatnya kebutuhan AI, dengan sudah menyelesaikan 8GW dari target 10GW untuk tahun 2025. Langkah ini mencerminkan perluasan strategis infrastruktur untuk mendukung pengembangan dan penerapan AI generasi berikutnya.

GateNews3jam yang lalu
Komentar
0/400
Tidak ada komentar