Pesan Gate News, 24 April — Pemimpin tim model bahasa besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam bahwa model MiMo-V2-Pro memiliki total 1 triliun parameter dan memerlukan ribuan GPU untuk pelatihan. Ia mencatat bahwa skala 1T mewakili ambang batas minimum untuk mencapai kinerja yang mendekati tingkat Claude Opus 4.6 dan mendapatkan tiket masuk yang kompetitif untuk fase berikutnya dari agen AI.

Secara teknis, versi Pro menggunakan mekanisme extreme sparse attention dengan rasio 7:1 antara global attention dan sliding window attention, untuk mengendalikan biaya inferensi bagi pemrosesan konteks panjang. Model ini juga mempertahankan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kelebihan daya komputasi agar inferensi lebih cepat.

Dari sisi manajemen, tim MiMo yang beranggotakan 100 orang hanya memiliki 30–40 orang yang terlibat langsung dalam iterasi inti. Tim beroperasi tanpa hierarki formal atau pembagian sub-kelompok yang eksplisit, serta tanpa tenggat waktu pengiriman. Saat menghadapi masalah numerik yang tidak stabil seperti lonjakan training loss, tim memprioritaskan menghentikan pelatihan untuk investigasi, bahkan jika itu berarti menghentikan operasi selama satu atau dua minggu dan menimbulkan biaya komputasi hingga jutaan dolar.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Infrastruktur AI Web3 AIW3 Menggalang $2M dalam Pendanaan Seed yang Dipimpin oleh Buffalo Capital

Agen AI Berita Industri AI

Berita Gate, 24 April — Platform infrastruktur AI Web3, AIW3, mengumumkan penyelesaian pendanaan putaran seed sebesar $2 juta. Putaran ini dipimpin oleh Buffalo Capital, dengan GalaXin Capital dan Three-stones Ventures berpartisipasi sebagai co-investor. AIW3 beralih menuju paradigma eksekusi on-chain Agent-as-a-Service AaaS, menyediakan layanan strategi yang dapat dipanggil, orkestrasi agen otonom, dan aliran modal yang terkoordinasi oleh vault secara native. Proyek ini bertujuan membangun lapisan eksekusi on-chain generasi berikutnya yang bersifat sistem-level. Perusahaan menyatakan bahwa infrastruktur protokol intinya secara resmi telah memasuki tahap operasional real-time yang sepenuhnya dapat diverifikasi, meletakkan dasar bagi pengembangan jangka panjang jaringan agen terdesentralisasi yang dapat diskalakan dan ekosistemnya.

GateNews7menit yang lalu

Cohere Mengakuisisi Perusahaan AI Jerman Aleph Alpha, Mengamankan $600M Investasi untuk Ekspansi Eropa

Berita Industri AI

Berita Gate, 24 April — Perusahaan AI Kanada Cohere mengumumkan rencana untuk mengakuisisi perusahaan AI Jerman Aleph Alpha guna memperkuat kehadirannya di Eropa. Schwarz Group, pendukung Aleph Alpha, berencana untuk menginvestasikan $600 juta dalam putaran pendanaan Seri E Cohere. Putaran pendanaan diperkirakan akan ditutup pada 202

GateNews48menit yang lalu

Xpeng, Xiaomi Lead In-Car AI Push at Beijing Auto Show

Berita Industri AI

Gate News message, April 24 — Chinese automakers showcased advanced in-car AI systems at the Beijing Auto Show on April 24, as the country accelerates its AI Plus strategy and seeks greater independence from foreign semiconductors. Xpeng demonstrated voice-controlled parking that allows drivers to

GateNews1jam yang lalu

Mantan Insinyur Seed ByteDance: Iterasi AI ByteDance Butuh Enam Bulan vs Tiga Bulan Google

Berita Industri AI

Pesan Berita Gate, 24 April — Zhang Chi, mantan insinyur di tim Seed ByteDance dan kini asisten profesor di Universitas Peking, mengungkapkan dalam podcast "Into Asia" bahwa ByteDance membutuhkan sekitar enam bulan untuk menyelesaikan satu siklus penuh pelatihan pra-pelatihan model bahasa besar (pretraining

GateNews1jam yang lalu

Insinyur OpenAI Clive Chan Menantang Rekomendasi Perangkat Keras V4, Mengutip Kesalahan dan Ketidakjelasan Dibanding V3

Berita Industri AI

Kabar Gerbang, 24 April — Insinyur OpenAI Clive Chan telah mengajukan keberatan terperinci terhadap bab rekomendasi perangkat keras dalam laporan teknis V4, menyebutnya "mencengangkan: biasa saja dan rawan kesalahan" dibandingkan versi V3 yang terkenal. Panduan perangkat keras V3, yang mencakup sesi Tanya Jawab

GateNews2jam yang lalu

Naver Meluncurkan Beta AI Tab saat Google Gemini Masuk Pasar Pencarian Korea Selatan

Berita Industri AI

Pesan Berita Gate, 24 April — Naver mengumumkan dimulainya beta tertutup untuk AI Tab, fitur pencarian percakapan barunya, setelah peluncuran Gemini oleh Google di Chrome di Korea Selatan. AI Tab akan muncul berdampingan dengan tab pencarian Naver yang sudah ada, memberi pengguna ruang khusus untuk pertanyaan percakapan

GateNews2jam yang lalu

Komentar

0/400

Tidak ada komentar