V4-Pro Mencapai Tingkat Lolos Kode 67% dalam Uji Dogfooding Internal, Mendekati Performa Opus 4.5

Pesan Berita Gate, 24 April — V4 telah mengungkapkan secara publik data internal dogfooding untuk model V4-Pro-nya. Perusahaan mengumpulkan sekitar 200 tugas rekayasa dunia nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnostik di berbagai tumpukan teknologi termasuk PyTorch, CUDA, Rust, dan C++. Setelah penyaringan yang ketat, 30 tugas dipertahankan untuk evaluasi benchmark.

V4-Pro-Max mencapai tingkat lolos kode 67%, secara signifikan mengungguli Sonnet 4.5 pada 47% dan mendekati Opus 4.5 pada 70%. Namun, ia tertinggal dari Opus 4.5 Thinking (73%) dan Opus 4.6 Thinking (80%), sementara secara substansial melampaui Haiku 4.5 pada 13%.

Dalam survei internal dengan 85 responden, semua peserta melaporkan menggunakan V4-Pro untuk pengkodean agenik dalam alur kerja harian. 52% menyetujui V4-Pro sebagai model utama default mereka, 39% cenderung menyetujui, dan kurang dari 9% menyatakan ketidaksetujuan. Masalah yang dilaporkan termasuk error tingkat rendah, salah menafsirkan prompt yang ambigu, dan sesekali perilaku terlalu memikirkan.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Pemerintahan Trump mengumumkan rencana penindakan terhadap pemurnian AI, menuduh perusahaan Tiongkok melakukan pencurian sistematis kemampuan model

Kantor Kebijakan Teknologi Gedung Putih (OSTP), Asisten Presiden Michael J. Kratsios, pada 23 April mengeluarkan pernyataan resmi yang menyatakan bahwa pemerintahan Trump memiliki informasi, yang menunjukkan bahwa entitas asing (terutama yang berbasis di Tiongkok) secara sengaja menargetkan perusahaan-perusahaan besar kecerdasan buatan (AI) Amerika melalui serangkaian ekstraksi kemampuan model AI AS secara sistematis, menggunakan “puluhan ribu akun agen” dan sistem teknologi jailbreak, serta sekaligus mengumumkan empat langkah respons.

MarketWhisper22menit yang lalu

DeepSeek meluncurkan V4 versi pratinjau sumber terbuka, penilaian teknis 3206 melampaui GPT-5.4

DeepSeek pada 24 April secara resmi meluncurkan rangkaian pratinjau V4, dengan lisensi MIT, dan merilis kode sumber secara terbuka. Bobot model telah disinkronkan dan tersedia di Hugging Face serta ModelScope. Berdasarkan laporan teknis DeepSeek V4, V4-Pro-Max (mode kekuatan penalaran tertinggi) memperoleh 3206 poin pada benchmark Codeforces, melampaui GPT-5.4.

MarketWhisper38menit yang lalu

Cambricon Menyelesaikan Adaptasi Day 0 DeepSeek-V4, Menandai Tonggak Penting untuk Ekosistem Chip AI Tiongkok

Pesan Berita Gate, 24 April — Cambricon mengumumkan hari ini bahwa mereka telah menyelesaikan adaptasi Day 0 dari DeepSeek-V4, model bahasa besar terbaru dari DeepSeek, menggunakan ekosistem perangkat lunak NeuWare milik mereka sendiri dan framework vLLM. Kode adaptasinya juga telah dibuka-sumber secara bersamaan, menandai yang

GateNews55menit yang lalu

Tencent merilis Hy3 versi pratinjau sumber terbuka, tolok ukur pengujian kode meningkat 40% dibanding pendahulunya

Tencent pada 23 April secara resmi membuka sumber model bahasa besar Hy3 versi pratinjau di platform GitHub, Hugging Face, dan ModelScope, serta turut menyediakan layanan API berbayar melalui Tencent Cloud. Menurut laporan Decrypt pada 24 April, Hy3 versi pratinjau memulai pelatihan pada akhir Januari, dan hingga tanggal rilis kurang dari tiga bulan.

MarketWhisper1jam yang lalu

Investasi Portofolio FTX Senilai 158 Triliun Won Jika Tidak Bangkrut

FTX, bursa perdagangan mata uang kripto terpusat yang mengajukan perlindungan kebangkrutan Chapter 11 pada November 2022 karena kekurangan likuiditas dan penarikan modal, akan memiliki investasi senilai sekitar 158,796 triliun won jika tidak runtuh, menurut analisis yang dikutip oleh Park

CryptoFrontier1jam yang lalu
Komentar
0/400
Tidak ada komentar