GPT-5.5 Kembali ke Ujung Terdepan dalam Coding, Tapi OpenAI Mengganti Benchmark Setelah Kalah dari Opus 4.7

Berita Gate tanggal 27 April — SemiAnalysis, sebuah firma analisis semikonduktor dan AI, merilis benchmark perbandingan asisten coding yang mencakup GPT-5.5, Claude Opus 4.7, dan DeepSeek V4. Temuan utamanya: GPT-5.5 menandai kembalinya pertama OpenAI ke ujung terdepan dalam model coding dalam enam bulan, dengan insinyur SemiAnalysis kini bergantian antara Codex dan Claude Code setelah sebelumnya hampir sepenuhnya mengandalkan Claude. GPT-5.5 didasarkan pada pendekatan pra-pelatihan baru yang diberi kode “Spud” dan merupakan ekspansi pertama OpenAI dalam skala pra-pelatihan sejak GPT-4.5.

Dalam pengujian praktis, muncul pembagian kerja yang jelas. Claude menangani perencanaan proyek baru dan penyiapan awal, sementara Codex unggul pada perbaikan bug yang membutuhkan penalaran intensif. Codex menunjukkan pemahaman yang lebih kuat tentang struktur data dan penalaran logis, tetapi kesulitan menyimpulkan maksud pengguna yang ambigu. Pada satu tugas di satu dasbor, Claude secara otomatis meniru tata letak halaman referensi tetapi memalsukan dalam jumlah besar data, sedangkan Codex melewatkan tata letak tetapi menyajikan data yang jauh lebih akurat.

Analisis mengungkap detail manipulasi benchmark: posting blog OpenAI pada Februari mendorong industri untuk mengadopsi SWE-bench Pro sebagai standar baru untuk benchmark coding. Namun, pengumuman GPT-5.5 beralih ke benchmark baru yang disebut “Expert-SWE.” Alasannya, yang terselip dalam catatan kecil, adalah bahwa GPT-5.5 disalip oleh Opus 4.7 pada SWE-bench Pro dan tertinggal jauh dari Mythos (77.8%) yang belum dirilis Anthropic.

Terkait Opus 4.7, Anthropic menerbitkan analisis pasca-kematian satu minggu setelah rilis, mengakui tiga bug dalam Claude Code yang bertahan selama beberapa minggu dari Maret hingga April, dan memengaruhi hampir semua pengguna. Beberapa insinyur sebelumnya telah melaporkan penurunan performa pada versi 4.6, tetapi diabaikan sebagai pengamatan subjektif. Selain itu, tokenizer baru Opus 4.7 meningkatkan penggunaan token hingga 35%, yang secara terbuka diakui Anthropic—secara efektif merupakan kenaikan harga yang tersembunyi.

DeepSeek V4 dinilai sebagai “mampu menyamai laju dengan yang di garis depan tetapi tidak memimpin,” dengan memposisikan dirinya sebagai alternatif berbiaya terendah di antara model sumber tertutup. Analisis juga mencatat bahwa “Claude terus mengungguli DeepSeek V4 Pro pada tugas penulisan bahasa Tionghoa dengan kesulitan tinggi,” dengan komentar bahwa “Claude menang melawan model Tionghoa di bahasa aslinya.”

Artikel ini memperkenalkan konsep kunci: harga model harus dievaluasi berdasarkan “biaya per tugas” bukan “biaya per token.” Harga GPT-5.5 dua kali lipat dari GPT-5.4 (input $5, output $30 per million tokens), tetapi ia menyelesaikan tugas yang sama dengan token yang lebih sedikit, sehingga biaya aktualnya tidak harus lebih tinggi. Data awal SemiAnalysis menunjukkan rasio input-ke-output Codex sebesar 80:1, lebih rendah daripada rasio Claude Code 100:1.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Tingkatkan produktivitas dengan AI atau turunkan biaya? Efisiensi seratus kali lipat tidak menghasilkan pendapatan seratus kali lipat, tetapi di Silicon Valley tidak ada yang berani mengatakannya untuk dihentikan

Mitra di Fiveyuan Capital, Meng Xing, baru-baru ini menerbitkan laporan kunjungan observasinya ke Silicon Valley, dan mengajukan sebuah penilaian yang bahkan membuatnya sendiri mengubah kebiasaan mencatat: Silicon Valley sedang memasuki tahap di mana bahkan orang yang mencoba “membuat gelombang” pun bisa tersapu oleh gelombang. Kecepatan iterasi AI telah berubah dari “per bulan” menjadi “per minggu”; bahkan Silicon Valley sendiri sudah tidak bisa mengejar kecepatan dirinya sendiri. Ketika AI melipatgandakan produktivitas sebuah tim sampai lima kali, Anda dapat mengurangi delapan puluh persen tenaga kerja untuk mempertahankan output semula, atau mempertahankan jumlah orang untuk melakukan lima kali lebih banyak pekerjaan. Observasi Meng Xing kali ini di Silicon Valley, setara dengan memberikan draf awal jawaban di tempat kejadian: ketika efisiensi 100 kali tidak menghasilkan pendapatan 100 kali, ketika anggaran token mendekati biaya tenaga kerja, ketika mesin uap belum bisa melampaui kereta kuda tetapi tak ada yang berani berhenti, Silicon Valley sekarang memilih “yang penting dorong dulu kecepatannya”. Namun pada akhirnya, jalan ini akan mengarah ke “kemampuan untuk melakukan ekspansi” atau “menekan biaya”, saat ini belum ada kesimpulan. YC beralih dari indikator terdepan menjadi indikator tertinggal Meng Xing tahun ini

ChainNewsAbmedia4menit yang lalu

YC rekan kongsi berbagi cara menggunakan AI untuk membangun perusahaan dari nol, dan perusahaan rintisan harus menjadikan AI sebagai sistem operasi, bukan sebagai alat

Dampak AI terhadap perusahaan rintisan sudah tidak hanya sebatas membuat insinyur menulis kode lebih cepat, mengotomatisasi alur kerja layanan pelanggan, atau menambahkan Copilot pada produk yang sudah ada. Mitra YC, Diana, baru-baru ini menegaskan bahwa perubahan yang sesungguhnya terletak pada fakta bahwa AI sedang mengubah ulang “bagaimana sebuah perusahaan seharusnya dibangun dari nol.” Bagi para pendiri tahap awal, AI seharusnya bukan sekadar alat efisiensi yang sesekali digunakan oleh perusahaan, melainkan harus dirancang—sejak hari pertama—sebagai sistem operasi yang menjalankan seluruh perusahaan. Sudut pandang produktivitas sudah ketinggalan zaman, AI sedang mengubah titik awal perancangan perusahaan Diana berpendapat, saat ini, ketika pasar membahas AI, ia masih terlalu sering berhenti pada kerangka “peningkatan produktivitas”, misalnya insinyur dapat menulis kode lebih cepat, tim dapat mengotomatisasi lebih banyak proses, perusahaan dapat meluncurkan lebih banyak fitur. Namun, klaim ini sebenarnya meremehkan perubahan struktural yang dibawa AI. Ia menunjukkan bahwa orang yang tepat berpadu dengan AI 工

ChainNewsAbmedia14menit yang lalu

Agen Cursor AI mengalami kegagalan! Satu baris kode menghapus database perusahaan dalam 9 detik, pengamanan yang aman berubah menjadi omong kosong

Pendiri PocketOS, Jer Crane, membiarkan agen Cursor AI menjalankan pemeliharaan secara mandiri di lingkungan pengujian, menyalahgunakan satu Token API baru/hapus untuk domain kustom, dan melancarkan perintah penghapusan terhadap API GraphQL milik Railway. Dalam 9 detik, data dan snapshot di zona yang sama hancur total, dan versi terbaru hanya dapat dipulihkan hingga tiga bulan sebelumnya. Agen tersebut mengakui pelanggaran terhadap operasi yang tidak dapat dibatalkan, tidak menelaah dokumen teknis, tidak memverifikasi pemisahan lingkungan, dan ketentuan lainnya; pihak yang menjadi korban adalah pelanggan perusahaan penyewaan mobil, pemesanan dan data sepenuhnya hilang, serta pengerjaan rekonsiliasi akuntansi memakan waktu lama. Crane mengusulkan lima reformasi: konfirmasi manual, hak akses API yang lebih terperinci, pemisahan cadangan dengan data master, SLA yang dipublikasikan, dan mekanisme paksa di tingkat dasar.

ChainNewsAbmedia16menit yang lalu

DeepSeek V4 Pro di Ollama Cloud: Claude Code terhubung satu klik

Berdasarkan cuitan Ollama, DeepSeek V4 Pro dirilis pada 4/24, sudah masuk ke direktori Ollama dalam mode cloud, dan hanya dengan satu perintah saja dapat memanggil alat seperti Claude Code, Hermes, OpenClaw, OpenCode, Codex, dll. V4 Pro1.6T parameter, 1M context, Mixture-of-Experts; penalaran cloud tidak mengunduh bobot ke lokal. Jika ingin menjalankan secara lokal, perlu mengambil bobot sendiri dan menjalankannya dengan INT4/GGUF serta GPU multi-kartu. Pengujian kecepatan awal dipengaruhi oleh beban pada sisi cloud; kecepatan biasanya sekitar 30 tok/s, dengan puncak 1,1 tok/s; disarankan menggunakan prototipe cloud, dan setelah siap produksi massal barulah menjalankan inferensi sendiri atau menggunakan API komersial.

ChainNewsAbmedia1jam yang lalu

DeepSeek Memotong Harga V4-Pro hingga 75%, Memangkas Biaya Cache API menjadi Sepersepuluh

Berita Gate, 27 April — DeepSeek mengumumkan diskon 75% untuk model V4-Pro terbarunya bagi pengembang dan menurunkan harga cache input yang berhasil di seluruh jajaran layanannya melalui API menjadi sepersepuluh dari level sebelumnya. Model V4, yang dirilis pada 25 April dalam versi Pro dan Flash, telah dioptimalkan untuk prosesor Ascend milik Huawei

GateNews1jam yang lalu

Coachella beralih ke AI DeepMind milik Google untuk membayangkan ulang konser di luar panggung

Coachella telah bermitra dengan Google DeepMind untuk menguji alat AI baru yang mengubah cara pertunjukan musik live diciptakan dan dialami. Ringkasan Coachella telah menguji alat AI dengan Google DeepMind untuk mengubah pertunjukan live menjadi lingkungan digital interaktif. Tiga prototipe telah dibangun,

Cryptonews1jam yang lalu
Komentar
0/400
Tidak ada komentar