Microsoft Membuka Sumber Model Phi-Ground 4B, Mengungguli OpenAI Operator dan Claude dalam Akurasi Klik Layar

Menurut Beating, Microsoft baru-baru ini merilis kode sumber terbuka keluarga model Phi-Ground, yang dirancang untuk memecahkan masalah ke mana AI harus mengklik pada layar komputer. Versi 4 miliar parameter, dipasangkan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui akurasi klik OpenAI Operator dan Claude Computer Use dalam benchmark Showdown serta menempati peringkat pertama di antara semua model dengan parameter di bawah 100 miliar pada lima evaluasi, termasuk ScreenSpot-Pro.

Tim melatih menggunakan lebih dari 40 juta sampel data dan menemukan bahwa tiga teknik pelatihan umum yang digunakan dalam paper akademik menjadi tidak efektif saat diskalakan. Pendekatan utamanya terbukti sederhana: keluarkan koordinat sebagai bilangan biasa, seperti “523, 417.” Penelitian sebelumnya menciptakan kosakata posisi khusus untuk koordinat, tetapi itu gagal untuk diskalakan. Tim juga menemukan bahwa menempatkan instruksi teks sebelum gambar meningkatkan kinerja, karena model dapat mengidentifikasi target saat memproses piksel. Selain itu, metode reinforcement learning seperti DPO meningkatkan akurasi bahkan setelah fine-tuning.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Quantra dan FishWar Mengumumkan Kemitraan Strategis untuk Mengintegrasikan AI Gaming dengan Infrastruktur RWA pada 9 Mei

Menurut pengumuman resmi pada 9 Mei, Quantra dan FishWar mengumumkan kemitraan strategis untuk menggabungkan pengalaman gaming berbasis AI dengan infrastruktur blockchain aset dunia nyata. Kolaborasi ini, dibagikan melalui kanal media sosial resmi kedua perusahaan, bertujuan mengintegrasikan solusi tokenisasi RWA Quantra dengan platform GameFi FishWar di Sei Network. Kemitraan ini berupaya memperkuat skalabilitas gaming berbasis blockchain, interaksi on-chain, serta integrasi aset digital sekali

GateNews6menit yang lalu

Sam Altman Mengungkap Pembagian Penggunaan ChatGPT Berdasarkan Usia, Dengan Lebih dari Sepertiga Usia 18-24 Tahun Menggunakannya Setiap Hari pada 10 Mei

Menurut Fortune, CEO OpenAI Sam Altman mengungkapkan pada 10 Mei bahwa pengguna ChatGPT di berbagai kelompok usia memiliki pola penggunaan yang berbeda. Pengguna yang lebih tua memperlakukan platform ini sebagai pengganti penelusuran Google, sementara mereka yang berusia 20-an dan 30-an menggunakannya sebagai penasihat pribadi. Mahasiswa universitas memanfaatkannya sebagai sistem operasi harian, dengan mengandalkan memori percakapan untuk saran emosional, negosiasi karier, konsultasi medis, dan

GateNews46menit yang lalu

Sekretaris Keuangan Hong Kong Paul Chan Menyoroti Tiga Keunggulan Utama Greater Bay Area: AI, Manufaktur, dan Keuangan

Menurut ChainCatcher, Sekretaris Keuangan Hong Kong Paul Chan baru-baru ini merilis pernyataan tertulis yang menguraikan tiga keunggulan inti Greater Bay Area: riset AI mutakhir, rantai manufaktur kelas atas yang lengkap, dan pusat keuangan internasional. Chan menyatakan bahwa kombinasi “AI + manufaktur + keuangan” ini menempatkan Hong Kong untuk menjalankan dua fungsi kunci selama periode Rencana Lima Tahun ke-15: koordinasi industri dan penghubung regulasi, termasuk bertindak sebagai “antarmuk

GateNews1jam yang lalu

Perselisihan Mode Kode Anthropic: MCP Vs CLI—alat mengunci Runtime, token dari 150K turun ke 2K

Sepanjang tahun 2025, komunitas engineering AI terus berdebat soal “MCP vs CLI” mana yang lebih cocok untuk pemanggilan alat (tool) oleh agent, dan makalah Anthropic berjudul “Code execution with MCP” yang diterbitkan pada November 2025 mendefinisikan ulang masalah ini dari prinsip paling dasar. akshay\pachaar menyusun rangkaian thread pada 5/10 untuk menjelaskan: masalahnya tidak pernah ada pada protokol itu sendiri, melainkan pada kebiasaan lama yaitu saat session dimulai, semua deskripsi tool

ChainNewsAbmedia4jam yang lalu

ByteDance Berencana Meningkatkan Belanja Infrastruktur AI sebesar 25% menjadi 200 miliar yuan Tahun Ini

Berdasarkan ChainCatcher yang mengutip Golden Data, ByteDance berencana meningkatkan belanja infrastruktur AI sebesar 25% menjadi 200 miliar yuan tahun ini, didorong oleh kenaikan biaya chip memori dan percepatan pengembangan kecerdasan buatan.

GateNews4jam yang lalu

Platform AI Perusahaan Menutup $16M Putaran Pendanaan yang Dipimpin oleh a16z

Menurut Odaily, platform AI perusahaan Pit mengumumkan penyelesaian putaran pendanaan senilai 16 juta dolar AS yang dipimpin oleh a16z, dengan partisipasi dari Lakestar serta eksekutif dari OpenAI, Anthropic, Google, Deel, dan Revolut. Pit memposisikan dirinya sebagai “tim produk AI sebagai layanan”, yang dirancang untuk menggantikan spreadsheet tradisional dan sistem SaaS yang kaku.

GateNews4jam yang lalu
Komentar
0/400
Tidak ada komentar