Vision Banana milik Google: Model Visi Terpadu Mengungguli Model yang Spesifik Tugas dalam Segmentasi dan Geometri 3D

Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Perusahaan Data AI Mercor Terseret Setidaknya 7 Gugatan Class-Action atas Kebocoran Data, Pemantauan Komputer

Pesan Berita Gate, 23 April — Perusahaan pelabelan data AI Mercor, bernilai $10 miliar dan berbasis di San Francisco, menghadapi setidaknya tujuh gugatan class-action dalam beberapa minggu terakhir terkait pelanggaran data pihak ketiga. Perusahaan ini bekerja dengan klien termasuk OpenAI, Anthropic, dan Meta, menyediakan data umpan balik untuk pelatihan AI melalui pekerja yang dikontrakkan. Data yang bocor mencakup wawancara video kontraktor, data biometrik wajah, dan tangkapan layar komputer. Gugatan yang diajukan pada Selasa di California Utara menuduh bahwa Mercor mengumpulkan data pemeriksaan latar belakang pelamar kerja dan membagikannya kepada mitra dengan melanggar peraturan federal. Para penggugat juga menuduh perusahaan memantau komputer kontraktor dan membagikan data kepada klien, menggunakan wawancara video untuk melatih model AI, serta melatih model klien pada materi yang berpotensi milik perusahaan lain. Mercor membantah tuduhan tersebut, dengan menyatakan bahwa pihaknya mematuhi semua hukum yang berlaku dan telah merekrut ahli forensik pihak ketiga untuk menyelidiki kebocoran. David Bevvino-Berv, mantan karyawan Goldman Sachs dan salah satu penggugat, mengklaim bahwa ia melihat model keuangan dan prompt yang berisi penanda terminal data institutional serta nama pihak lawan yang sebenarnya saat bekerja di Mercor, yang menunjukkan adanya informasi milik perusahaan lain. Penggugat lain, Thitipun Srinarmwong, menuduh bahwa manajer proyek mendorong para pekerja untuk menggunakan data nyata dari pekerjaan utama mereka dengan hanya melakukan anonimisasi, dan bahwa para peninjau mengkritik pengajuannya sebagai "terlalu pendek dan terlalu samar" ketika ia sengaja menyamarkan informasi sensitif. Mercor mewajibkan para kontraktor memasang perangkat lunak tangkapan layar Insightful, yang menurut para pekerja dapat menangkap tangkapan layar setiap menit. Bevvino-Berv melaporkan bahwa Insightful menangkap gambar sekitar 240 aplikasi, termasuk portal rekening bank dan asuransi kesehatannya, tanpa pemberitahuan sebelumnya bahwa pemantauan akan meluas di luar pekerjaan yang terkait Mercor. Meta telah menghentikan kerja sama dengan Mercor dan meluncurkan penyelidikan. Mercor mempekerjakan 30.000 kontraktor pada tahun 2025.

GateNews21menit yang lalu

SpaceX Memperkirakan Total Pasar yang Dapat Ditargetkan Sebesar $28,5 Triliun, Dengan $26,5T Berasal dari Sektor AI

Pesan Berita Gate, 23 April — SpaceX memperkirakan total pasar yang dapat ditargetkan (TAM) sebesar $28,5 triliun, menurut dokumen internal. Perusahaan memproyeksikan bahwa lebih dari 90% pasar, sekitar $26,5 triliun, akan berasal dari kecerdasan buatan. AI perusahaan diperkirakan akan menyumbang sebagian besar peluang pasar AI, yang mewakili sekitar $22,7 triliun dari total TAM.

GateNews57menit yang lalu

《Kumpulan Naval》 Naval meluncurkan dana AI USVC, investor ritel juga bisa berinvestasi sebelum listing di OpenAI, Anthropic

Investor terkenal Silicon Valley yang berada di bawah Naval, AngelList, baru-baru ini meluncurkan dana baru bernama USVC, dengan fokus agar investor ritel juga dapat berpartisipasi secara tidak langsung dalam perusahaan teknologi pra-terdaftar yang sedang populer seperti OpenAI, Anthropic, xAI, Vercel, Crusoe, Sierra, dan Legora dengan ambang batas serendah 500 dolar. Pihak resmi mengemasnya sebagai “berinvestasi untuk membangun perusahaan masa depan sebelum semuanya menjadi jelas” dan menekankan bahwa ini adalah dana yang terbuka untuk semua investor, tanpa perlu kualifikasi sebagai investor terakreditasi, mencoba mengubah aset ventura yang sebelumnya hanya dimiliki oleh orang kaya dan kalangan dalam menjadi produk yang juga bisa dijangkau oleh investor ritel. Berinvestasi pada perusahaan AI tahap awal cukup dengan 500 dolar Narasi inti USVC sangat jelas: ketika semakin banyak startup bintang memilih untuk bertahan lebih lama di pasar privat, pertumbuhan valuasi yang benar-benar meledak, sering kali terjadi pada I

ChainNewsAbmedia1jam yang lalu

Tesla Akan Mengakuisisi Perusahaan Perangkat Keras AI hingga $2 Billion

Berita Gate, 23 April — Tesla mengumumkan pada 23 April bahwa pihaknya telah menyetujui untuk mengakuisisi sebuah perusahaan perangkat keras kecerdasan buatan dengan nilai hingga $2 miliar dalam saham biasa Tesla dan penghargaan ekuitas. Sekitar $1.8 miliar

GateNews1jam yang lalu

Biaya per jam lembaga hukum top berapa lebih dari 2.000 dolar AS, dokumen pengadilan dibongkar “halusinasi AI, penuh kesalahan”

Firma hukum terkemuka di Amerika, dokumen pengadilan yang diajukan oleh Sullivan & Cromwell dalam kasus kepailitan di Manhattan dari Suliivan·Cromwell diduga berisi sekitar tiga puluh kesalahan yang dihasilkan AI, kasus-kasus palsu, dan pasal-pasal yang direkayasa, sehingga meminta maaf kepada hakim. Meski ada biaya per jam yang tinggi dan kebijakan pelatihan internal, dalam praktik persiapannya tidak dilaksanakan pemeriksaan, peristiwa ini kembali memicu perbincangan tentang penggunaan AI di bidang hukum dan tanggung jawab moral.

ChainNewsAbmedia1jam yang lalu

DeepSeek Merilis TileKernels Secara Open Source, Pustaka Kernel GPU untuk Pelatihan dan Inferensi Model Besar

Pesan Gate News, 23 April — DeepSeek telah merilis TileKernels sebagai open source di bawah lisensi MIT, sebuah pustaka kernel GPU yang ditulis dalam TileLang untuk pelatihan dan inferensi model bahasa besar. TileLang adalah bahasa pemrograman khusus domain yang dikembangkan oleh tim tile-ai untuk mengekspresikan kernel GPU berperforma tinggi dalam

GateNews1jam yang lalu
Komentar
0/400
Tidak ada komentar