Google merilis Gemini Omni Flash: pengeditan video interaktif, terintegrasi dengan YouTube Shorts dan Google Flow

MarketWhisper
GOOGLX-1,08%

Gemini Omni Flash

Google pada 19 Mei mengumumkan peluncuran produk pertama dari rangkaian Gemini Omni di Google I/O 2026 — Gemini Omni Flash — dan pada 22 Mei merilis spesifikasi teknisnya secara resmi di situs web resmi; platform awal yang terintegrasi mencakup aplikasi Gemini, Google Flow, dan YouTube Shorts.

Fungsi inti Gemini Omni Flash yang telah dikonfirmasi

Pengeditan video berbasis percakapan: pengguna mengedit video melalui instruksi bahasa alami; setiap instruksi dieksekusi secara kumulatif berdasarkan instruksi sebelumnya; model mempertahankan konsistensi peran, efek fisik yang andal, dan memori skenario, mendukung perubahan latar, gaya, sudut, atau detail spesifik tanpa perlu meng-generate ulang seluruh cuplikan.

Simulasi mesin fisika tingkat lanjut: pemahaman intuitif Omni terhadap gravitasi, momentum, dan dinamika fluida meningkatkan realisme skenario, memungkinkan pengguna membuat efek fisika yang lebih akurat seperti skenario dinamis misalnya tabrakan objek, aliran cairan, dan reaksi berantai.

Generasi input multimoda: Omni dapat memproses kombinasi input apa pun (gambar, teks, potongan video, audio) sebagai satu instruksi dan menghasilkan konten keluaran yang seragam; pada tahap awal, input audio mendukung kutipan suara, sementara tipe input audio lainnya akan dirilis pada tahap berikutnya.

Integrasi pengetahuan dan visualisasi konsep: Omni mengadopsi pengetahuan Gemini tentang latar sejarah, sains, dan budaya, melampaui sekadar pencocokan pola; Omni dapat menghasilkan konten penjelasan berdasarkan petunjuk singkat, misalnya menjelaskan konsep sains kompleks seperti pelipatan protein dengan animasi tanah liat.

Fitur figur virtual digital (Avatar): pengguna dapat membuat versi digital yang mencakup suara mereka sendiri, lalu menghasilkan video dengan tampilan dan suara yang mirip dengan diri sendiri; fitur pengeditan audio dan pengeditan suara masih dalam tahap pengujian, belum dibuka untuk semua pengguna.

Watermark SynthID: mekanisme transparensi konten AI yang telah dikonfirmasi

Semua video yang dibuat melalui Gemini Omni akan secara otomatis menyematkan watermark digital SynthID; ini adalah teknologi watermark tak terlihat yang dikembangkan oleh Google DeepMind, dan setelah disematkan tidak memengaruhi kualitas visual video. Pengguna dapat memverifikasi apakah video dihasilkan oleh Gemini Omni melalui tiga kanal yang telah dikonfirmasi: aplikasi Gemini, Gemini di browser Chrome, dan Google Search. Google mengatakan alat verifikasi SynthID bertujuan membantu pengguna memahami cara konten di internet dibuat dan diedit, sebagai bagian dari kebijakan pengembangan AI yang bertanggung jawab.

Kanal akses yang telah dikonfirmasi dan jadwal peluncuran

Segera tersedia: pengguna langganan berbayar Google AI Plus, Pro, dan Ultra, melalui aplikasi Gemini dan Google Flow

Dalam minggu ini: pengguna aplikasi YouTube Shorts dan YouTube Create, gratis tersedia

Dalam beberapa minggu: pengembang dan klien perusahaan, melalui Gemini API dan Agent Platform API

Pertanyaan yang sering diajukan

Apa perbedaan teknis “model dunia” dalam Gemini Omni Flash dibandingkan model generasi video biasa?

Google memposisikan Gemini Omni sebagai “model dunia”, yang berarti model tidak hanya melakukan pemetaan generasi input-ke-output, tetapi juga memiliki kemampuan penalaran kausal berdasarkan basis pengetahuan dunia nyata yang dipelajari melalui pelatihan Gemini (termasuk hukum fisika, latar budaya, pengetahuan sejarah, dan pengetahuan sains). Misalnya, memprediksi perilaku objek berikutnya dalam sebuah skenario, menerapkan efek mesin fisika nyata, serta mengubah deskripsi bahasa menjadi konten visual dengan makna semantik. Ini berbeda dari model difusi video yang sepenuhnya berbasis pencocokan pola, baik dari sisi tujuan desain maupun perbedaan posisinya pada tingkat arsitektur.

Apakah watermark SynthID bisa dihapus atau diakali?

Penjelasan resmi Google mengonfirmasi bahwa watermark SynthID tidak terlihat (tidak memengaruhi konten visual video), disematkan dalam struktur digital video, dan dapat diverifikasi melalui alat verifikasi resmi Google. Google tidak mengungkapkan dalam dokumen resminya metode implementasi teknis spesifik watermark tersebut; evaluasi teknis independen terkait keandalan SynthID dan ketahanannya terhadap manipulasi saat ini belum ada catatan publik.

Format input apa yang saat ini didukung oleh Gemini Omni Flash, dan tipe output apa yang akan diperluas ke depan?

Dukungan input yang telah dikonfirmasi: teks, gambar statis, potongan video, audio suara (pada tahap awal). Google di blog resminya mengonfirmasi bahwa input audio jenis lainnya “akan segera” dirilis sebagai pelengkap. Untuk output, fokus versi Omni Flash saat ini adalah output video; Google menyatakan bahwa ke depan Omni seri akan mendukung mode output gambar dan audio, tetapi jadwal peluncurannya yang spesifik belum dikonfirmasi dalam pengumuman ini.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar