Microsoft Memperkenalkan Critique, Sistem Penelitian Mendalam Multi-Model Baru di M365 Copilot

2026-04-06 06:03:48

Secara Singkat

Microsoft telah memperkenalkan Critique, sebuah sistem riset mendalam multi-model baru di dalam Researcher, agen riset mendalam di Microsoft 365 Copilot, sebagai bagian dari dorongan yang lebih luas untuk membuat Copilot terasa lebih dapat diandalkan untuk pekerjaan pengetahuan yang serius, bukan sekadar penyusunan cepat.

Menurut Microsoft, Critique dirancang untuk tugas riset yang kompleks dan bekerja dengan memecah pekerjaan menjadi dua bagian: satu model menangani perencanaan, penelusuran, sintesis, dan penyusunan, sementara model kedua meninjau dan menyempurnakan output sebelum laporan akhir dihasilkan. Microsoft mengatakan sistem ini menggunakan model dari lab-lab terdepan termasuk OpenAI dan Anthropic, dan bahwa sistem ini tersedia sekarang melalui program Frontier perusahaan tersebut

Reuters melaporkan bahwa pada pengaturan Critique saat ini, GPT milik OpenAI menghasilkan respons dan Claude milik Anthropic meninjaunya untuk akurasi dan kualitas sebelum jawaban tersebut sampai ke pengguna. Microsoft juga mengatakan pihaknya ingin alur kerja ini menjadi dua arah nanti, yang memungkinkan model saling meninjau satu sama lain dalam kedua arah

Apa yang sebenarnya dilakukan Critique di dalam Microsoft 365 Copilot

Penjelasan Microsoft sendiri membuat jelas bahwa Critique bukan hanya fitur kosmetik atau tombol baru yang ditempelkan pada Copilot.Itu bekerja di dalam Researcher di Microsoft 365 Copilot dan dibangun untuk tugas yang lebih mendalam, di mana ketepatan sama pentingnya dengan penyelesaian yang cepat. Satu model melakukan penggalian dan menyusun laporan, sementara model kedua masuk seperti editor, memeriksa fakta, menajamkan struktur, dan membantu mengubahnya menjadi karya final yang lebih dapat diandalkan.

Microsoft mengatakan seluruh idenya adalah memisahkan pembuatan dari evaluasi, alih-alih meminta satu model untuk mengajak berwacana, menulis, memeriksa fakta, dan memoles pekerjaannya sendiri sekaligus. Pembedaan itu penting karena banyak kegagalan AI berasal dari kemacetan bottleneck satu-model tersebut. Ketika satu sistem diminta melakukan semuanya, ia dapat menghasilkan sesuatu yang terlihat rapi sambil diam-diam melewatkan celah, melampaui batas pada klaim, atau bersandar pada bukti yang lemah

Microsoft mengatakan lapisan peninjauan Critique dibangun dengan evaluasi berbasis rubrik, dengan perhatian pada keandalan sumber, kelengkapan laporan, dan landasan bukti yang ketat. Dengan bahasa sederhana, model kedua ada untuk menanyakan apakah draf tersebut benar-benar menjawab pertanyaan, apakah pengutipannya kokoh, dan apakah narasi final didukung, bukan sekadar terdengar yakin

Microsoft tidak memasarkan Critique sebagai eksperimen sampingan

Salah satu detail yang lebih penting dalam pengumuman Microsoft adalah bahwa Critique akan menjadi pengalaman default di Researcher ketika Auto dipilih di pemilih model. Itu menandakan perusahaan memandangnya sebagai lebih dari sekadar fitur lab opsional untuk pengguna berdaya. Secara efektif, perusahaan memperlakukan peninjauan multi-model sebagai standar baru untuk kualitas riset mendalam di Microsoft 365 Copilot. Itu adalah pilihan produk yang berarti, karena menunjukkan bahwa Microsoft percaya pelanggan enterprise lebih memedulikan lebih sedikit halusinasi, struktur yang lebih kuat, dan lebih banyak keyakinan pada laporan final daripada kecepatan mentah respons

Hal itu juga cocok dengan pesan yang lebih luas dari Microsoft mengenai Wave 3 dari Microsoft 365 Copilot, ketika perusahaan mendorong gagasan bahwa Copilot adalah “sistem untuk bekerja” yang dibangun di atas keunggulan multi-model, bukan pada satu lab AI mana pun. Dalam kerangka Microsoft, Copilot dimaksudkan untuk menarik kecerdasan terbaik yang tersedia dari seluruh industri, didasarkan pada konteks pekerjaan melalui apa yang disebut Work IQ dan dilindungi oleh kontrol data enterprise. Critique adalah salah satu contoh paling jelas dari strategi tersebut yang bergeser dari bahasa pemasaran menjadi fitur produk yang terlihat

Angka tolok ukur adalah bagian besar dari materi penjualan Microsoft

Microsoft tidak hanya mengatakan Critique terasa lebih baik. Microsoft juga mengatakan sistem tersebut menunjukkan kinerja yang lebih baik pada tolok ukur formal. Dalam penulisan teknisnya, perusahaan mengatakan pihaknya menguji Critique pada tolok ukur DRACO, singkatan untuk Deep Research Accuracy, Completeness, and Objectivity, yang mencakup 100 tugas riset kompleks di 10 domain. Microsoft mengatakan respons dinilai berdasarkan akurasi faktual, keluasan dan kedalaman analisis, kualitas presentasi, serta kualitas sitasi, dan bahwa Critique mengungguli versi Researcher berbasis satu model di keempat ukuran tersebut

Perusahaan menyoroti peningkatan terbesar pada keluasan dan kedalaman analisis, diikuti oleh kualitas presentasi dan akurasi faktual. Perusahaan juga mengatakan peningkatan tersebut signifikan secara statistik dan bahwa Researcher dengan Critique menghasilkan peningkatan skor agregat sebesar +7,0 poin, atau +13,88% dibandingkan Perplexity Deep Research (model Claude Opus 4.6), yang Microsoft gambarkan sebagai sistem terbaik yang dilaporkan dalam paper tolok ukur tersebut

Data | Sumber: Microsoft

Itu adalah klaim yang menarik perhatian, terutama karena perlombaan riset mendalam telah menjadi salah satu arena yang paling kompetitif di AI enterprise. Alat riset tidak lagi dinilai hanya pada apakah mereka dapat mengumpulkan informasi, tetapi pada apakah mereka dapat menyusun laporan yang terasa siap untuk pengambilan keputusan

Argumen Microsoft adalah bahwa lapisan peninjauan memaksa peneliti untuk mengidentifikasi sudut pandang yang hilang, memperketat organisasi, menantang klaim yang lemah, dan menggunakan sitasi dengan lebih hati-hati. Apakah pelanggan merasakan keuntungan tersebut dalam alur kerja nyata akan lebih penting daripada bagan tolok ukur, tetapi Microsoft jelas mencoba memberi sinyal bahwa ini adalah lompatan kualitas yang terukur, bukan pembaruan model yang samar

Council menunjukkan Microsoft berpikir melampaui satu “jawaban terbaik”

Critique bukan satu-satunya fitur yang diperkenalkan Microsoft bersamaan dengan pembaruan ini. Perusahaan juga meluncurkan Council, mode perbandingan multi-model di dalam Researcher. Microsoft mengatakan Council menjalankan model Anthropic dan OpenAI secara bersamaan, sehingga masing-masing dapat menghasilkan laporan mandiri penuh. Lalu, model juri terpisah membuat ringkasan yang dipadatkan yang menunjukkan di mana laporan-laporan tersebut saling sepakat, di mana mereka berbeda, dan apa kontribusi unik dari masing-masing. Dukungan Microsoft menjelaskan ini sebagai Model Council, sebuah mode yang mempertahankan kedua laporan lengkap dan menambahkan ringkasan perbandingan untuk membantu pengguna memutuskan keluaran mana yang lebih kuat atau bagaimana mengombinasikannya

Itu adalah sinyal yang sangat menarik tentang ke mana AI enterprise mungkin akan menuju. Untuk sementara waktu, industri bertindak seolah-olah tujuannya adalah menemukan satu model yang dapat menggantikan semua model lainnya. Langkah terbaru Microsoft menunjukkan masa depan yang lebih realistis mungkin adalah saat perusahaan tidak cukup percaya pada satu model mana pun untuk menjadikannya satu-satunya suara di ruangan tersebut

Waktu peluncuran Critique bukanlah kebetulan. Microsoft mendapat tekanan untuk menunjukkan bahwa Microsoft 365 Copilot menjadi semakin berguna, semakin terdiferensiasi, dan semakin bernilai ketika persaingan menguat

Reuters mengaitkan peluncuran Critique dan Council dengan upaya Microsoft untuk meningkatkan adopsi Copilot di pasar di mana para pesaing termasuk produk Gemini milik Google dan produk Claude dari Anthropic terus mendorong masuk kuat ke AI tempat kerja. Axios juga mencatat bahwa strategi multi-model Microsoft memiliki manfaat lain: ini menunjukkan bahwa perusahaan tidak terkunci pada ketergantungan berlebihan pada OpenAI pada saat kepemimpinan model frontier dapat bergeser dengan cepat

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.