Penulis: Moonshot
Pada tahun 1947, Alan Turing menyebut dalam sebuah pidato, “Yang kita inginkan adalah mesin yang dapat belajar dari pengalaman.”
78 tahun kemudian, Penghargaan Turing yang dinamai sesuai dengan Turing, yang dikenal sebagai “Nobel dalam bidang komputer”, diberikan kepada dua ilmuwan yang telah berdedikasi seumur hidup untuk memecahkan masalah Turing ini.
Andrew Barto dan Richard Sutton meraih Penghargaan Turing tahun 2024 bersama-sama. Mereka adalah mentor dan murid yang terpaut sembilan tahun, merupakan perintis teknologi AlphaGo dan ChatGPT, serta perintis teknologi dalam bidang pembelajaran mesin.
Penerima Penghargaan Turing Andrew Barto dan Richard Sutton
Sumber gambar: Situs web resmi Penghargaan Turing
Kepala Ilmuwan Google Jeff Dean dalam pidato penerimaan menulis, “Teknologi pembelajaran penguatan yang ditemukan oleh Barto dan Sutton langsung menjawab pertanyaan Turing. Pekerjaan mereka adalah kunci kemajuan kecerdasan buatan selama beberapa dekade terakhir. Alat yang mereka kembangkan masih menjadi pijakan inti bagi kemakmuran kecerdasan buatan… Google sangat bangga menjadi sponsor Penghargaan ACM A.M. Turing.”
Satu-satunya sponsor dari hadiah Turing senilai 1 juta dolar adalah Google.
Namun setelah memenangkan penghargaan, dua ilmuwan yang berdiri di bawah sorotan justru mengarahkan pedang ke perusahaan AI besar, mereka menyampaikan ‘ucapan terima kasih’ kepada media: perusahaan AI saat ini ‘terdorong oleh insentif bisnis’ bukan fokus pada penelitian teknis, di masyarakat ‘membangun jembatan yang belum diuji, membiarkan orang menguji jembatan itu.’
Tidak hanya itu, pemenang penghargaan Turing Award terakhir bagi ilmuwan di bidang kecerdasan buatan adalah pada tahun 2018, yaitu Joshua Benjio, Geoffrey Hinton, dan Yann LeCun yang menerima penghargaan atas kontribusi mereka dalam bidang pembelajaran mendalam.
Pemenang Hadiah Turing tahun 2018
Sumber gambar: eurekalert
Di antara mereka, Joshua Benzhio dan Jeffrey Sinton (juga pemenang Hadiah Nobel Fisika 2024) sebagai dua ‘bapak kecerdasan buatan’ telah sering memperingatkan masyarakat global dan dunia ilmiah untuk mewaspadai penyalahgunaan kecerdasan buatan oleh perusahaan-perusahaan besar dalam gelombang kecerdasan buatan dalam dua tahun terakhir.
Jeffrey Sinton bahkan langsung mengundurkan diri dari Google agar bisa ‘berbicara secara bebas’, Sandton yang memenangkan penghargaan kali ini juga pernah menjadi ilmuwan peneliti di DeepMind dari tahun 2017 hingga 2023.
Ketika kehormatan tertinggi dalam dunia komputer diberikan kepada para penggagas inti teknologi AI, sebuah fenomena yang menarik perlahan muncul:
Mengapa para ilmuwan puncak ini selalu memutar badan di bawah sorotan dan memukul bel AI?
Pembangun Jembatan “Penghubung” Kecerdasan Buatan
Jika Alan Turing adalah pionir kecerdasan buatan, maka Andrew Barto dan Richard Sutton adalah ‘pembangun jembatan’ di jalan ini.
Saat kecerdasan buatan merajalela, setelah dipuji, apakah mereka dapat kembali meninjau jembatan yang mereka bangun, apakah dapat menanggung lalu lintas manusia dengan aman?
Mungkin jawabannya tersembunyi dalam karier akademis mereka yang melintasi setengah abad - hanya dengan melacak kembali bagaimana mereka membangun ‘mesin belajar’, kita dapat memahami mengapa mereka waspada terhadap ‘kegagalan teknologi’.
Sumber gambar: Universitas Carnegie Mellon
Pada tahun 1950, Alan Turing dalam makalah terkenalnya ‘Computing Machinery and Intelligence’, secara langsung mengajukan pertanyaan filosofis dan teknis:
“Apakah mesin bisa berpikir?”
Dengan demikian, Turing merancang ‘permainan tiruan’ yang kemudian dikenal luas sebagai ‘Tes Turing’.
Turing juga mengemukakan bahwa kecerdasan mesin dapat diperoleh melalui pembelajaran, bukan hanya mengandalkan pemrograman sebelumnya. Dia membayangkan konsep ‘Mesin Anak’, yaitu melatih mesin agar belajar secara bertahap seperti anak kecil.
Tujuan inti kecerdasan buatan adalah membangun entitas cerdas yang dapat merasakan dan bertindak lebih baik, dan standar untuk mengukur kecerdasan adalah kemampuan entitas cerdas untuk menilai ‘tindakan tertentu lebih baik daripada tindakan lain’.
Tujuan dari pembelajaran mesin adalah memberikan umpan balik kepada mesin setelah tindakan yang diambil, dan memungkinkan mesin belajar sendiri dari pengalaman umpan balik. Dengan kata lain, gagasan Turing tentang metode pembelajaran mesin berdasarkan imbalan dan hukuman sama seperti pelatihan anjing Pavlov.
Saya semakin kalah saat bermain game, juga merupakan jenis ‘penguatan belajar’.
Sumber gambar: zequance.ai
Jalan pembelajaran mesin yang diperkenalkan oleh Turing, baru tiga puluh tahun kemudian, dibangun oleh seorang guru dan murid - Reinforcement Learning (RL).
Pada tahun 1977, Andrew Barto terinspirasi oleh psikologi dan ilmu saraf, mulai menjelajahi teori kecerdasan manusia baru: neuron seperti ‘hedonist’, dengan miliaran sel neuron di dalam otak manusia, masing-masing mencoba memaksimalkan kebahagiaan (hadiah) dan meminimalkan rasa sakit (hukuman). Selain itu, neuron tidak hanya secara mekanis menerima dan mentransmisikan sinyal, jika pola aktivitas neuron tertentu menghasilkan umpan balik positif, maka neuron tersebut cenderung mengulangi pola tersebut, sehingga secara bersama-sama mendorong proses pembelajaran manusia.
Pada tahun 1980-an, Barto membawa mahasiswanya, Richard Sutton, untuk menerapkan teori neuron ini pada kecerdasan buatan, dan reinforcement learning lahir dari konsep ‘terus mencoba, menyesuaikan koneksi berdasarkan umpan balik, dan menemukan pola perilaku optimal’.
“Reinforcement Learning: An Introduction” telah menjadi bahan ajar klasik dan telah dikutip hampir 80000 kali
Sumber gambar: IEEE
Guru dan murid menggunakan dasar matematika proses keputusan Markov untuk mengembangkan dan menulis banyak algoritma inti pembelajaran penguatan, secara sistematis membangun kerangka teori pembelajaran penguatan, juga menulis buku teks “Pengantar Pembelajaran Penguatan”, memungkinkan puluhan ribu peneliti memasuki bidang pembelajaran penguatan, keduanya dianggap sebagai bapak pembelajaran penguatan.
Tujuan penelitian mereka tentang reinforcement learning adalah untuk menemukan metode pembelajaran mesin yang efisien, akurat, memaksimalkan imbalan, dan mengoptimalkan tindakan.
Keterampilan Dewa dari Reinforcement Learning
Jika pembelajaran mesin disebut sebagai pembelajaran ‘mengisi bebek’, maka pembelajaran penguatan adalah pembelajaran ‘pemeliharaan’.
Machine learning tradisional, yaitu memberi model sejumlah besar data yang diberi label, membangun hubungan pemetaan yang tetap antara input dan output. Skenario paling klasik adalah memberi komputer sekelompok foto kucing dan anjing, memberi tahu mereka mana kucing, mana anjing, asalkan diberikan cukup banyak gambar, komputer akan dapat mengenali kucing dan anjing.
Sedangkan pembelajaran berpenguatan adalah ketika mesin, tanpa petunjuk eksplisit, secara bertahap menyesuaikan perilakunya melalui percobaan dan mekanisme hadiah dan hukuman untuk mengoptimalkan hasil. Sama seperti robot belajar berjalan, tidak perlu manusia terus memberi tahu ‘langkah ini benar, langkah itu salah’, cukup dengan mencoba, jatuh, menyesuaikan, akhirnya ia akan belajar berjalan sendiri, bahkan dengan gaya langkah yang unik.
Jelas, prinsip pembelajaran penguatan lebih mendekati kecerdasan manusia, seperti setiap anak kecil belajar berjalan dari jatuh, belajar meraih dari meraba-raba, menangkap suku kata dari balbala, belajar bahasa.
Di balik ‘robot tendangan berputar’ yang meledak juga adalah pelatihan pembelajaran yang diperkuat.
Sumber gambar: Teknologi Yushu
Momen cemerlang pembelajaran penguatan adalah ‘gerakan dewa’ AlphaGo pada tahun 2016. Saat itu, dalam pertandingan dengan Lee Sedol, AlphaGo membuat langkah ke-37 dengan bidak putih yang mengejutkan semua orang, membalikkan keadaan yang tidak menguntungkan dengan satu langkah, dan memenangkan pertandingan melawan Lee Sedol.
Para ahli go dan komentator papan atas tidak pernah mengharapkan bahwa AlphaGo akan meletakkan batu di sana, karena dalam pengalaman pemain go manusia, langkah ini dianggap ‘aneh’, setelah pertandingan, Lee Sedol juga mengakui bahwa dia sama sekali tidak mempertimbangkan gerakan ini.
AlphaGo tidak didapatkan melalui menghafal gerakan-gerakan catur ‘sakral’, tetapi melalui percobaan diri, perencanaan jangka panjang, dan optimalisasi strategi dari berbagai pertandingan, inilah inti dari pembelajaran yang diperkuat.
Lee Sedol whose rhythm is disrupted by AlphaGo’s ‘divine move’
Sumber gambar: AP
Pembelajaran penguatan bahkan membalikkan peran dominan memengaruhi kecerdasan manusia, seperti ketika AlphaGo menunjukkan ‘langkah dewa’, pemain catur mulai mempelajari dan meneliti cara bermain Go AI. Para ilmuwan juga menggunakan algoritma dan prinsip pembelajaran penguatan untuk mencoba memahami mekanisme pembelajaran otak manusia, salah satu pencapaian penelitian Barto dan Santo adalah membangun model komputasi untuk menjelaskan peran dopamin dalam pengambilan keputusan dan pembelajaran manusia.
Selain itu, reinforcement learning sangat ahli dalam menangani lingkungan yang kompleks, berubah-ubah, dan menemukan solusi optimal di dalamnya, seperti permainan Go, kendaraan otonom, kontrol robot, dan berinteraksi dengan manusia yang tidak jelas.
Ini adalah bidang aplikasi AI paling canggih dan populer saat ini, terutama dalam model bahasa besar, hampir semua model bahasa besar terkemuka menggunakan metode pelatihan RLHF (Reinforcement Learning from Human Feedback), yaitu membiarkan manusia memberi peringkat pada jawaban model, dan model memperbaiki dirinya berdasarkan umpan balik.
Tetapi itulah yang menjadi kekhawatiran Barto: setelah perusahaan besar membangun jembatan, mereka menguji keamanan jembatan dengan cara membuat orang-orang berjalan bolak-balik di atas jembatan.
“Tanpa tindakan perlindungan apa pun, mendorong langsung perangkat lunak kepada jutaan pengguna bukanlah tindakan yang bertanggung jawab,” kata Bato dalam wawancara setelah menerima penghargaan.
“Pertumbuhan teknologi seharusnya disertai dengan kontrol dan penghindaran dampak negatif potensial, tetapi saya tidak melihat perusahaan AI tersebut benar-benar melakukannya,” tambahnya.
AI puncak benar-benar khawatir tentang apa?
Ancaman AI tidak pernah berakhir, karena ilmuwan paling takut pada masa depan yang mereka ciptakan sendiri menjadi tak terkendali.
Pernyataan kemenangan Barto dan Sandton tidak mengkritik teknologi AI saat ini, tetapi penuh dengan ketidakpuasan terhadap perusahaan AI.
Mereka peringatkan dalam wawancara bahwa perkembangan kecerdasan buatan saat ini bergantung pada perusahaan-perusahaan besar yang bersaing untuk meluncurkan model yang kuat namun rentan melakukan kesalahan. Mereka menggunakan hal ini untuk mengumpulkan dana dalam jumlah besar, lalu melanjutkan dengan menginvestasikan miliaran dolar untuk memulai perlombaan persenjataan chip dan data.
Semua bank investasi sedang menilai ulang industri AI
Sumber gambar: Goldman Sachs
Memang begitu, menurut penelitian Deutsche Bank, total investasi raksasa teknologi saat ini di bidang kecerdasan buatan (AI) mencapai sekitar 3,4 triliun dolar AS, skala ini telah melampaui Produk Domestik Bruto (PDB) tahunan Yunani. OpenAI, pemimpin industri, memiliki valuasi perusahaan sebesar 260 triliun dolar AS, dan siap untuk memulai putaran pendanaan baru sebesar 400 triliun dolar AS.
Sebenarnya, banyak ahli AI sejalan dengan pandangan Barto dan Sutton.
Sebelumnya, mantan eksekutif senior Microsoft, Stephen Sinofsky, pernah mengatakan bahwa industri AI telah terjebak dalam kesulitan skala, bergantung pada pembakaran uang untuk kemajuan teknologi, yang tidak sesuai dengan sejarah perkembangan teknologi di mana biaya akan cenderung turun bukan naik.
Pada 7 Maret, mantan CEO Google Eric Schmidt, pendiri Scale AI Alex Wang, dan Direktur Pusat Keamanan AI Dan Hendricks bersama-sama menerbitkan makalah peringatan.
Tiga elit dalam dunia teknologi percaya bahwa situasi perkembangan di bidang kecerdasan buatan saat ini mirip dengan perlombaan senjata nuklir yang memicu Proyek Manhattan, perusahaan-perusahaan AI sedang diam-diam melakukan ‘Proyek Manhattan’ mereka sendiri. Dalam dekade terakhir, investasi mereka dalam AI telah melipatgandakan setiap tahun. Jika tidak diatur lebih lanjut, AI mungkin akan menjadi teknologi paling tidak stabil sejak bom nuklir.
“Strategi Super Intelejen” dan para penulis bersama
Sumber gambar: nationalsecurity.ai
Joshua Benjio, yang memenangkan Penghargaan Turing pada tahun 2019 untuk Deep Learning, juga memperingatkan dalam blognya bahwa industri kecerdasan buatan (AI) sekarang bernilai triliunan dolar dan menjadi target perburuan dan pengejaran modal, dengan potensi dampak yang cukup serius untuk mengganggu tatanan dunia saat ini.
Banyak profesional teknologi yang berasal dari latar belakang teknik, menganggap bahwa industri kecerdasan buatan (AI) saat ini telah menyimpang dari penelitian teknologi, pengawasan kecerdasan, kewaspadaan terhadap penyalahgunaan teknologi, dan beralih ke modus besar modal untuk menghasilkan keuntungan dengan membeli chip.
“Mendirikan pusat data yang besar, mengumpulkan uang dari pengguna dan membiarkan mereka menggunakan perangkat lunak yang mungkin tidak aman, bukanlah motivasi yang saya setujui,” kata Barto dalam wawancara setelah menerima penghargaan.
Dalam Laporan Ilmiah Internasional Pertama tentang Keamanan Kecerdasan Buatan Lanjutan yang disusun oleh 75 pakar kecerdasan buatan dari 30 negara disebutkan bahwa “Metode untuk mengelola risiko kecerdasan buatan umum sering didasarkan pada asumsi bahwa pengembang kecerdasan buatan dan pembuat kebijakan dapat mengevaluasi dengan benar kemampuan dan dampak potensial model dan sistem AGI. Namun, pemahaman ilmiah tentang operasi internal, kemampuan, dan dampak sosial AGI sebenarnya sangat terbatas.”
Teks peringatan panjang Yosua Ben Yehosua
Sumber gambar: Yoshua Bengio
Tidak sulit melihat bahwa saat ini ‘pemikiran ancaman AI’ telah beralih dari teknis ke perusahaan besar.
Para ahli memperingatkan perusahaan-perusahaan besar: Anda menghabiskan uang, menumpuk bahan, dan menggulung parameter, tetapi apakah Anda benar-benar memahami produk yang Anda kembangkan? Inilah asal-usul metafora ‘membangun jembatan’ yang dipinjam oleh Barto dan Sandton, karena teknologi adalah milik seluruh umat manusia, namun modal hanya dimiliki oleh perusahaan-perusahaan besar.
Terlebih lagi, area penelitian Barto dan Sutton selama ini: pembelajaran penguatan. Prinsipnya lebih sesuai dengan kecerdasan manusia, dan memiliki fitur “kotak hitam”, terutama dalam pembelajaran penguatan yang dalam, pola perilaku AI akan menjadi kompleks dan sulit dijelaskan.
Ini juga menjadi kekhawatiran para ilmuwan manusia: membantu dan menyaksikan pertumbuhan kecerdasan buatan, namun sulit untuk menginterpretasikan niatnya.
Para pemenang Penghargaan Turing yang telah menciptakan teknologi pembelajaran mendalam dan penguatan, tidak khawatir tentang perkembangan Kecerdasan Buatan Umum (AGI), tetapi khawatir tentang perlombaan persenjataan antara perusahaan besar, yang telah menciptakan ‘ledakan kecerdasan’ di bidang AGI, tanpa disengaja menciptakan Kecerdasan Buatan Super (ASI), perbedaan antara keduanya bukan hanya masalah teknis, tetapi juga menyangkut nasib masa depan peradaban manusia.
ASI yang melampaui kecerdasan manusia, tingkat informasi yang dikuasai, kecepatan pengambilan keputusan, tingkat evolusi diri, akan jauh melebihi pemahaman manusia, jika ASI tidak dirancang dan dikelola dengan sangat hati-hati, maka ASI dapat menjadi titik teknologi terakhir dalam sejarah manusia yang paling tidak dapat diatasi.
Di tengah demam AI saat ini, para ilmuwan mungkin adalah orang yang paling berhak ‘membuang air dingin’. Pada akhirnya, lima puluh tahun yang lalu, ketika komputer masih menjadi benda raksasa, mereka telah memulai penelitian di bidang kecerdasan buatan, mereka membentuk masa lalu dari sekarang, dan memiliki posisi untuk meragukan masa depan.
Apakah pemimpin AI akan menghadapi akhir ala Oppenheimer?
Sumber gambar: The Economist
Dalam wawancara bulan Februari di The Economist, CEO DeepMind dan Anthropic menyatakan:
Akan sulit tidur semalaman karena khawatir menjadi orang berikutnya yang menderita penyakit Alzheimer.