Tác giả: Moonshot
Năm 1947, trong một bài phát biểu, Alan Turing đã đề cập đến “Chúng ta muốn một chiếc máy có thể học từ kinh nghiệm”.
Sau 78 năm, giải thưởng Turing, được đặt tên theo Turing và được biết đến với cái tên “giải Nobel của ngành máy tính”, đã được trao cho hai nhà khoa học đã dành cả đời để giải quyết vấn đề Turing.
Andrew Barto và Richard Sutton đồng nhận Giải thưởng Turing năm 2024, họ là một cặp thầy trò chênh lệch chín tuổi, là những người sáng lập công nghệ AlphaGo và ChatGPT, cũng là những người tiên phong trong lĩnh vực học máy.
Người đoạt giải Turing Andrew Barto và Richard Sutton
Nguồn hình ảnh: Trang web giải thưởng Turing
Giám đốc khoa học hàng đầu của Google, Jeff Dean, trong bài diễn thuyết về việc trao giải viết rằng “Công nghệ học tăng cường do Barto và Sutton sáng lập đã trực tiếp trả lời câu hỏi của Turing. Công việc của họ là yếu tố then chốt của sự tiến bộ trí tuệ nhân tạo trong vài thập kỷ qua. Công cụ mà họ phát triển vẫn là trụ cột của sự thịnh vượng của trí tuệ nhân tạo… Google rất tự hào khi tài trợ cho giải ACM A.M. Turing.”
Đơn vị tài trợ duy nhất của giải thưởng Turing trị giá 100 triệu đô la là Google.
Sau khi nhận giải, hai nhà khoa học đứng dưới ánh đèn sân khấu nhắm vào các công ty AI lớn, họ đã phát biểu cho truyền thông rằng: Các công ty AI hiện nay đang nhận “động lực thương mại” thay vì tập trung vào nghiên cứu công nghệ, xây dựng “cây cầu chưa được kiểm tra trên thế giới thực, khiến mọi người phải qua cầu để kiểm tra”.
Không chỉ một mà còn có một lần, giải thưởng Turing được trao cho các nhà khoa học trong lĩnh vực trí tuệ nhân tạo lần cuối cùng là vào năm 2018, Joshua Benjio, Geoffrey Hinton và Yann LeCun đã được trao giải vì đóng góp trong lĩnh vực học sâu.
Những người đoạt giải Turing năm 2018
Nguồn hình ảnh: eurekalert
Trong đó, Joshua Benhio và Jeffrey Sinton (cũng là người đoạt giải Nobel Vật lý năm 2024) - hai “cha đẻ trí tuệ nhân tạo” đã liên tục kêu gọi cả xã hội và giới khoa học thế giới cảnh giác trước việc lạm dụng trí tuệ nhân tạo của các công ty lớn trong làn sóng trí tuệ nhân tạo gần đây.
Jeffrey Sutton also directly resigned from Google to “speak freely”, this award-winning Sutton also served as a research scientist at DeepMind from 2017 to 2023.
Khi danh hiệu cao quý nhất trong ngành công nghệ máy tính liên tục được trao cho những người sáng lập nền tảng của công nghệ AI, một hiện tượng đáng chú ý dần dần nổi bật:
Tại sao những nhà khoa học hàng đầu trên các trang web luôn đánh chuông cảnh báo về trí tuệ nhân tạo dưới ánh đèn sân khấu?
Người sáng lập cầu cho Trí tuệ nhân tạo
Nếu nói Alan Turing là người dẫn đường cho trí tuệ nhân tạo, thì Andrew Barto và Richard Sutton chính là những “người xây cầu” trên con đường này.
Trong lúc trí tuệ nhân tạo đang phát triển mạnh mẽ, sau khi nhận được sự ca ngợi, họ đang xem xét lại cầu họ xây dựng, liệu có thể chịu được sự an toàn của con người khi qua lại không?
Câu trả lời có lẽ đang ẩn chứa trong sự nghiệp học thuật kéo dài nửa thế kỷ của họ - chỉ khi trở về xem xét cách họ xây dựng ‘học máy’, chúng ta mới có thể hiểu tại sao họ đề phòng ‘sự mất kiểm soát của công nghệ’.
Nguồn ảnh: Đại học Carnegie Mellon
Năm 1950, trong bài báo nổi tiếng của mình về “Máy tính và Trí tuệ”, Alan Turing đã đặt ra một vấn đề triết học và công nghệ từ đầu bài.
“Máy tính có thể suy nghĩ không?”
Do đó, Turing đã thiết kế ra “Trò chơi mô phỏng”, còn được biết đến rộng rãi sau này với tên gọi là “Kiểm tra Turing”.
Đồng thời, Turing đã đề xuất rằng trí tuệ máy móc có thể được đạt được thông qua việc học hỏi, chứ không phải chỉ dựa vào lập trình trước. Anh ấy đã tưởng tượng ra khái niệm ‘Máy Trẻ Em (Child Machine)’, nghĩa là thông qua việc huấn luyện và kinh nghiệm, cho phép máy học hỏi dần dần giống như một đứa trẻ.
Mục tiêu cốt lõi của trí tuệ nhân tạo là xây dựng một hệ thống thông minh có khả năng nhận biết và thực hiện các hành động tốt hơn, và tiêu chuẩn đánh giá trí tuệ là khả năng của hệ thống phán đoán rằng “một số hành động tốt hơn các hành động khác”.
Mục đích của học máy chính là điều này, cung cấp phản hồi tương ứng sau khi máy hành động và cho phép máy tự học trong kinh nghiệm phản hồi. Nói cách khác, phương pháp học máy dựa trên phần thưởng và phạt mà Turing đã phác thảo không khác gì việc huấn luyện chó của Pavlov.
Tôi càng chơi trong trò chơi, tôi càng thất bại, càng mạnh mẽ, đó cũng là một hình thức “học tăng cường”
Nguồn ảnh: zequance.ai
Con đường học máy mà Turing đã mở ra, sau ba mươi năm, mới được một thầy trò xây dựng cầu - Học tăng cường (Reinforcement Learning, RL).
Năm 1977, dưới sự truyền cảm hứng từ tâm lý học và thần kinh học, Andrew Barto bắt đầu khám phá một lý thuyết mới về trí tuệ con người: các tế bào thần kinh giống như “người theo chủ nghĩa thưởng thức”, trong não người có hàng tỷ tế bào thần kinh, mỗi tế bào đều cố gắng tối đa hóa niềm vui (thưởng) và tối thiểu hóa đau khổ (phạt). Hơn nữa, các tế bào thần kinh không chỉ đơn thuần nhận và truyền tín hiệu cơ học, nếu mẫu hoạt động của một tế bào thần kinh nào đó gây ra phản hồi tích cực, nó sẽ có xu hướng lặp lại mẫu hoạt động đó, từ đó đồng thời thúc đẩy quá trình học tập của con người.
Đến thập niên 1980, Barto đã đưa học trò tiến sĩ Richard Sutton của mình, để áp dụng lý thuyết nơ-ron “liên kết điều chỉnh dựa trên phản hồi liên tục để tìm ra mô hình hành vi tối ưu” vào trí tuệ nhân tạo, từ đó, học tăng cường ra đời.
Sách giáo trình cổ điển “Học tăng cường: Lời nói đầu” đã được trích dẫn gần 80000 lần
Nguồn ảnh: IEEE
Thầy trò hai người sử dụng cơ sở toán học của quá trình quyết định Markov để phát triển và viết ra nhiều thuật toán học tăng cường cốt lõi, xây dựng hệ thống khung lý thuyết học tăng cường, và viết cuốn sách giáo khoa “Học tăng cường: Giới thiệu”, giúp hàng vạn nhà nghiên cứu gia nhập lĩnh vực học tăng cường, cả hai được coi là cha đẻ của học tăng cường.
Và mục đích của họ trong nghiên cứu học tăng cường là để tìm ra phương pháp học máy hiệu quả, chính xác, tối đa hóa lợi ích và hành động tốt nhất.
“Bàn tay của Thượng Đế” để Học Củng Cố
Nếu học máy được coi là học theo cách “nạp nhớ”, thì học tăng cường lại là học theo cách “chăn nuôi”.
Machine learning truyền thống là việc cung cấp một lượng lớn dữ liệu đã được gắn nhãn cho mô hình, thiết lập một mối quan hệ ánh xạ cố định giữa đầu vào và đầu ra. Kịch bản cổ điển nhất là cho máy tính xem một đống ảnh mèo và chó, cho biết nó nào là mèo, nào là chó, chỉ cần cung cấp đủ nhiều hình ảnh, máy tính sẽ nhận biết được mèo và chó.
Học tăng cường là quá trình mà máy móc điều chỉnh hành vi dần dần để tối ưu hóa kết quả thông qua việc thử và lỗi cũng như cơ chế phạt thưởng mà không cần hướng dẫn cụ thể. Giống như việc máy móc học cách đi, nó không cần con người luôn nói với nó “bước này đúng, bước kia sai”, nó chỉ cần thử, ngã, điều chỉnh, và cuối cùng nó sẽ tự đi, thậm chí có thể tạo ra bước đi độc đáo của riêng mình.
Rõ ràng, nguyên lý học tăng cường rất gần với trí tuệ con người, giống như mỗi đứa trẻ học cách đi sau mỗi lần ngã, học cách nắm vững trong sự mập mờ, học cách bắt chữ cái trong sự nghịch ngợm, học ngôn ngữ.
Đằng sau con robot đá xoay nổi tiếng cũng là quá trình huấn luyện bằng học tăng cường mạnh mẽ
Nguồn ảnh: Công nghệ Cây Vũ
“Thời điểm đỉnh cao” của học tăng cường chính là “nước cờ thần kỳ” của AlphaGo vào năm 2016. Lúc đó, trong trận đấu với Lee Sedol, AlphaGo đã đánh bạc trắng ở nước đi thứ 37, một bước đi khiến tất cả mọi người đều ngạc nhiên, một nước cờ đảo ngược thế cờ thua, một lần chiến thắng vô cùng nổi bật trước Lee Sedol."
Các cao thủ cờ vây và nhà bình luận hàng đầu trong giới cờ vây, đều không thể dự đoán AlphaGo sẽ đặt quân ở vị trí này, vì theo kinh nghiệm của các kỳ thủ con người, nước cờ này được đánh là “bí ẩn”, sau trận đấu, Lee Sedol cũng thừa nhận, anh không hề xem xét cách đánh này.
AlphaGo không phải là “tay cờ vua của thần” được ghi nhớ từ cẩm nang cờ, mà là kết quả của việc tự chơi hàng ngàn trận, thử và sai, lập kế hoạch dài hạn, tối ưu hóa chiến thuật và tự khám phá, đó chính là bản chất của học tăng cường.
Lịch sử bị AlphaGo “đánh bại bởi một bước đi của Thần” đã bị phá vỡ.
Nguồn hình ảnh: AP
Học tăng cường thậm chí đã thay đổi cách con người nghĩ về trí tuệ, giống như sau khi AlphaGo thể hiện “nước cờ của Thần”, các kỳ thủ bắt đầu học và nghiên cứu cách chơi cờ của trí tuệ nhân tạo. Các nhà khoa học cũng đang cố gắng hiểu cơ chế học tập của não người thông qua thuật toán và nguyên lý của học tăng cường, một trong những kết quả nghiên cứu của Barto và Santos là xây dựng một mô hình tính toán để giải thích vai trò của dopamine trong quyết định và học tập của con người.
Học tăng cường đặc biệt giỏi trong việc xử lý môi trường phức tạp, trạng thái thay đổi nhiều và tìm ra giải pháp tối ưu, chẳng hạn như cờ vây, lái xe tự động, điều khiển robot và nói chuyện hài hước với con người mà không rõ ràng về ngôn ngữ.
Đây chính là những lĩnh vực ứng dụng trí tuệ nhân tạo hiện đại nhất và phổ biến nhất, đặc biệt là trong lĩnh vực mô hình ngôn ngữ lớn, gần như tất cả các mô hình ngôn ngữ lớn hàng đầu đều sử dụng phương pháp huấn luyện RLHF (Học tăng cường từ phản hồi của con người), tức là con người đánh giá câu trả lời của mô hình và mô hình cải thiện dựa trên phản hồi đó.
Nhưng đây chính là lo lắng của Barto: sau khi công ty lớn xây cầu, họ sẽ thử nghiệm tính an toàn của cầu bằng cách cho người ta đi lại trên cầu.
Trong cuộc phỏng vấn sau khi nhận giải, Barto nói: “Đưa phần mềm trực tiếp cho hàng triệu người dùng mà không có biện pháp bảo vệ nào không phải là một hành động có trách nhiệm.”
“Sự phát triển của công nghệ nên đi đôi với việc kiểm soát và tránh các tác động tiêu cực tiềm ẩn, nhưng tôi không thấy các công ty AI thực sự thực hiện điều này.” Anh ta bổ sung.
AI đỉnh cao đang lo lắng về điều gì?
Lý do tại sao lý luận về mối đe dọa của trí tuệ nhân tạo không bao giờ chấm dứt là vì các nhà khoa học sợ hãi nhất là tương lai mà họ tự tạo ra có thể mất kiểm soát.
Trong “Bài phát biểu nhận giải” của Bato và Sandton, không có sự chỉ trích nghiêm khắc về công nghệ AI hiện tại, mà thay vào đó là sự bất mãn đối với các công ty AI.
Trong cuộc phỏng vấn, họ cảnh báo rằng, hiện nay sự phát triển của trí tuệ nhân tạo đang dựa vào việc các công ty lớn cạnh tranh tung ra các mô hình mạnh mẽ nhưng dễ mắc lỗi, họ sử dụng cơ hội này để huy động một lượng lớn vốn, sau đó tiếp tục đầu tư hàng chục tỷ đô la để mở cuộc đua vũ khí về chip và dữ liệu.
Các ngân hàng đầu tư lớn đều đang tái định giá ngành công nghiệp trí tuệ nhân tạo
Nguồn hình ảnh: Goldman Sachs
Đúng như vậy, theo nghiên cứu của ngân hàng Đức, tổng vốn đầu tư của các gigant công nghệ hiện tại trong lĩnh vực AI khoảng 3400 tỷ USD, một quy mô đã vượt qua GDP hàng năm của Hy Lạp. OpenAI, người dẫn đầu ngành, được định giá tới 2600 tỷ USD và sẵn sàng khởi đầu vòng đầu tư mới trị giá 400 tỷ USD.
Trong thực tế, rất nhiều chuyên gia AI đều đồng tình với quan điểm của Barto và Sutton.
Trước đó, cựu giám đốc cấp cao của Microsoft, Stephen Sinofsky, đã cho biết ngành công nghiệp trí tuệ nhân tạo đang gặp khó khăn về quy mô, dựa vào việc tiêu tiền để đổi lấy sự tiến bộ về công nghệ, điều này không phù hợp với xu hướng trong lịch sử phát triển công nghệ, chi phí sẽ dần giảm chứ không phải tăng lên.
Vào ngày 7 tháng 3, cựu CEO của Google Eric Schmidt, người sáng lập Scale AI Alex Wang và Giám đốc Trung tâm An ninh AI Dan Hendricks đã cùng nhau viết một bài báo cảnh báo.
Ba ngôi sao hàng đầu trong ngành công nghệ cho rằng, tình hình phát triển trong lĩnh vực trí tuệ nhân tạo hiện nay tương đương với cuộc đua vũ khí hạt nhân đã tạo ra Kế hoạch Manhattan, các công ty AI đang thực hiện “Kế hoạch Manhattan” riêng của họ một cách im lặng, trong gần mười năm qua, họ đã tăng gấp đôi đầu tư vào AI hàng năm, nếu không can thiệp vào quản lý, AI có thể trở thành công nghệ không ổn định nhất kể từ bom nguyên tử.
《Chiến lược siêu trí tuệ》và tác giả đồng tác giả
Nguồn ảnh: nationalsecurity.ai
Joshua Benjio, who won the Turing Award in 2019 for deep learning, also issued a lengthy warning in his blog that the AI industry now has trillions of dollars in value for capital to chase and grab, with enough influence to seriously disrupt the current world order.
Nhiều chuyên gia công nghệ có lịch sử về công nghệ tin cậy rằng ngành công nghiệp AI hiện nay đã lệch khỏi việc nghiên cứu công nghệ, đánh giá thông minh, cảnh giác với việc lạm dụng công nghệ, và chuyển hướng sang một mô hình tận lợi vốn lớn đổ tiền vào chất bán dẫn.
“Xây dựng trung tâm dữ liệu lớn, thu tiền của người dùng nhưng lại buộc họ phải sử dụng phần mềm không chắc chắn, đó không phải là động lực tôi tán thành.” Barto nói trong cuộc phỏng vấn sau khi nhận giải thưởng.
Vào lần đầu tiên, Báo cáo Khoa học Quốc tế về An toàn Trí tuệ Nhân tạo tiên tiến, do 75 chuyên gia AI từ 30 quốc gia cùng viết, đã viết rằng “Cách tiếp cận để quản lý rủi ro của Trí tuệ Nhân tạo tổng quát thường dựa trên giả định rằng các nhà phát triển AI và các nhà hoạch định chính sách có thể đánh giá đúng khả năng và tác động tiềm năng của mô hình và hệ thống AGI. Tuy nhiên, hiểu biết khoa học về cách AGI hoạt động, khả năng và tác động xã hội của nó thực sự rất hạn chế.”
Cảnh báo dài của Joshua Ben Hio
Nguồn hình ảnh: Yoshua Bengio
Không khó nhận thấy, hiện nay ‘Lý thuyết đe dọa AI’ đã chuyển sự chú ý từ mặt kỹ thuật sang các công ty lớn.
Các chuyên gia cảnh báo các công ty lớn: bạn đang tiêu tiền, chất xếp, cuộn tham số, nhưng bạn có thực sự hiểu rõ về sản phẩm mà bạn đang phát triển không? Đây cũng là nguồn gốc mà Barto và Sandton mượn từ phép so sánh ‘xây cầu’, bởi vì công nghệ thuộc về toàn nhân loại, nhưng vốn chỉ thuộc về các công ty lớn.
Đặc biệt là trong học tăng cường sâu, mô hình hành vi AI trở nên phức tạp và khó giải thích hơn.
Đây cũng là nỗi lo của các nhà khoa học: họ đã giúp đỡ và chứng kiến sự phát triển của trí tuệ nhân tạo, nhưng lại khó hiểu được ý định của nó.
Các người đoạt giải Turing về công nghệ học sâu và học tăng cường không lo lắng về sự phát triển của trí tuệ nhân tạo tổng quát (AGI), mà lo lắng về cuộc đua vũ trang giữa các công ty lớn, dẫn đến ‘bùng nổ trí tuệ’ trong lĩnh vực AGI, một sơ ý có thể tạo ra trí tuệ nhân tạo siêu vi (ASI), sự phân chia giữa hai thứ không chỉ là vấn đề công nghệ mà còn liên quan đến tương lai của nền văn minh nhân loại.
ASI vượt trội so với trí tuệ con người, mức độ thông tin kiểm soát, tốc độ ra quyết định, và mức độ tự tiến hóa của nó sẽ vượt xa phạm vi hiểu biết của con người, nếu không thiết kế và quản lý ASI một cách cực kỳ cẩn thận, nó có thể trở thành điểm cao nhất cuối cùng trong lịch sử nhân loại, cũng là điểm không thể chống đỡ nhất của công nghệ.
Trong thời kỳ AI đang rất phát cuồng, những nhà khoa học này có lẽ là những người có đủ tư cách để “phủ nước lạnh”. Cuối cùng, năm mươi năm trước, khi máy tính vẫn còn là một khối lớn, họ đã mở đường cho nghiên cứu trong lĩnh vực trí tuệ nhân tạo, họ đã tạo dựng hiện tại từ quá khứ và cũng có lập trường để nghi ngờ tương lai.
Các nhà lãnh đạo trong lĩnh vực trí tuệ nhân tạo liệu có đối mặt với kết cục kiểu Oppenheimer không?
Nguồn hình ảnh: The Economist
Trong cuộc phỏng vấn của tạp chí The Economist vào tháng 2, CEO của DeepMind và Anthropic đã cho biết:
Sợ rằng sẽ trở thành một người mắc bệnh Alzheimer tiếp theo, nên thường thức trắng đêm.