Theo Beating, Microsoft gần đây đã mã nguồn mở họ mô hình Phi-Ground, được thiết kế để giải quyết vấn đề AI nên nhấp vào đâu trên màn hình máy tính. Phiên bản 4 tỷ tham số, kết hợp với các mô hình ngôn ngữ lớn hơn để lập kế hoạch theo hướng dẫn, đã vượt độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong benchmark Showdown, đồng thời xếp hạng đầu trong số tất cả các mô hình dưới 100 tỷ tham số qua năm đánh giá, bao gồm cả ScreenSpot-Pro.
Nhóm đã huấn luyện trên hơn 40 triệu mẫu dữ liệu và phát hiện rằng 3 kỹ thuật huấn luyện phổ biến được sử dụng trong các bài báo học thuật trở nên kém hiệu quả khi triển khai ở quy mô lớn. Cách tiếp cận cốt lõi lại khá đơn giản: xuất tọa độ dưới dạng các con số thông thường, chẳng hạn như “523, 417”. Các nghiên cứu trước đó đã tạo ra từ vựng vị trí chuyên biệt cho tọa độ, nhưng không thể mở rộng quy mô. Nhóm cũng phát hiện rằng việc đặt chỉ dẫn bằng văn bản trước hình ảnh giúp cải thiện hiệu suất, vì mô hình có thể xác định mục tiêu trong khi xử lý pixel. Ngoài ra, các phương pháp học tăng cường như DPO cải thiện độ chính xác ngay cả sau khi fine-tuning.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Quantra và FishWar công bố quan hệ đối tác chiến lược nhằm tích hợp AI gaming với hạ tầng RWA vào ngày 9 tháng 5
Theo các thông báo chính thức vào ngày 9/5, Quantra và FishWar đã công bố quan hệ hợp tác chiến lược nhằm kết hợp các trải nghiệm gaming được hỗ trợ AI với hạ tầng blockchain tài sản ngoài đời thực. Sự hợp tác này được chia sẻ trên cả kênh truyền thông xã hội chính thức của hai công ty, hướng tới việc tích hợp các giải pháp token hóa RWA của Quantra với nền tảng GameFi của FishWar trên Sei Network. Quan hệ đối tác nhằm tăng cường khả năng mở rộng của gaming trên blockchain, tương tác trực tuyến
GateNews6phút trước
Sam Altman Tiết lộ tỷ lệ sử dụng ChatGPT theo độ tuổi, với hơn một phần ba người dùng trong độ tuổi 18-24 sử dụng hằng ngày vào ngày 10/5
Theo Fortune, CEO OpenAI Sam Altman cho biết vào ngày 10/5 rằng người dùng ChatGPT ở các nhóm tuổi khác nhau có những kiểu sử dụng riêng. Người lớn tuổi coi nền tảng này như một sự thay thế cho Google Search, trong khi những người ở độ tuổi 20 và 30 dùng nó như một cố vấn cá nhân. Sinh viên đại học sử dụng ChatGPT như một hệ điều hành hằng ngày, tận dụng bộ nhớ hội thoại để xin lời khuyên về cảm xúc, đàm phán nghề nghiệp, tư vấn y tế và đưa ra các quyết định quan trọng trong cuộc đời. Hơn một ph
GateNews46phút trước
Bộ trưởng Tài chính Hồng Kông Paul Chan nêu bật 3 lợi thế cốt lõi của Vùng Vịnh Lớn: AI, sản xuất và tài chính
Theo ChainCatcher, Bộ trưởng Tài chính Hồng Kông Paul Chan mới đây đã công bố một tuyên bố bằng văn bản, nêu rõ ba lợi thế cốt lõi của Vùng Vịnh Lớn: nghiên cứu AI tiên tiến, chuỗi sản xuất hoàn chỉnh cho phân khúc cao cấp và một trung tâm tài chính quốc tế. Chan cho biết tổ hợp “AI + sản xuất + tài chính” này giúp Hồng Kông đảm nhiệm hai chức năng quan trọng trong giai đoạn Kế hoạch 5 năm lần thứ 15: phối hợp công nghiệp và kết nối về mặt quản lý, bao gồm việc đóng vai trò như một “cửa ngõ quốc
GateNews1giờ trước
Tranh cãi Chế độ Mã Code Mode của Anthropic với MCP Vs CLI: công cụ hóa Runtime, giảm tokens từ 150K xuống 2K
Trong cả năm 2025, cộng đồng AI Engineering đã tranh luận không ngừng về câu hỏi “MCP hay CLI phù hợp hơn cho việc gọi công cụ của Agent”, và bài báo “Code execution with MCP” do Anthropic công bố vào tháng 11/2025 đã định nghĩa lại vấn đề từ những nguyên lý cốt lõi. akshay\pachaar đã tổng hợp thread vào ngày 5/10, giải thích rằng vấn đề không nằm ở bản thân giao thức, mà nằm ở thói quen cũ “khi bắt đầu session, nhét toàn bộ mô tả công cụ vào context”. Giải pháp của Anthropic là để mô hình viết
ChainNewsAbmedia4giờ trước
ByteDance dự kiến tăng 25% chi tiêu cho hạ tầng AI lên 200 tỷ nhân dân tệ trong năm nay
Theo ChainCatcher dẫn nguồn từ Golden Data, ByteDance dự kiến sẽ tăng chi tiêu cho hạ tầng AI thêm 25% lên 200 tỷ nhân dân tệ trong năm nay, do chi phí chip nhớ tăng cao và tiến độ phát triển trí tuệ nhân tạo được đẩy nhanh.
GateNews4giờ trước
Nền tảng AI Doanh nghiệp đóng vòng $16M Series, được dẫn dắt bởi a16z
Theo Odaily, nền tảng AI doanh nghiệp Pit đã công bố hoàn tất vòng gọi vốn 16 triệu USD, do a16z dẫn dắt, với sự tham gia của Lakestar và các lãnh đạo từ OpenAI, Anthropic, Google, Deel và Revolut. Pit định vị mình là “AI product team as a service”, được thiết kế để thay thế các bảng tính truyền thống và các hệ thống SaaS cứng nhắc.
GateNews4giờ trước