Artificial Analysis công bố điểm chuẩn tác nhân mã hoá; Zhipu GLM-5.1 xếp hạng đầu trong các mô hình mã nguồn mở

Artificial Analysis hôm nay đã công bố Chỉ số Coding Agent mới để đánh giá hiệu quả của các mô hình AI khi được kết hợp với khung tác nhân (agent) trên nhiều chuẩn đánh giá quan trọng, bao gồm SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 và SWE-Atlas-QnA. Zhipu GLM-5.1 xếp hạng đầu trong nhóm các mô hình mã nguồn mở ở lần đánh giá này, cho thấy hiệu suất dẫn đầu trong các kịch bản tác nhân mã hóa ngoài đời thực.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

TT Chain tích hợp hệ thống bảo mật AegisAI để bảo vệ RWA vào ngày 11 tháng 5

Theo thông báo của TT Chain vào ngày 11/5, mạng blockchain Layer-2 đã tích hợp cơ sở hạ tầng bảo mật do AegisAI điều khiển bằng AI vào hệ sinh thái tài sản hiện thực (real-world asset). Sự hợp tác này giúp tăng cường bảo vệ cho các giao dịch tài sản được token hóa và các hoạt động xuyên chuỗi nhờ khả năng phát hiện mối đe dọa tiên tiến và kiểm tra hợp đồng thông minh. Các tác nhân AI tự động của AegisAI phát hiện các cuộc tấn công lừa đảo (phishing), ngăn chặn các nỗ lực truy cập trái phép và nh

GateNews50phút trước

JD.com Nâng cấp tác nhân AI tự phát triển, tăng trưởng người dùng vượt 300% trong Q1

Theo CEO Xu Ran của JD.com tại cuộc gọi công bố kết quả kinh doanh ngày 12/5, công ty đang nâng cấp toàn diện tác nhân AI tự phát triển nhằm nhận diện chính xác hơn, kích hoạt và đối sánh tốt hơn nhu cầu của người dùng. Trợ lý AI của JD.com là Jingdong Jingyan ghi nhận mức tăng sử dụng của người dùng trên 300% so với cùng kỳ năm ngoái trong quý 1.

GateNews1giờ trước

The Graph Ra mắt tính năng thanh toán x402 hỗ trợ truy cập dữ liệu on-chain theo từng yêu cầu bằng USDC vào ngày 12 tháng 5

Theo thông báo chính thức của The Graph vào ngày 12 tháng 5, Graph Gateway hiện hỗ trợ x402 Payments, cho phép nhà phát triển và AI Agents truy cập dữ liệu on-chain thông qua các khoản thanh toán theo từng yêu cầu bằng USDC mà không cần khóa API, tài khoản hay bảng điều khiển. Người dùng nhận phản hồi HTTP 402 kèm thông tin giá, sau đó hoàn tất thanh toán dựa trên chữ ký bằng USDC trên mạng Base để truy xuất dữ liệu cho các yêu cầu tiếp theo. Bản cập nhật bao gồm endpoint mới /api/x402/, các SDK

GateNews1giờ trước

SAP Đầu tư vào n8n, nâng gấp đôi định giá nền tảng tự động hóa quy trình làm việc lên 5,2 tỷ USD

Theo Bloomberg, SAP đã đầu tư vào n8n vào hôm thứ Ba, qua đó nâng gấp đôi định giá nền tảng tự động hóa quy trình lên 5,2 tỷ USD. Tập đoàn phần mềm Đức cũng ký thỏa thuận hợp tác nhiều năm với n8n để tích hợp các công cụ của nền tảng này vào nền tảng xây dựng tác nhân AI Joule Studio của SAP, theo tuyên bố của SAP.

GateNews2giờ trước

DAPPOS Ra mắt xBubble, Tác nhân AI vạn năng với hơn 10 tính năng cốt lõi dành cho người dùng không rành kỹ thuật

Theo ChainCatcher, DAPPOS đã chính thức ra mắt xBubble, một sản phẩm tác nhân AI phổ quát được thiết kế cho người dùng không rành kỹ thuật. Sản phẩm tự động đề xuất các tác nhân chuyên biệt để hoàn thành nhiệm vụ với ít câu nhắc nhất và ít vòng lặp gỡ lỗi hơn. xBubble cung cấp 10+ năng lực cốt lõi, bao gồm tạo hình ảnh, video, tài liệu và website, hỗ trợ triển khai cả cục bộ và trên đám mây.

GateNews7giờ trước

Nous Research ra mắt tác nhân Hermes cho điều khiển máy tính trên macOS, giảm tiêu thụ token 95%

Nous Research đã công bố rằng Hermes Agent của họ đã ra mắt tính năng điều khiển máy tính macOS, theo dõi bởi Beating. Tính năng này cho phép các tác vụ chạy nền như tìm kiếm email và viết mã mà không làm gián đoạn thao tác của người dùng hoặc tiêu điểm cửa sổ. Thông qua cơ chế nén ngữ cảnh bốn lớp, khung này giúp giảm mức tiêu thụ token từ khoảng 600.000 xuống 30.000 token khi thực hiện 20 thao tác liên tiếp ở độ phân giải 1568×900.

GateNews9giờ trước
Bình luận
0/400
Không có bình luận