OpenAI khám phá phương pháp mới giảm một nửa chi phí suy luận

robot
Đang tạo bản tóm tắt
Theo một nguồn tin quen thuộc với các cuộc thảo luận, có một tin tức chưa từng được tiết lộ trước đây: đầu tháng này, các kỹ sư của OpenAI đã thông báo cho một số đồng nghiệp rằng, dựa trên một số công nghệ tối ưu hóa mới được phát triển, họ đã tìm ra một giải pháp có thể giảm chi phí suy luận mô hình xuống hơn một nửa. Sau khi áp dụng công nghệ mới này vào các tình huống mà người dùng tài khoản miễn phí/trả phí sử dụng ChatGPT, số lượng bộ xử lý đồ họa (GPU) Nvidia cần thiết đã giảm xuống chỉ còn vài trăm con — một con số đáng kinh ngạc. Hiện tại vẫn chưa rõ OpenAI đã sử dụng phương tiện kỹ thuật cụ thể nào để đạt được sự cải thiện đáng kể về hiệu quả tính toán này. Các phương pháp tối ưu hóa phổ biến trong ngành thường bao gồm: nén lượng tử, lưu trữ khóa-giá trị, xử lý hàng loạt các truy vấn của người dùng thay vì tính toán từng cái một, và chuyển hướng một số yêu cầu đến các mô hình nhẹ hoặc các phân đoạn mô hình có công suất thấp hơn để phản hồi.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim