Nguồn gốc: Heart of the Machine
Nguồn hình ảnh: Được tạo bởi Unbounded AI
Một số nhà nghiên cứu đã phát hiện ra rằng mô hình Yi-34B của Kai-Fu Lee về cơ bản áp dụng kiến trúc của LLaMA, nhưng đổi tên hai tensor. Đáp lại, “Zero One Everything” đã đưa ra phản hồi chính thức.
Cách đây một thời gian, một mô hình mới đã được mở ra trong lĩnh vực mô hình lớn mã nguồn mở - kích thước cửa sổ ngữ cảnh vượt quá 200k và “Yi” có thể xử lý 400.000 ký tự Trung Quốc cùng một lúc.
Mô hình quy mô lớn này được xây dựng bởi công ty mô hình quy mô lớn “Zero One Everything” được thành lập bởi Kai-Fu Lee, chủ tịch của Sinovation Ventures và CE0, và bao gồm hai phiên bản: Yi-6B và Yi-34B.
Theo nền tảng cộng đồng mã nguồn mở Hugging Face English và danh sách đánh giá C-China, Yi-34B đã đạt được một số công nhận chỉ số hiệu suất tốt nhất quốc tế SOTA khi nó được ra mắt, trở thành “nhà vô địch kép” của các mô hình lớn nguồn mở toàn cầu, đánh bại LLaMA2 và Falcon và các đối thủ cạnh tranh nguồn mở khác.
Yi-34B cũng trở thành mô hình nội địa duy nhất đứng đầu bảng xếp hạng mô hình nguồn mở toàn cầu Hugging Face vào thời điểm đó, gọi nó là “mô hình nguồn mở mạnh nhất thế giới”.
Tuy nhiên, gần đây, một số nhà nghiên cứu đã phát hiện ra rằng mô hình Yi-34B về cơ bản áp dụng kiến trúc của LLaMA, nhưng đổi tên hai tensor.
Liên kết gốc:
Bài đăng cũng nêu rõ:
Mã của Yi-34B thực sự là một tái cấu trúc của mã LLaMA, nhưng nó dường như không thay đổi bất cứ điều gì đáng kể. Mô hình này rõ ràng dựa trên tệp LLaMA phiên bản Apache 2.0 gốc, nhưng không đề cập đến LLaMA:
So sánh mã Yi và LLaMA. Liên kết mã:
Ngoài ra, các thay đổi mã này không được gửi đến dự án máy biến áp thông qua yêu cầu kéo, mà được thêm vào dưới dạng mã bên ngoài, có thể là rủi ro bảo mật hoặc không được khung hỗ trợ. Bảng xếp hạng HuggingFace thậm chí sẽ không đánh giá mô hình này với cửa sổ ngữ cảnh lên tới 200K vì nó không có chiến lược mã tùy chỉnh.
Họ cho rằng đây là mô hình 32K, nhưng nó được cấu hình như mô hình 4K, không có cấu hình chia tỷ lệ RoPE và không có lời giải thích về cách mở rộng quy mô (lưu ý: Zero One Thousand Things trước đây đã tuyên bố rằng bản thân mô hình đã được đào tạo trên một chuỗi 4K, nhưng nó có thể được thu nhỏ thành 32K trong giai đoạn suy luận). Hiện tại, không có thông tin nào về dữ liệu tinh chỉnh của nó. Họ cũng không cung cấp hướng dẫn để sao chép điểm chuẩn của họ, bao gồm cả điểm cao MMLU đáng ngờ.
Bất cứ ai đã làm việc trong không gian AI một thời gian sẽ không nhắm mắt làm ngơ trước điều này. Đây có phải là tuyên truyền sai sự thật? vi phạm giấy phép? gian lận điểm chuẩn thực tế? Ai quan tâm? Thay đổi bài báo tiếp theo, hoặc trong trường hợp này, lấy tất cả tiền mạo hiểm. Yi ít nhất là trên tiêu chuẩn vì đó là mô hình cơ sở, và hiệu suất thực sự tốt.
Và cách đây vài ngày, trong cộng đồng Zero One Everything Huggingface, một nhà phát triển cũng đã chỉ ra:
Theo như chúng tôi biết, Yi sử dụng kiến trúc của LLaMA hoàn toàn, ngoại trừ hai tensor đã được đổi tên. (input_layernorm, post_attention_layernorm)
Trong quá trình thảo luận, một số cư dân mạng cho rằng nếu họ sử dụng chính xác kiến trúc Meta LLaMA, codebase và tất cả các tài nguyên liên quan, họ cần tuân thủ thỏa thuận cấp phép do LLaMA quy định.
Để tuân thủ giấy phép nguồn mở của LLaMA, một nhà phát triển đã đổi tên lại và đặt lại tên cho Huggingface:
01-ai/Yi-34B, tensor đã được đổi tên để phù hợp với mã model LLaMA tiêu chuẩn. Liên kết liên quan:
Nhìn thấy điều này, chúng ta cũng biết công ty nào Jia Yangqing, người đã rời bỏ Ali để bắt đầu kinh doanh vài ngày trước, được đề cập trong vòng tròn bạn bè.
Đáp lại vấn đề này, trái tim của máy cũng đã xác minh số không và một thứ. Zero One Thing trả lời:
GPT là một kiến trúc được thiết lập tốt được công nhận trong ngành và LLaMA tóm tắt nó trên GPT. Thiết kế cấu trúc của mô hình R &D dựa trên cấu trúc trưởng thành của GPT, dựa trên những thành tựu công cộng hàng đầu của ngành và rất nhiều công việc đã được thực hiện dựa trên sự hiểu biết về mô hình và đào tạo của nhóm Zero One Everything, đây là một trong những nền tảng cho bản phát hành đầu tiên và kết quả tuyệt vời của chúng tôi. Đồng thời, Zero One Everything cũng đang tiếp tục khám phá sự đột phá cần thiết ở cấp độ cấu trúc của mô hình.
Cấu trúc mô hình > chỉ là một phần của đào tạo mô hình. Những nỗ lực mô hình nguồn mở của Yi trong các khía cạnh khác, chẳng hạn như kỹ thuật dữ liệu, phương pháp đào tạo, trông trẻ, cài đặt siêu tham số, phương pháp đánh giá và hiểu biết sâu sắc về bản chất của các chỉ số đánh giá, độ sâu nghiên cứu về các nguyên tắc của khả năng khái quát hóa mô hình và cơ sở hạ tầng AI hàng đầu trong ngành Rất nhiều công việc R &D và nền tảng đã được đầu tư, thường có thể đóng vai trò và giá trị lớn hơn cấu trúc cơ bản, đây cũng là hào công nghệ cốt lõi của 0 thứ 10 trong giai đoạn tiền đào tạo của các mô hình lớn.
Trong quá trình thực hiện một số lượng lớn các thử nghiệm đào tạo, mã đã được đổi tên do nhu cầu thực thi thử nghiệm và chúng tôi tôn trọng phản hồi của cộng đồng nguồn mở, cập nhật mã và tích hợp tốt hơn vào hệ sinh thái Transformer .
Chúng tôi rất biết ơn phản hồi từ cộng đồng, chúng tôi chỉ mới bắt đầu trong cộng đồng nguồn mở, và chúng tôi hy vọng sẽ làm việc với bạn để tạo ra một cộng đồng thịnh vượng, và Yi Open-source sẽ làm hết sức mình để tiếp tục cải thiện.