Berdasarkan LLaMA tetapi mengubah nama tensor, model besar Kai-Fu Lee menimbulkan kontroversi, dan tanggapan resmi datang

巴比特_

2023-11-15 06:38:25

Sumber asli: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Beberapa peneliti telah menemukan bahwa model Yi-34B Kai-Fu Lee pada dasarnya mengadopsi arsitektur LLaMA, tetapi mengganti nama dua tensor. Sebagai tanggapan, “Zero One Everything” memberikan tanggapan resmi.

Beberapa waktu lalu, model baru diantar di bidang model besar open-source - ukuran jendela konteks melebihi 200k, dan “Yi” yang dapat memproses 400.000 karakter Cina sekaligus.

Model skala besar ini dibangun oleh perusahaan model skala besar “Zero One Everything” yang didirikan oleh Kai-Fu Lee, ketua Sinovation Ventures dan CE0, dan mencakup dua versi: Yi-6B dan Yi-34B.

Menurut platform komunitas open source Hugging Face English dan daftar evaluasi C-China, Yi-34B telah mencapai sejumlah pengakuan indeks kinerja terbaik internasional SOTA ketika diluncurkan, menjadi “juara ganda” model besar open source global, mengalahkan LLaMA2 dan Falcon dan pesaing open source lainnya.

Yi-34B juga menjadi satu-satunya model domestik yang berhasil menduduki peringkat teratas model open source global Hugging Face pada saat itu, menyebutnya “model open source terkuat di dunia”.

Baru-baru ini, bagaimanapun, beberapa peneliti telah menemukan bahwa model Yi-34B pada dasarnya mengadopsi arsitektur LLaMA, tetapi mengganti nama dua tensor.

Tautan asli:

Posting tersebut juga menyatakan:

Kode Yi-34B > sebenarnya adalah refactoring dari kode LLaMA, tetapi tampaknya tidak mengubah apa pun secara substansial. Model ini jelas didasarkan pada file Apache versi 2.0 LLaMA asli, tetapi tidak menyebutkan LLaMA:

Perbandingan kode Yi vs LLaMA. Tautan Kode:

Selain itu, perubahan kode ini tidak dikirimkan ke proyek transformator melalui pull request, tetapi ditambahkan sebagai kode eksternal, yang mungkin merupakan risiko keamanan atau tidak didukung oleh kerangka kerja. Papan peringkat HuggingFace bahkan tidak akan membandingkan model ini dengan jendela konteks hingga 200K karena tidak memiliki strategi kode khusus.

Mereka mengklaim bahwa ini adalah model 32K, tetapi dikonfigurasi sebagai model 4K, tidak ada konfigurasi penskalaan RoPE, dan tidak ada penjelasan tentang cara menskalakan (catatan: Zero One Thousand Things sebelumnya menyatakan bahwa model itu sendiri dilatih pada urutan 4K, tetapi dapat diskalakan menjadi 32K selama fase inferensi). Saat ini, tidak ada informasi tentang data fine-tuning-nya. Mereka juga tidak memberikan instruksi untuk meniru tolok ukur mereka, termasuk skor tinggi MMLU yang mencurigakan.

Siapa pun yang telah bekerja di ruang AI untuk sementara waktu tidak akan menutup mata terhadap hal ini. Apakah ini propaganda palsu? pelanggaran lisensi? kecurangan patokan yang sebenarnya? siapa yang peduli? Ubah kertas berikutnya, atau dalam hal ini, ambil semua uang ventura. Yi setidaknya di atas norma karena itu model dasar, dan kinerjanya sangat bagus.

Dan beberapa hari yang lalu, di komunitas Zero One Everything Huggingface, seorang pengembang juga menunjukkan:

Sejauh yang kami tahu, Yi menggunakan arsitektur LLaMA sepenuhnya, kecuali dua tensor yang telah diganti namanya. (masukan_layernorm, posting_attention_layernorm)

Selama diskusi, beberapa netizen mengatakan bahwa jika mereka menggunakan arsitektur Meta LLaMA, basis kode, dan semua sumber daya terkait dengan tepat, mereka harus mematuhi perjanjian lisensi yang ditetapkan oleh LLaMA.

Untuk mematuhi lisensi open source LLaMA, satu pengembang mengubah namanya kembali dan meletakkannya kembali di huggingface:

01-ai/Yi-34B, tensor telah diganti namanya agar sesuai dengan kode model LLaMA standar. Link Terkait:

Melihat ini, kami juga tahu perusahaan mana Jia Yangqing, yang meninggalkan Ali untuk memulai bisnis beberapa hari yang lalu, disebutkan dalam lingkaran pertemanan.

Menanggapi masalah ini, jantung mesin juga memverifikasi nol dan satu hal. Zero One Thing menjawab:

GPT adalah arsitektur mapan yang diakui di industri, dan LLaMA merangkumnya di GPT. Desain struktural model R&D didasarkan pada struktur GPT yang matang, mengacu pada pencapaian publik teratas industri, dan banyak pekerjaan telah dilakukan berdasarkan pemahaman model dan pelatihan oleh tim Zero One Everything, yang merupakan salah satu fondasi untuk rilis pertama kami dan hasil yang sangat baik. Pada saat yang sama, Zero One Everything juga terus mengeksplorasi terobosan penting di tingkat struktural model.

struktur model hanyalah satu bagian dari pelatihan model. Upaya model open-source Yi dalam aspek lain, seperti rekayasa data, metode pelatihan, baby sitting, pengaturan hyperparameter, metode evaluasi, dan kedalaman pemahaman tentang sifat indikator evaluasi, kedalaman penelitian tentang prinsip-prinsip kemampuan generalisasi model, dan AI Infra top industri kemampuan, dll., Banyak pekerjaan R&D dan pondasi telah diinvestasikan, yang seringkali dapat memainkan peran dan nilai yang lebih besar daripada struktur dasar, yang juga merupakan parit teknologi inti dari nol 10 hal dalam tahap pra-pelatihan model besar.

Dalam proses sejumlah besar eksperimen pelatihan, kode diganti namanya karena kebutuhan untuk eksekusi eksperimental, dan kami menghormati umpan balik dari komunitas open source, memperbarui kode, dan lebih terintegrasi ke dalam ekosistem Transformer.

Kami sangat berterima kasih atas umpan balik dari komunitas, kami baru memulai di komunitas open source, dan kami berharap dapat bekerja sama dengan Anda untuk menciptakan komunitas yang makmur, dan Yi Open-source akan melakukan yang terbaik untuk terus meningkatkan.

Lihat Asli

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar