Заснована на LLaMA, але змінена назва тензора, велика модель Кай-Фу Лі викликала суперечки, і прийшла офіційна відповідь

巴比特_

2023-11-15 06:38:25

Першоджерело: Heart of the Machine

Джерело зображення: Створено Unbounded AI

Деякі дослідники виявили, що модель Yi-34B Кай-Фу Лі в основному використовує архітектуру LLaMA, але перейменовує два тензори. У відповідь “Нуль – одне все” дав офіційну відповідь.

Деякий час тому в області великих моделей з відкритим вихідним кодом з’явилася нова модель - розмір контекстного вікна перевищив 200 Кб, а “Yi” може обробляти 400 000 китайських ієрогліфів одночасно.

Ця масштабна модель побудована великомасштабною модельною компанією «Zero One Everything», заснованою Кай-Фу Лі, головою Sinovation Ventures і CE0, і включає в себе дві версії: Yi-6B і Yi-34B.

Згідно з англійською платформою спільноти з відкритим вихідним кодом Hugging Face та оціночним списком C-China, Yi-34B досяг ряду міжнародних визнань найкращого індексу продуктивності SOTA, коли він був запущений, ставши «подвійним чемпіоном» серед глобальних великих моделей з відкритим вихідним кодом, обійшовши LLaMA2 і Falcon та інших конкурентів з відкритим вихідним кодом.

Yi-34B також став єдиною вітчизняною моделлю, яка успішно очолила глобальний рейтинг моделей з відкритим вихідним кодом Hugging Face на той час, назвавши її «найсильнішою у світі моделлю з відкритим вихідним кодом».

Нещодавно, однак, деякі дослідники виявили, що модель Yi-34B в основному використовує архітектуру LLaMA, але перейменовує два тензори.

Оригінальне посилання:

У дописі також зазначається:

код Yi-34B насправді є рефакторингом коду LLaMA, але, схоже, він нічого суттєво не змінив. Ця модель явно заснована на оригінальному файлі Apache версії 2.0 LLaMA, але не згадує LLaMA:

Порівняння коду Yi та LLaMA. Посилання на код:

Крім того, ці зміни коду не надсилаються до проекту трансформаторів через pull request, а додаються як зовнішній код, який може становити загрозу безпеці або не підтримуватися фреймворком. Таблиця лідерів HuggingFace навіть не буде тестувати цю модель з контекстним вікном до 200 тисяч, оскільки вона не має спеціальної кодової стратегії.

Вони стверджують, що це модель 32K, але вона налаштована як модель 4K, немає конфігурації масштабування RoPE і немає пояснення, як масштабуватися (примітка: Zero One Thousand Things раніше заявляла, що сама модель була навчена на послідовності 4K, але її можна було масштабувати до 32K на етапі виведення). На даний момент інформації про його тонких даних немає. Вони також не надають інструкцій щодо відтворення своїх тестів, включаючи підозрілі високі результати MMLU.

Той, хто деякий час працював у сфері штучного інтелекту, не заплющуватиме на це очі. Чи є це брехливою пропагандою? порушення ліцензій? фактичне обман бенчмарку? Кому яке діло? Змініть наступний папір, або в цьому випадку заберіть всі венчурні гроші. Yi принаймні вище норми, тому що це базова модель, і продуктивність дійсно хороша.

А кілька днів тому у спільноті Zero One Everything Huggingface розробник також зазначив:

Наскільки нам відомо, Yi повністю використовує архітектуру LLaMA, за винятком двох тензорів, які були перейменовані. (введення_layernorm, після_attention_layernorm)

Під час обговорення деякі користувачі мережі заявили, що якщо вони використовують архітектуру Meta LLaMA в точності, кодову базу та всі супутні ресурси, їм потрібно дотримуватися ліцензійної угоди, передбаченої LLaMA.

Для того, щоб відповідати ліцензії LLaMA з відкритим вихідним кодом, один розробник змінив назву назад і знову поставив її на huggingface:

01-ai/Yi-34B, тензори перейменовано відповідно до стандартного коду моделі LLaMA. Посилання за темою:

Бачачи це, ми також знаємо, про яку компанію згадував у колі друзів Цзя Янцін, який кілька днів тому покинув Алі, щоб розпочати бізнес.

У відповідь на цю справу серце машини також перевірило нуль і одиницю. Нуль Одна Річ відповів:

GPT — це добре усталена архітектура, визнана в галузі, і LLaMA узагальнює її на GPT. Структурний дизайн моделі досліджень і розробок базується на зрілій структурі GPT, спираючись на головні публічні досягнення галузі, і багато роботи було зроблено на основі розуміння моделі та навчання командою Zero One Everything, що є однією з основ для нашого першого релізу та чудових результатів. У той же час Zero One Everything також продовжує досліджувати суттєвий прорив на структурному рівні моделі.

модельна структура - це лише одна з частин модельного навчання. Зусилля Yi в моделі з відкритим вихідним кодом в інших аспектах, таких як інженерія даних, методи навчання, догляд за дитиною, налаштування гіперпараметрів, методи оцінки та глибина розуміння природи показників оцінки, глибина досліджень принципів можливостей узагальнення моделей та провідна в галузі інфраструктура штучного інтелекту можливостей і т.д., було вкладено багато науково-дослідних і дослідно-конструкторських розробок і фундаментних робіт, які часто можуть відігравати більшу роль і цінність, ніж базова структура, яка також є основним технологічним ровом з нуля 10 речей на етапі попереднього навчання великих моделей.

У процесі великої кількості навчальних експериментів код був перейменований у зв’язку з необхідністю експериментального виконання, і ми з повагою поставилися до відгуків спільноти з відкритим вихідним кодом, оновили код і краще інтегрувалися в екосистему Transformer.

Ми дуже вдячні за зворотній зв’язок від спільноти, ми тільки починаємо працювати в спільноті з відкритим вихідним кодом, і ми сподіваємося працювати з вами над створенням процвітаючої спільноти, і Yi Open-source зробить все можливе, щоб продовжувати вдосконалюватися.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів