Поки компанії вливають гроші в великі мовні моделі (LLM), деякі фахівці промисловості у секторі штучного інтелекту вважають, що невеликі мовні моделі (SLM) стануть наступним великим досягненням.
Це сталося на тлі зростання активності в галузі, оскільки настає святковий сезон, і технологічні компанії інвестують все більше фінансування в розвиток своїх технологій.
Майбутнє - в невеликих мовних моделях
Такі як xAI, керовані мультимільярдером Elon Маск, вдалося залучити додаткові 5 мільярдів доларів від Andreessen Horowitz, Qatar Investment Authority, Sequoia та Valor Equity Partners, тоді як Amazon інвестував додаткові 4 мільярди доларів у Anthropic, конкурента OpenAI.
Подивіться, ці великі технологічні компанії та інші інвестують мільярди доларів, зосереджуючись на розробці великих LLMs для виконання багатьох різних завдань, але реальність штучного інтелекту полягає в тому, що немає універсального рішення, оскільки потрібні моделі, спеціалізовані для конкретних завдань для бізнесу.
За словами головного виконавчого директора AWS Метта Гармана у заяві про розширення партнерства та інвестицій, вже є потужна відповідь від клієнтів AWS, які розробляють генеративний штучний інтелект на основі Anthropic.
LLM для більшості компаній все ще залишається першим вибором для певних проектів, але для інших такий вибір може бути дорогим з точки зору витрат, енергії та обчислювальних ресурсів.
Президент та генеральний директор компанії Teradata Стівен Макміллан, який запропонував альтернативний шлях для деяких підприємств, також має інші погляди. Він позитивно оцінює майбутнє у SLMs.
«Оглядаючись на майбутнє, ми вважаємо, що невеликі та середні мовні моделі та контрольовані середовища, такі як моделі LLM для конкретних областей, нададуть набагато кращі рішення».
~ МакМіллан
SLMs cтворюють на замовлення виводи для конкретних типів даних, оскільки мовні моделі спеціально навчені робити це. Оскільки дані, створені SLMs, зберігаються внутрішньо, мовні моделі навчаються на потенційно чутливих даних.
З урахуванням того, що LLM витрачають енергію, невеликі мовні версії навчаються масштабувати як обчислювальні, так і енергетичні витрати до фактичних потреб проекту. З такими корекціями це означає, що SLM є ефективними за менші кошти, ніж поточні великі моделі.
Для користувачів, які хочуть використовувати штучний інтелект для конкретних знань, є можливість використання доменних специфічних LLMs, оскільки вони не пропонують широких знань. Вони навчені глибоко розуміти лише одну категорію інформації та реагувати більш точно, наприклад, CMO проти CFO, в цій галузі.
Чому SLM є бажаною опцією
Згідно з Асоціацією вчених-даналогів (ADaSci) повне розроблення SLM з 7 мільярдами параметрів для мільйона користувачів потребувало б лише 55,1 мегават-годин (MWh) енергії.
ADaSci виявила, що навчання GPT-3 з 175 мільярдами параметрів споживає приблизно 1,287 МВт-год електроенергії, причому ця потужність не включається, коли вона офіційно використовується громадськістю. Тому SLM використовує близько 5% енергії, витраченої на навчання LLM.
Великі моделі зазвичай запускаються на хмарних комп’ютерах, оскільки вони використовують більше обчислювальної потужності, ніж будь-коли доступно на окремому пристрої. Це призводить до ускладнень для компаній, оскільки вони втрачають контроль над своєю інформацією, коли вона переходить до хмари, а також повільних відповідей, коли вони подорожують через інтернет.
В майбутньому прийняття бізнесами штучного інтелекту не буде універсальним, оскільки ефективність та вибір найкращого та менш витратного інструменту для виконання завдань буде у фокусі, що означає вибір правильної моделі для кожного проекту.
Це буде зроблено для всіх моделей, чи то загального призначення LLM, чи менших і специфічних для конкретної галузі LLM, в залежності від того, яка модель дозволить отримати кращі результати, вимагатиме менше ресурсів та зменшить потребу в міграції даних до хмари.
Для наступної фази штучний інтелект буде важливим для бізнес-рішень, оскільки громадськість має високу довіру до відповідей, створених штучним інтелектом.
«Коли ви думаєте про навчання моделей штучного інтелекту, вони повинні ґрунтуватися на якісних даних.»
~ МакМіллан
«Саме це є нашою головною метою, забезпечення надійного набору даних, а потім забезпечення можливостей та аналітичних здібностей, щоб клієнти та їхні клієнти могли довіряти результатам», - додав Макміллан.
З високим попитом на ефективність та точність у світі менші та спеціалізовані LLM надають ще одну опцію для отримання результатів, на які компанії та широке загалом можуть покластися.
Посібник по кроку-за-кроком для запуску вашої кар’єри у сфері Web3 та отримання високооплачуваних робіт у криптографії протягом 90 днів.