Маленькие языковые модели (SLM) заявляются, что они будут следующим большим прорывом в области искусственного интеллекта

Cryptopolitan

2024-11-25 20:24:31

Пока компании вливают деньги в большие языковые модели (LLM), некоторые эксперты индустрии в сфере искусственного интеллекта считают, что маленькие языковые модели (SLM) станут следующим большим достижением.

Это происходит в условиях роста активности в отрасли, поскольку наступает праздничный сезон, и технологические компании инвестируют больше финансирование в развитие своих технологий.

Будущее за небольшими языковыми моделями

Подобные XAI, управляемые мульти-миллиардером Elon Маск, смогли привлечь дополнительные $5 миллиарда от Andreessen Horowitz, Qatar Investment Authority, Sequoia и Valor Equity Partners, в то время как Amazon инвестировал дополнительные $4 миллиарда в Anthropic, конкурента OpenAI.

Пока эти крупные технологические компании и другие инвестируют миллиарды долларов, сосредотачиваясь на разработке больших LLMs для решения множества различных задач, реальностью ИИ является то, что здесь нет универсального подхода, поскольку существует необходимость в моделях, специфичных для задач бизнеса.

По словам исполнительного директора AWS Мэтта Гармана в пресс-релизе о расширении партнерства и инвестиций, уже имеется огромный отклик со стороны клиентов AWS, которые разрабатывают генеративный искусственный интеллект, разработанный Anthropic.

Для большинства компаний LLM по-прежнему остается номером один для определенных проектов, но для других этот выбор может быть дорогим по стоимости, энергии и вычислительным ресурсам.

Президент и генеральный директор Teradata Стивен Макмиллан, который предложил альтернативный путь для некоторых предприятий, также имеет иные взгляды. Он уверен, что будущее находится в SLMs.

«Основываясь на нашем взгляде в будущее, мы считаем, что небольшие и средние языковые модели и контролируемые среды, такие как модели LLM, ориентированные на конкретные области, будут предоставлять намного более эффективные решения».

~ Макмиллан

SLMs производят настраиваемые выходы по определенным типам данных, поскольку языковые модели специально обучены делать это. Поскольку данные, сгенерированные SLMs, хранятся внутри, языковые модели, следовательно, обучаются на потенциально чувствительных данных.

Так как LLMs потребляют много энергии, небольшие языковые версии обучаются масштабировать как вычисления, так и энергопотребление под фактические потребности проекта. Благодаря таким настройкам SLMs эффективны при более низкой стоимости по сравнению с текущими большими моделями.

Для пользователей, которые хотят использовать искусственный интеллект для конкретных знаний, есть возможность использования специфических LLM в определенной области, так как они не предлагают широких знаний. Он обучен глубоко понимать только одну категорию информации и отвечать более точно, например, CMO против CFO, в этой области.

Почему SLM являются предпочтительным вариантом

Согласно Ассоциации ученых-аналитиков данных (ADaSci), полное развитие SLM с 7 миллиардами параметров для миллиона пользователей потребует всего 55,1 МВтч (Мегаватт-часов).

ADaSci выяснила, что обучение GPT-3 с 175 миллиардами параметров потребляет примерно 1,287 МВт·ч электроэнергии, и эта цифра не включает в себя время, когда он официально начинает использоваться публикой. Следовательно, SLM использует примерно 5% энергии, потребляемой при обучении LLM.

Большие модели обычно запускаются на облачных компьютерах, потому что они используют больше вычислительной мощности, чем доступно на отдельном устройстве. Это приводит к осложнениям для компаний, так как они теряют контроль над своей информацией при переходе в облако, а также медленные ответы при передаче через интернет.

В будущем принятие искусственного интеллекта бизнесом не будет одноразмерным, поскольку акцент будет сделан на эффективности и выборе наилучшего и наименее дорогостоящего инструмента для выполнения задач, что означает выбор подходящей модели для каждого проекта.

Это будет сделано для всех моделей, будь то универсальная LLM или более маленькие и специализированные LLM в зависимости от того, какая модель даст лучшие результаты, потребует меньше ресурсов и уменьшит необходимость миграции данных в облако.

На следующей стадии искусственный интеллект будет ключевым для бизнес-решений, поскольку у общественности высокое доверие к ответам, созданным искусственным интеллектом.

«Когда вы думаете о тренировке моделей ИИ, они должны быть построены на основе отличных данных».

~ Макмиллан

«Вот в чем заключается наша суть: предоставление надежного набора данных, а затем предоставление возможностей и аналитических способностей, чтобы клиенты и их клиенты могли доверять результатам», - добавил Макмиллан.

С учетом того, что в мире высокий спрос на эффективность и точность, более мелкие и предназначенные для определенной области LLM предлагают еще один вариант доставки результатов, на которые компании и более широкая общественность могут полагаться.

Пошаговое руководство по запуску вашей карьеры в веб-разработке и поиску высокооплачиваемых Крипто-работ за 90 дней.

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев