Google випустила TurboQuant, що зменшує споживання пам’яті моделі в 6 разів і прискорює виведення в 8 разів, що викликало падіння акцій пам’яті та обговорення зміни структури попиту.
Google випустила алгоритм TurboQuant, який зменшує споживання пам’яті великих мовних моделей щонайменше в 6 разів, одночасно підвищуючи швидкість виведення до 8 разів без жертвування точністю моделі. Ринок швидко інтерпретував цю технологію як «попитова руйнація», логіка якої досить проста: якщо вимоги AI-моделі до пам’яті під час виведення зменшені в кілька разів, це означає, що в майбутньому криві попиту на DRAM, HBM і навіть NAND пам’ять у дата-центрах можуть зазнати структурного зниження.
Після публікації новини акції, пов’язані з пам’яттю та зберіганням, знизилися одночасно, включаючи падіння SanDisk (SNDK) на 3,5%, Micron Technology (MU) на 3,4%, Western Digital (WDC) на 1,63%; серед азіатських постачальників Samsung Electronics знизилася на 4,71%, а SK Hynix впала на 6,23%. Існує також думка, що TurboQuant, швидше за все, змінить «ефективність використання ресурсів», а не просто ослабить попит.
Згідно з поясненнями дослідницької групи Google, TurboQuant — це набір алгоритмів квантизації, призначених для великих мовних моделей і систем векторного пошуку, основна мета яких — значно зменшити «key-value cache» та структури даних високих розмірностей, що найбільше споживають ресурси в AI моделях. У тестах ця технологія змогла зменшити споживання пам’яті щонайменше в 6 разів, одночасно підвищивши швидкість виведення до 8 разів без жертвування точністю моделі.
Цей прорив безпосередньо вразив ключові вузькі місця в сучасній інфраструктурі AI. Розширення генеративного AI на рівні обчислень сильно залежить від HBM та інших пам’ятей з високою пропускною здатністю, щоб підтримувати вагу моделей і великомасштабний KV cache, запобігаючи зависанню пам’яті під час процесу виведення. Однак TurboQuant поєднує методи PolarQuant і Quantized Johnson-Lindenstrauss (QJL) для досягнення компресії з майже «нульовими додатковими витратами на пам’ять», що еквівалентно виконанню тих же або навіть більш ефективних обчислень з меншими апаратними ресурсами.
Ринок швидко інтерпретував цю технологію як «попитову руйнацію». Після публікації новини акції, пов’язані з пам’яттю та зберіганням, знизилися одночасно, включаючи падіння SanDisk (SNDK) на 3,5%, Micron Technology (MU) на 3,4%, Western Digital (WDC) на 1,63%; серед азіатських постачальників Samsung Electronics знизилася на 4,71%, а SK Hynix впала на 6,23%.
Логіка за цим досить проста: якщо вимоги AI-моделі до пам’яті під час виведення зменшені в кілька разів, це означає, що в майбутньому криві попиту на DRAM, HBM і навіть NAND пам’ять можуть зазнати структурного зниження. Особливо на фоні поступового переходу AI-індустрії від «орієнтації на навчання» до «орієнтації на виведення» впливи оптимізації ефективності будуть посилені.
Однак, існує також думка, що TurboQuant, швидше за все, змінить «ефективність використання ресурсів», а не просто ослабить попит. Зі зниженням витрат і зменшенням затримок, сценарії використання AI можуть ще більше розширитися, що призведе до постійного зростання загального попиту на обчислювальні ресурси, формуючи структуру «зниження попиту на одиницю, збільшення загального попиту». Великі виробники пам’яті вже розпродали свої потужності на цей рік, можливо, ринок повинен задуматися: яким насправді є межа зростання AI?