Якщо дивитися з точки зору «вибухової» логіки, то позиція @inference_labs фактично досить ясна.
Коли модель більше не відрізняється за масштабом параметрів, справжньою змінною стає: скільки разів за одиницю часу можна зробити висновок. Не наскільки розумною є одна відповідь, а чи здатна система стабільно, високочастотно і паралельно мислити.
Структура «мала модель + кілька агентів» по суті полягає у масштабуванні викликів для висновків. Десятки агентів одночасно працюють, перевіряють один одного, розподіляють завдання і потім об'єднують результати, витрачаючи не «здатність моделі», а пропускну здатність і швидкість каналів для висновків.
Inference Labs не прагне змагатися з самою моделлю, а вирішує більш фундаментальну проблему: коли висновки стають подібними до потоку запитів, хто триматиме цю дорогу?
Це та сама логіка, що і в минулі часи, коли після вузькості тактової частоти CPU галузь переключилася на пам'ять, шину і паралельні обчислення. Обчислювальна потужність більше не є безцінною, важливіше — як її ефективно розподіляти і масштабувати.
Тому Inference Labs більше схожий на підготовку інфраструктури для наступної фази використання AI, не просто модель, яка відповідає на питання, а цілісна система висновків, яка постійно працює.
Моделі не зможуть безкінечно зростати, але висновки обов'язково стануть все щільнішими. Якщо цей тренд підтвердиться, цінність інфраструктури лише починає формуватися. @KaitoAI @Bybit_Web3
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Якщо дивитися з точки зору «вибухової» логіки, то позиція @inference_labs фактично досить ясна.
Коли модель більше не відрізняється за масштабом параметрів, справжньою змінною стає:
скільки разів за одиницю часу можна зробити висновок.
Не наскільки розумною є одна відповідь, а чи здатна система стабільно, високочастотно і паралельно мислити.
Структура «мала модель + кілька агентів» по суті полягає у масштабуванні викликів для висновків.
Десятки агентів одночасно працюють, перевіряють один одного, розподіляють завдання і потім об'єднують результати, витрачаючи не «здатність моделі», а пропускну здатність і швидкість каналів для висновків.
Inference Labs не прагне змагатися з самою моделлю, а вирішує більш фундаментальну проблему:
коли висновки стають подібними до потоку запитів, хто триматиме цю дорогу?
Це та сама логіка, що і в минулі часи, коли після вузькості тактової частоти CPU галузь переключилася на пам'ять, шину і паралельні обчислення.
Обчислювальна потужність більше не є безцінною, важливіше — як її ефективно розподіляти і масштабувати.
Тому Inference Labs більше схожий на підготовку інфраструктури для наступної фази використання AI,
не просто модель, яка відповідає на питання,
а цілісна система висновків, яка постійно працює.
Моделі не зможуть безкінечно зростати, але висновки обов'язково стануть все щільнішими.
Якщо цей тренд підтвердиться, цінність інфраструктури лише починає формуватися.
@KaitoAI @Bybit_Web3