Если смотреть с точки зрения «взрывной логики», то позиция @inference_labs на самом деле довольно ясна.
Когда модель перестает выигрывать за счет масштаба параметров, настоящими переменными становятся: сколько раз в единицу времени она может выполнять推理。 Не в том, насколько умным ответ, а в том, сможет ли она持续,高频、并行地思考。
Структура 小模型 + 多Agent по сути усиливает推理调用。 Несколько десятков Agent одновременно работают,互相校验,拆任务 и再合并结果 — расходуются не «модельные能力», а推理通道 и吞吐能力。
Inference Labs не стремится конкурировать с самой моделью, а решает более базовую задачу: Когда推理 превращается в что-то вроде потока请求, кто сможет удержать этот поток?
Это та же логика, что и в ранние годы, когда после瓶颈 в主频CPU行业 переключился на память, шину и параллельные вычисления. Вычислительная мощь уже не менее важна, важнее — как она управляется и как может быть расширена.
Поэтому Inference Labs скорее прокладывает путь для следующего этапа использования AI, не одного модели, отвечающей на вопросы, а всей системы推理, которая持续运转。
Модель не станет бесконечно большой, но推理一定会变得更密集. Когда этот тренд закрепится, ценность инфраструктуры только начнет формироваться. @KaitoAI @Bybit_Web3
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Если смотреть с точки зрения «взрывной логики», то позиция @inference_labs на самом деле довольно ясна.
Когда модель перестает выигрывать за счет масштаба параметров, настоящими переменными становятся:
сколько раз в единицу времени она может выполнять推理。
Не в том, насколько умным ответ, а в том, сможет ли она持续,高频、并行地思考。
Структура 小模型 + 多Agent по сути усиливает推理调用。
Несколько десятков Agent одновременно работают,互相校验,拆任务 и再合并结果 — расходуются не «модельные能力», а推理通道 и吞吐能力。
Inference Labs не стремится конкурировать с самой моделью, а решает более базовую задачу:
Когда推理 превращается в что-то вроде потока请求, кто сможет удержать этот поток?
Это та же логика, что и в ранние годы, когда после瓶颈 в主频CPU行业 переключился на память, шину и параллельные вычисления.
Вычислительная мощь уже не менее важна, важнее — как она управляется и как может быть расширена.
Поэтому Inference Labs скорее прокладывает путь для следующего этапа использования AI,
не одного модели, отвечающей на вопросы,
а всей системы推理, которая持续运转。
Модель не станет бесконечно большой, но推理一定会变得更密集.
Когда этот тренд закрепится, ценность инфраструктуры только начнет формироваться.
@KaitoAI @Bybit_Web3