В эпоху ИИ «совместное использование вычислительных мощностей» — это новая «желтая машина» для молодых программистов

TechubNews · 2026-04-08T08:28:43+00:00

Источник: Geek ParkАвтор: Сюй Шань «Стоимость токенов стремительно падает.» Если бы эти слова прозвучали два года назад, они бы взволновали каждого предпринимателя в сфере ИИ. С 2023 по 2025 год стоимость ИИ-вычислений снизилась на 99,7%. Для справки: когда был выпущен GPT-4, стоимость за 1 млн Token составляла 37,5 доллара, а к 2025 году этот показатель уже упал до 0,14 доллара. Судя по этому тренду, затраты на вычислительные ресурсы для стартапов не должны были стать проблемой. Но на практике все обстоит ровно наоборот. В тот же период расходы глобальных компаний на облачный ИИ взлетели со 115 млн долларов до 370 млн долларов — ровно втрое. После того как ИИ перешел в эпоху A2A, десятки агентов многократно взаимодействовали между собой, из‑за чего объем вызовов Token начал расти по экспоненте. Это также привело к тому, что

TechubNews

2026-04-08 08:28:43

Источник: Geek Park

Автор: Сюй Шань

«Издержки на токены стремительно падают».

Если поставить эту фразу два года назад, она заставила бы каждого предпринимателя в сфере ИИ прийти в восторг. С 2023 по 2025 год стоимость ИИ-инференса снизилась на 99,7%. Для сравнения: когда был выпущен GPT-4, стоимость на миллион токенов составляла 37,5 доллара, а к 2025 году этот показатель уже упал до 0,14 доллара. Судя по этой динамике, проблема с затратами на вычислительные ресурсы для предпринимателей, казалось бы, не должна существовать.

Но реальность как раз обратная.

В тот же период глобальные расходы предприятий на AI-облако взлетели со 115 до 370 миллиардов долларов — ровно в три раза. После того как ИИ вошел в эпоху A2A, десятки агентных систем многократно взаимодействуют, из-за чего количество вызовов токенов взрывается экспоненциально. Это также приводит к тому, что хотя цена токенов за штуку стала дешевле, количество токенов, потребляемых на каждую задачу, безумно растет.

Очевидно, вычислительные мощности превращаются в самый необычный ресурс эпохи. Они становятся все дешевле, но деньги, которые вы на них тратите, будут только расти.

Для гигантов эту проблему можно решить, построив собственные вычислительные центры. Но для большинства стартапов у них остается лишь стоять на рынке публичных вычислительных мощностей, принимать ценообразование облачных провайдеров, смотреть, как счета за вычислительные мощности месяц за месяцем растут, и при этом не иметь возможности торговаться.

Именно такую возможность, рожденную перекосом в этом рынке, видит основатель Gongji Technology Фу Чжи.

По его мнению, решение вопроса снижения затрат на вычисления — это не только ждать, пока издержки естественным образом упадут, а изменить способ использования вычислительных мощностей, чтобы тоже запустить снижение стоимости. Пусть вычисления, как электричество: брать их по мере необходимости, платить по факту потребления, а большие объемы простаивающих и растрачиваемых вычислительных ресурсов снова активировать.

Недавно Gongji Technology завершила Pre-A раунд финансирования; постинвестированная оценка составила 350 миллионов юаней, и компания планирует в ближайшее время запустить A-раунд. В 2025 году, когда давление на сегмент вычислительных мощностей повсеместное, эта технологическая компания, решающая проблему диспетчеризации ресурсов методами ИИ, тихо добилась нескольких десятков миллионов юаней выручки, а коэффициент удержания клиентов приближается к 100%.

Gongji Technology превращает диспетчеризацию вычислительных мощностей в реальный бизнес.

Основатель Gongji Technology Фу Чжи. Источник изображения: Gongji Technology

01 Когда у AI-компаний случается прорыв, появляется новое решение задачи «стоимость вычислений»

Накануне запуска нового продукта команда Remy почти не спала, постоянно готовясь к внезапным ситуациям.

Но когда сайт компании за 48 часов принял 500 тысяч пользователей, для AI-стартапа, который только что вышел из внутреннего тестирования в публичное, им нужно было в кратчайшие сроки увеличить мощности базовой инфраструктуры в десятки раз. Несмотря на подготовку, перед запуском Remy заранее тестировала несколько облачных платформ — Ucloud, Alibaba Cloud, Huawei Cloud и т. д., — но в тот момент, когда реальный поток трафика обрушился, их финальным решением стал именно Gongji Technology.

Если сказать просто, Gongji Technology делает следующее: поднимает в работу простаивающие вычислительные мощности, а затем распределяет их по требованию предприятиям с гибкими запросами. Будь то машины, которые простаивают ночью в компьютерных клубах, или видеокарты 4090 у частных пользователей, или свободные ресурсы маленьких дата-центров — все это может стать частью пула вычислительных мощностей, которым может управлять Gongji Technology. Если клиентам не хватает мощности, их в любое время можно снова дозапросить из пула: взять когда нужно, использовать по факту.

За те 48 часов Gongji Technology в экстренном порядке выделила для Remy почти 1900 GPU-карт. Как только пользователь инициировал запрос, появлялся новый заказ; когда пользователь завершал вычисление, заказ сразу закрывался. В тот день платформа обработала более миллиона заказов.

«В пиковый момент обычному провайдеру вычислительных мощностей обычно бывает уже очень сложно временно открыть 20 карт; чаще компаниям приходится ждать, а ожидание означает потерю трафика — этого предприятие абсолютно не хочет видеть». Фу Чжи рассказал, что после этого большая часть вычислительных мощностей, которые использовала Remy, поступала из Gongji Technology.

Потребность Remy в вычислениях на самом деле проста: когда случается всплеск трафика, нужно быстро и своевременно отвечать на клики пользователей; вызовы вычислений должны быть быстрыми и точными, а стоимость — низкой. Это и есть самые базовые запросы к вычислительным мощностям для AI-стартапов только на старте.

В отличие от этого, есть категория клиентов AI-приложений, у которых потребность в вычислениях хоть и более нишевая, но также более реальная.

Во время прошлогоднего Праздника Весны компания, занимавшаяся AI-заменой образов и съемкой в туристических достопримечательностях, обратилась в Gongji Technology. Они, конечно, не не знали, когда именно наступают моменты пикового трафика, но все равно им было очень трудно правильно посчитать «вычислительный счет».

Их AI-устройства стояли на территории достопримечательности: в праздники людей набивалось битком, и спрос на вычисления резко возрастал. Но после окончания каникул потребность в вычислениях почти сходила на ноль. «Праздник Весны — самый большой пик за весь год, а оставшуюся большую половину года в достопримечательности почти нет людей». Так они рассказали Фу Чжи.

Такие колебания спроса означают: если арендовать вычисления по пиковому тарифу, то 90% времени в обычные дни — это просто сжигание денег на поддержание карт; если арендовать по среднему, то в период праздника спрос наверняка обрушится, что негативно повлияет на пользовательский опыт. «Такие колебания спроса в традиционных решениях для вычислительных мощностей получить трудно. Потому что для этого типа экстремальной разницы пиков и провалов в стандартных продуктах вообще нет логики ценообразования». — сказал Фу Чжи.

Но как раз такой сценарий очень подходит для использования платформы совместного использования вычислительных мощностей Gongji Technology.

В тот месяц узлы сервиса сменили 1963 персональных компьютера; за весь Праздник Весны ни разу не возникло проблем со стабильностью. «По сравнению с тем, что клиент сам разворачивал мощности по пику, мы сэкономили им почти 70% расходов». — добавил Фу Чжи.

Спрос с такими временными колебаниями встречается не только в некоторых вертикальных нишевых сценариях; он также довольно типичен для многих компаний, только начинающих в AI.

liblib — одна из крупнейших в стране платформ AI-генерации изображений по объему пользовательской базы. Раньше они брали в аренду много GPU на платформе облачного провайдера. Но если внимательно разобраться, они обнаружили, что при усреднении GPU по фактическому использованию общая загрузка составляла лишь 45%.

Это означает, что более половины карт ежедневно просто сжигают деньги впустую.

По словам Фу Чжи, такие компании вроде liblib — не редкость: почти все инструменты AI-приложений, где ключевые пользователи — офисные работники, сталкиваются с этой проблемой. Днем пользователи активно пользуются, а ночью число пользователей сильно падает. Если подбирать мощности по пику, то ночью коэффициент простоя высокий. Но если распределять мощности по среднему, то днем будет трудно удовлетворить запросы всех пользователей.

Сегмент AI выглядит шумно и перспективно, но реальной «линией жизни» компании может стать именно счет за стоимость вычислений. Многие компании переоценивают свои ожидания по вычислениям: из-за стоимости они могут «утопить» денежный поток. Другие же недооценивают вычислительные мощности: при пиковом спросе сервис «падает», и тогда пользователи уходят и не возвращаются.

«Трафик у AI-приложений по природе своей колеблющийся; логика ценообразования на рынке вычислительных мощностей рассчитана на стабильный спрос, а способ распределения затрат на вычисления все еще остается довольно традиционным». — сказал Фу Чжи. Именно поэтому, когда у AI-компании действительно происходит прорыв, счет за вычислительные мощности требует новой «математики».

Раньше традиционная модель сервиса вычислительных мощностей в основном строилась вокруг долгосрочной аренды. Компания арендует на год: используется или нет — все равно нужно заранее платить за мощности, а стоимость простаивающих мощностей в основном ложится на саму компанию. А то, что делает Gongji Technology, по сути переносит эту стоимость в другое место — на тех, у кого уже есть простаивающие вычислительные мощности, но кто не может загрузить их полностью: например, частные пользователи, компьютерные клубы и т. д. Эти мощности изначально растрачиваются впустую. Их просто нужно задиспетчировать, не создавая новой стоимости вычислений, и тем самым «оживить» уже существующие простаивающие мощности.

«Вычисления — не в том, что их должно быть как можно больше», — сказал Фу Чжи, — «а в том, чтобы они были подвижными, доступными по первому запросу — вот тогда это хорошо».

02 Этот бизнес с «эластичными вычислениями» проверяет способность управлять энергией

Для Фу Чжи шанс заняться бизнесом по диспетчеризации вычислительных мощностей пришел, по сути, случайно.

В мае 2023 года, в период отпуска — как раз на стадии, когда AI-волна только начинала подниматься, — Фу Чжи отправил сообщение в комьюнити для AI-стартаперов. Оно было очень простым: у меня есть A100; чем короче аренда, тем дешевле; кому нужно — пишите мне.

Тогда его ожидания не были высокими: в конце концов, у него была всего одна видеокарта. Но в итоге оказалось неожиданно: к нему обратилось 30 человек, и все довольно быстро заплатили.

«Кому я скажу “платит быстро — тому и отдам”, тому и отдам». В итоге он отобрал пятерых и занялся их обслуживанием. Одна карта, пять клиентов — так он подтвердил решение, о котором долго думал: обычным людям уже нужны вычислительные мощности.

Но он также понимал, что этот бизнес стал возможным именно в тот момент не потому, что ему просто повезло, а потому что до этого не было подходящих условий.

Ведь еще в 1999 году кто-то уже предлагал разделение вычислительных мощностей: строить платформу BOINC, где десятки тысяч людей отдавали свои вычисления, но тогда речь шла о благотворительных проектах научных вычислений, и каждый мог использовать это бесплатно. Позже, когда биткоин стал горячей темой, некоторые тоже думали задействовать простаивающие вычислительные мощности на волне майнинга, но это было нелегально.

Идея существовала всегда, но «почва» долго отсутствовала.

В конце концов, реальные обычные пользователи с высокопроизводительными GPU — это в основном поколения 90-х и 00-х. До этого у очень немногих персональных компьютеров была видеокарта 4090. А чтобы на персональных компьютерах безопасно запускать Linux-виртуальные окружения с помощью WSL1.0.0 — это вообще стало официально доступно только в 2022 году. Не говоря уже о технологиях удаленного доступа к распределенным по разным местам устройствам, чтобы они могли проходить через NAT и пробиваться через внутренние сети: они стали по-настоящему зрелыми примерно в 2021 году.

Когда совпали с обеих сторон предложение, спрос и технические условия, тогда этот бизнес стал возможным именно сегодня.

Но Фу Чжи считает, что сигнал о том, что «время пришло», он увидел не в DeepSeek и не в одном устройстве-комбайне, а в потребительских сценариях AI: они начали проникать из нишевых инструментов в повседневные развлечения обычных людей.

«Как только этот процесс ускорится, спрос на вычислительные мощности уже будет не в закупке у нескольких крупных компаний, а в том, что их нужно будет, как электричество, распределять и раздавать в больших масштабах, между узлами». — сказал Фу Чжи.

Именно поэтому Gongji Technology сейчас продвигает сотрудничество с национальными центрами вычислительных мощностей. На данный момент они уже участвуют в создании региональных платформ диспетчеризации вычислительных мощностей на уровне провинций для Пекина, Тяньцзиня и Хэбэя, Дельты Янцзы, Шэньчжэня и провинции Цинхай. Технически в системах диспетчеризации, которые построены в разных местах, есть участие Gongji.

Однако «диспетчеризация вычислительных мощностей» — это гораздо сложнее, чем кажется.

Диспетчеризация вычислительных мощностей и управление вычислительными ресурсами — не одно и то же. Фу Чжи разделил их: то, что делают крупные компании, — это управление. Они включают кучу машин в одну систему, понимают, кто используется, а кто простаивает, но почти невозможно реализовать динамическое распределение между разными территориями и разными устройствами.

А диспетчеризация вычислительных мощностей — это другое. Она должна заполнить спрос по пиковым значениям в одном месте за счет простаивающих мощностей в других местах. В инженерной области для этого фактически нет готового решения — наоборот, это старая проблема из энергетики. Термин «срезать пики и заполнять провалы» изначально и является термином из энергосистем.

Фу Чжи на первом образовании изучал архитектурную среду и инженерное применение в энергетике в Университете Цинхуа. Его научным руководителем был академик в энергетической области. Он перенес алгоритм диспетчеризации энергии, чтобы решить «версию той же самой задачи» в вычислительных мощностях — и это и есть ключевой барьер Gongji.

Конечно, при инженерной реализации этой кроссрегиональной системы диспетчеризации тоже возникает немало проблем. Например, персональные компьютеры, подключенные к пулу диспетчеризации, могут в любой момент оказаться «занятыми»: если пользователь запускает игру, машина должна выйти из пула, но downstream-клиенты требуют, чтобы сервис не прерывался.

Фу Чжи выбирает горячий резерв и прогнозирование: заранее подготовить избыточные резервные узлы для каждой задачи и при этом использовать накопленные исторические данные, чтобы предсказывать онлайн-режимы каждого поставщика и динамически корректировать долю резервирования. Чем больше данных, тем точнее резервирование и ниже стоимость. «Раньше мне нужно было держать для тебя в резерве две машины. Но по мере использования теперь достаточно и одной». Также слой сетевой передачи неустойчив: решение Gongji — одновременно подключать три ведущих облачных провайдера, как упомянул Фу Чжи: «Невозможно, чтобы все одновременно сломались».

Тогда почему облачные провайдеры сами не делают эластичные вычисления?

Пояснение Фу Чжи таково: крупные компании это видели, но их эластичные вычисления отличаются по продуктовой позиционировке и ценовой стратегии. Преимущество Gongji — цена и эффективность диспетчеризации.

Ключевое противоречие эластичных вычислений в том, что вам нужно заранее подготовить «мощности, которые можно вызвать в любой момент», но когда ими никто не пользуется, это чистые издержки простоя. Обычно масштабирование эластичных вычислений у стандартных провайдеров обходится примерно в 5 раз дороже обычной цены, либо провайдер просит клиента заключить годичный долгосрочный договор, а риск простоя вычислительных мощностей переносится на клиента.

Gongji может предоставлять действительно эластичные вычисления, потому что ресурсы, которые она использует, изначально являются простаивающими: их не нужно заранее закупать и давить стоимостью, они просто простаивают. Поэтому Gongji может предлагать более выгодную цену.

По анализу Фу Чжи, на рынке в целом 80% потребности в вычислениях идет в долгосрочные аренды «пакетом» у крупных компаний, а оставшиеся 20% — это часть с гибким спросом. Фу Чжи не планирует конкурировать за эти 80%; он сосредотачивается на рынке этих 20%. И по мере того как AI-приложения продолжают расти, пространство для этих 20% будет только расширяться. «У других — чем дольше арендуешь, тем дешевле; у меня — чем короче арендуешь, тем дешевле». — добавил Фу Чжи. Сейчас платформа совместного использования вычислительных мощностей Gongji Technology «suanli.cn» позволяет обычным потребителям арендовать нужные мощности с почасовой точностью до миллисекунды.

Командная фотография Gongji Technology. Источник изображения: Gongji Technology

Такая модель совместного бизнеса фактически давно получила подтверждение и в других сферах.

Фу Чжи сравнил сущность этого бизнеса с Airbnb: в городе проводят большой выставочный и ярмарочный ивент, и вокруг все отели оказываются заняты; Airbnb связывает жителей с простаивающими комнатами и участников конференции, которым негде остановиться. История вычислений — по тому же пути: AI-приложения в момент выхода версии и всплеска трафика нуждаются в огромном количестве вычислительных мощностей, но в обычные периоды объем спроса сильно меньше; с другой стороны, у частных пользователей, в компьютерных клубах и в малых серверных помещениях вычислительные мощности ночью и в рабочие дни часто простаивают. Соединить эти две стороны — это то, что делает Gongji.

Только совместно используется не комната, а вычислительные мощности.

03 Диспетчеризация вычислительных мощностей и энергии — «программно-определенная инфраструктура» эпохи AI

Этот путь также проходили за рубежом. Например, RunPod тоже предоставляет услуги эластичного инференса за счет разрозненных вычислительных мощностей и в 2024 году привлекла 20 миллионов долларов seed-раунда, который совместно возглавили Intel Capital и Dell Technologies Capital. Среди клиентов — Cursor, OpenAI, Perplexity.

Но, по мнению Фу Чжи, то, что делают в США, и то, что делают в Китае — это совершенно разные вещи.

AWS с момента своего появления уже предоставляет эластичные вычислительные мощности: изначально там обещали возможность брать по требованию, и через дорогие эластичные сервисы обслуживали зрелый рынок. А в Китае облачные провайдеры больше склонны предоставлять долгосрочную аренду; связанные льготные политики также направлены туда, и эластичные сервисы уделяют не так много внимания. Поэтому и готовность пользователей платить за эластичные вычисления в Китае намного ниже, чем в США. Следовательно, если перенести логику RunPod в китайские условия, то ценообразование «не сойдется».

Однако Фу Чжи считает, что диспетчеризация вычислительных мощностей — это не только бизнес по аренде вычислений. «Совместное использование вычислительных мощностей может быть просто “пропуском” для входа в рынок», — сказал он без колебаний. По его оценке, окно для этого бизнеса примерно два-три года: пока есть перекос между спросом и предложением вычислительных мощностей, это «окно» существует, но оно не будет длиться вечно.

Такое трезвое понимание среди предпринимателей встречается нечасто. Но именно поэтому он очень рано начал думать о более коренной вещи: где вырастет следующее действительно взрывное AI-приложение? Этот вывод напрямую определит направление развития спроса на вычислительные мощности. У Фу Чжи есть два взгляда на будущее.

Первое: по его анализу, китайские суперприложения не вырастут из инструментов повышения производительности на ПК. Реальные перспективные направления — это социальные развлечения на мобильных платформах, кроссграничное оборудование, сочетающееся с цепочками поставок, а также AI-приложения, которые можно встроить в реальные жизненные сценарии.

Интернет в Китае никогда не переживал эпоху глубокой «производительности на ПК». Пользователи напрямую перескочили из эпохи кнопочных телефонов в эпоху мобильного интернета. Те AI-документы, AI-презентации и AI-помощники по коду, которые «выстрелили» в США, опираются на аудиторию из нескольких десятков миллионов привычных к работе на ПК пользователей, готовых платить за SaaS-инструменты. В Китае — не так. «В Китае больше 100 миллионов человек, которым нужно писать в Word? Я думаю, что, возможно, нет». Сложнее всего даже не это: даже если такой спрос и есть, крупные компании быстро сделают эти функции бесплатными плагинами.

Напротив, в социальных развлекательных сценариях он увидел рост. Он общался со множеством людей, работающих с короткими роликами и кино/видео, и спрашивал, почему они так активно обнимают AI. Их обратная связь дала ему новое понимание: «Мне уже нечего терять. Никто больше не смотрит фильмы и сериалы — мы уже почти мертвы». Эти люди в китайском рынке — самые активные сторонники AI не потому, что лучше всех понимают технологию, а потому что отступать уже некуда. «Сейчас уже почти никто не смотрит телевизор, фильмы».

А что касается развития AI-железа, у него тоже есть отличные взгляды.

В последние несколько лет основной подход в AI-железе был «всё снабдить диалоговым окном»: то есть любое устройство снабжается чат-окном. Фу Чжи считает, что этот путь неверный. «Потребителям не нужен холодильник, который умеет писать поэзию».

По-настоящему жизнеспособное AI-железо — это входить в те высокочастотные сценарии, которые у пользователя уже есть, и чтобы AI незаметно работал в фоне, а не тянул пользователя специально сесть и общаться с ним.

Это похоже на то, как pet-камера должна автоматически распознавать, болеет ли кот. Или как камеры в туристических местах автоматически завершат процесс замены образа и съемки. Пользователю не нужно ничего менять: AI тихо сделает все за него. «Если такое железо сможет внедрять open-source модели при развертывании, то и в момент всплеска трафика оно тоже станет клиентом эластичных вычислений». По мнению Фу Чжи, это также один из будущих точек роста Gongji Technology.

Второе суждение Фу Чжи спрятано еще глубже: оно сформировалось еще к концу 2024 года, но возможность проверить его он дождался только в этом году.

Он считает, что побуждать людей напрямую разговаривать с AI — по своей сути пустая трата эффективности. Скорость ввода-вывода информации у человека ограничена: за раз можно задать один вопрос, нужно ждать появления ответа, чтобы задать следующий. Но AI может одновременно обрабатывать тысячи и тысячи потоков и выполнять передачу информации между машинами за миллисекунды. «Использовать людей для управления AI — значит тянуть систему через самый медленный элемент».

То, что реально должно происходить, — это прямое сотрудничество AI с AI, A2A. Когда задача ставится, она запускает цепочку связанной работы группы AI; человеку нужно определить только цель, и ему не нужно участвовать в каждом промежуточном шаге. Вот почему сегодня OpenClaw так ценят. Вот почему Фу Чжи считает OpenClaw действительно важным: не потому, что это продукт сам по себе, а потому что он доказывает одну вещь — AI и AI могут сами сформировать сообщество, и есть те, кто платит за A2A; значит этот направление жизнеспособно.

Как только A2A станет мейнстримом, потребление вычислительных мощностей будет в несколько раз и даже в десятки раз больше, чем сегодня. На GTC 2026 Хуан Жэньсюнь сказал, что из-за всплеска agentic AI и вычислительных возможностей объем требуемых вычислений как минимум в 100 раз больше, чем ожидали год назад — и это только начало. Тогда вычислительные мощности будут буквально «как электричество»: уже не будет вопроса, сколько карт вам нужно закупить, вместо этого будут думать о том, сможет ли вся «энергосеть вычислительных мощностей» распределять ресурс по требованию; управление ресурсами перейдет в область диспетчеризации.

Когда A2A действительно наступит, вычисления станут инфраструктурой «под каждым человеком, каждой задачей и каждым AI-узлом», как электричество. И тогда тот, кто сможет точно диспетчеризировать вычислительные мощности между регионами, между устройствами и между временными интервалами, и будет владеть настоящей операционной способностью этой сети.

То, что делает сейчас Gongji Technology, по мнению Фу Чжи — подготовка к тому моменту: использовать это окно в ближайшие два-три года, чтобы построить способности диспетчеризации, сеть узлов и отношения с клиентами. Когда потребность в A2A действительно взорвется, именно эта система станет настоящим рвом защиты Gongji Technology.

Недавно он сказал одну фразу внутри компании: когда интервью почти закончилось, он повторил ее еще раз:

«Даже так, все это только начинается».

В контексте эластичных вычислений эта фраза, возможно, просто оптимистичное суждение предпринимателя о рынке. Но в контексте A2A его «начало», возможно, означает не начало этого бизнеса, а момент, когда предложение о том, что вычислительные мощности — это инфраструктура, пришло в стадию реального старта.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .