Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
ME News Новости, 18 апреля (UTC+8), согласно мониторингу 动察 Beating, Moonshot AI и Университет Тсинхуа 16 апреля опубликовали новую статью на arXiv «Prefill-as-a-Service», предлагающую запуск этапа предзаполнения (prefill) для вывода больших моделей в跨данных центрах. Большие модели для вывода делятся на два шага: prefill — однократное чтение входных данных и создание кеша KV; decode — последовательное вывод результатов на основе этого кеша. Требования к аппаратному обеспечению для двух шагов полностью различны: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты. Основной подход индустрии — разделение двух шагов на разные машины (PD разделение), что требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием передает десятки Гбит/с в секунду, и при медленной передаче GPU простаивает.
Поворот произошел благодаря новому поколению гибридных моделей внимания. В статье экспериментально показано, что модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с большим количеством линейных слоев, сокращают пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигается компрессия в 36 раз. В этом случае кеш KV можно переносить с RDMA-частной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создание отдельного «кластера предзаполнения», который маршрутизирует только запросы с длинным контекстом и непопавшие префиксы, оставляя короткие запросы в локальном PD-кластере; после завершения предзаполнения кеш KV передается по Ethernet обратно в локальный кластер для decode. Внедряются пороговые значения длины, маршрутизация с учетом пропускной способности и гибридный пул кешей префиксов. В статье проведены экспериментальные тесты с внутренней моделью hybrid на 1 Т параметров (на базе архитектуры Kimi Linear), которые показали, что общая пропускная способность сервиса выше на 54% по сравнению с однородным PD-развертыванием и на 32% — по сравнению с простым гибридным方案, при этом каждое устройство использует умеренную пропускную способность междоменного соединения.
(Источник: BlockBeats)