Xiaohu демонстрирует межмодельный рабочий процесс: GPT для генерации изображений + Gemini 3.1 Pro для преобразования в интерактивный 3D-контент

2026-05-10 09:16:05

Китайский AI-наблюдатель xiaohu 10 мая поделился примером рабочего процесса, сочетающего GPT и Gemini 3.1 Pro: сначала с помощью GPT генерируются изображения, затем Gemini 3.1 Pro преобразует изображения в 3D-интерактивный контент, который можно превратить в научные приложения с возможностью вращения и управления на любую тему знаний. Пример, показанный xiaohu в твите, включает демонстрацию 3D-планет, интерактивные научные модели и т.д. — это конкретная практика «межмодельного рабочего процесса» (multi-model workflow).

Структура рабочего процесса: GPT генерирует изображение → Gemini 3.1 Pro делает 3D-версию

Весь рабочий процесс состоит из двух этапов:

Этап первый: с помощью GPT (GPT-image-1 или встроенная в ChatGPT генерация изображений) получить тематическое изображение и обеспечить визуальную основу

Этап второй: ввести изображение в Gemini 3.1 Pro, после чего Gemini преобразует 2D-изображение в 3D-интерактивный контент

Формат вывода: 3D-объекты, которыми можно вращать, масштабировать и взаимодействовать прямо в браузере

Подходящие сценарии: научное образование, продуктовые презентации, интерактивный контент по знаниям

«Межмодельный рабочий процесс» — одна из ключевых тенденций AI-приложений на 2026 год: больше не существует «единственной модели на все случаи», разработчики связывают самые сильные стороны разных моделей и создают приложения, которые недоступны одному-единственному моделю.

Конкретная демонстрация: 3D-планеты, интерактивный научный контент, сайт-роботизированная торговая точка

Несколько примеров, которые xiaohu публикует параллельно:

Демонстрация 3D-планет: вращаемая Солнечная система или модель одной планеты

Интерактивный научный контент: абстрактные знания превращаются в 3D-визуализации, подходящие для обучения

Будущий сайт торгового автомата с роботами: с генерацией изображений через GPT и платформой Tripo 3D сделать демонстрационный веб-сайт

Общая черта всех этих примеров — «визуальная генерация + интерактивное преобразование»: GPT отвечает за творческую визуальную часть, а Gemini или другие 3D-инструменты — за перевод статичных изображений в управляемые интерактивные формы. Каждый сегмент по отдельности не считается новым, но итоговый пользовательский опыт после сквозного соединения сильнее, чем у любого отдельного инструмента.

Значение: межмодельные рабочие процессы постепенно становятся стандартной моделью разработки

Конкретные выводы для разработчиков:

Правильно выбрать инструменты важнее, чем выбрать «самую сильную модель» — GPT силён в визуальной части, Gemini — в многомодальном понимании, Claude — в длинном context, у каждой есть свои «сладкие точки»

Стоимость интеграции через модельные API снижается, и состыковка нескольких моделей на уровне реализации становится выполнимой

Новые типы приложений, вероятно, будут «мульти-модельными pipeline», а не расширением идеи «самой сильной единственной модели»

Ценность этого примера — не в технологическом прорыве, а в шаблоне дизайна рабочего процесса

Конкретные события, которые можно будет отслеживать далее: будет ли Google в последующих активностях официально объявлять 3D-возможности Gemini 3.1 Pro как продуктовую функцию, будут ли межмодельные рабочие процессы получать шаблоны поддержки по умолчанию в таких фреймворках, как LangChain / LlamaIndex, и какие существуют конкретные примеры внедрения в коммерческих кейсах (например, образование, e-commerce, маркетинг).

Эта статья, где xiaohu показывает межмодельный рабочий процесс: GPT генерирует изображения + Gemini 3.1 Pro преобразует их в 3D-интерактивный контент, впервые появилась в ChainNews ABMedia.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.

Связанные новости

05-10 06:21

Google запускает набор на вакансии с помощью экзаменов, на которых инженерам разрешают использовать инструменты ИИ

05-10 04:13

Microsoft открывает исходный код модели Phi-Ground 4B, превосходит OpenAI Operator и Claude по точности кликов по экрану

05-09 05:53

Google потребует использовать ИИ на собеседованиях по коду и запустит найм с Gemini в конце этого года

Связанные статьи

Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.

ChainNewsAbmedia05-10 09:15

Гарри Тан: Я сейчас очень редко даю ИИ подсказки! Генеральный директор YC объясняет «компонуемый AI-воркфлоу»

ChainNewsAbmedia05-10 06:44

Anthorpic запускает финансового AI-агента для профессионалов, инсайдеры в отрасли раскрывают ключевой момент: Claude не может заменить аналитиков

ChainNewsAbmedia05-09 17:13

Появилась экосистема Space Computing от NVIDIA: Space-1 Vera Rubin отправляет мощность ИИ уровня дата-центров в космос

ChainNewsAbmedia05-09 16:13

Киберзащитников вооружает GPT-5.5-Cyber от OpenAI

Cryptonews05-08 18:42

комментарий

0/400

Нет комментариев