Андрей Карпаты в X отреагировал на взгляды инженера команды Anthropic Claude Code Тарика Шихипара и отметил, что при обращении к большим языковым моделям достаточно в конце подсказки добавить одну фразу: «Пожалуйста, оформите ответ в виде HTML-структуры», а затем сгенерированный файл поместить в браузер, чтобы посмотреть результат — эффект зачастую получается очень хороший. Он даже заявил, что сам пробовал просить LLM оформлять ответы в виде слайдов — и тоже получил неплохие результаты.
(Инженер Anthropic: HTML — лучший формат вывода для Claude Code, а не Markdown)
От простого текста к HTML: ИИ-вывод движется от «читаемого» к «визуализируемому»
Эта реплика продолжает недавнюю дискуссию в сообществе разработчиков ИИ о том, является ли HTML более подходящим форматом вывода для ИИ, чем Markdown. Ранее Шихипар в статье утверждал, что для таких ИИ-кодинговых агентов, как Claude Code, HTML — это не просто формат разметки, а интерфейс вывода, который позволяет ответам ИИ перейти от линейного текста к интерактивным документам.
Карпаты, в свою очередь, поднял тему на уровень эволюции интерфейсов ввода/вывода для человека и ИИ. Карпаты считает, что сейчас большинство LLM по умолчанию по-прежнему выдают ответы на стадии Markdown. По сравнению с исходным текстом Markdown уже улучшил опыт чтения за счет заголовков, жирного, курсива, таблиц и т. п., но по сути он остается линейным представлением, где в основе — текст.
В своей классификации Карпаты сводит форматы вывода ИИ примерно к пути эволюции: первая стадия — исходный текст, при котором самые высокие издержки на чтение; вторая стадия — Markdown, то есть текущий стандартный формат большинства продуктов ИИ; третья стадия — HTML. HTML, хотя всё еще остается программируемым продуктом, на уровне основы требует тегов и структуры, но при этом дает гораздо больше гибкости в плане графики, разметки и стилей, а также позволяет добавлять интерактивные элементы.
Markdown делает ответы ИИ «легче читать», но HTML может превратить ответы ИИ в «документы, которые можно просматривать, которыми можно управлять и которые можно визуально понимать».
Это и есть ключевая причина, почему Шихипар ранее утверждал, что HTML лучше Markdown: HTML способен нести SVG-графики, кодирование цветов, стили CSS, блоки с предупреждениями, внутристрановые якоря, интерактивные компоненты и даже таблицы для параллельного сравнения. Для сценариев вроде технической документации, анализа уязвимостей, визуализации данных, обучающих объяснений и т.д. HTML может преобразовать текстовую информацию, которую читателю нужно было бы долго переваривать, в визуальные документы, где с первого взгляда видны уровни, риски и взаимосвязи.
Карпаты: люди предпочитают голосовой ввод, но больше предпочитают AI визуальный вывод
Новая позиция Карпаты — это не только про HTML, а про будущее ИИ-интерфейсов.
Он отметил, что со стороны ввода люди, вероятно, предпочитают голос и взаимодействие с ИИ, потому что говорить — естественно и это способ с низкой стоимостью выражения. Но со стороны вывода люди, по сути, предпочитают визуальную информацию: включая изображения, анимации и видео.
Его аргумент в том, что примерно треть человеческого мозга занята обработкой визуальной информации. Поэтому по мере того, как способности ИИ будут расти, ИИ не должен просто упаковывать ответы в текст — ему следует шаг за шагом двигаться к более плотному и более интуитивному визуальному выводу.
Это делает важность HTML более очевидной. HTML — не конечная точка, а, вероятно, переходный этап, когда ИИ переходит от текстового вывода к визуализации. HTML лучше Markdown передает изображения, разметку и интерактивность, но при этом он стабильнее и контролируемее, чем полностью генерируемые нейросетями видео или симуляции.
Далее Карпаты предположил, что хотя соответствующей технологии пока нет, в долгосрочной перспективе конечной точкой вывода ИИ может стать интерактивное видео или симуляционный контент, который напрямую генерируется диффузионными моделями.
То есть в будущем ИИ может быть не просто «ответом текстом», не просто «помощью с HTML-документом», а прямым созданием визуальных сцен, которые можно интерактивно изучать, просматривать и в реальном времени менять. Пользователи смогут в них взаимодействовать, наблюдать изменения и понимать причинно-следственные связи — словно объединение обучающего видео, интерактивных симуляций и интерфейса мгновенной генерации.
Но Карпаты также признает, что здесь всё еще остается много открытых вопросов. Особенно — как соединить «Software 1.0» продукты из классической разработки ПО, которые точны, проверяемы и поддаются программируемой логике (например, интерактивные симуляции, компоненты для фронтенда, математические модели), с нейросетевыми изображениями, анимациями или видео, генерируемыми диффузионными моделями — и при этом до сих пор нет зрелого ответа.
Эта статья Карпаты: ИИ не должен останавливаться на Markdown! HTML — будущее, финал — интерактивные сцены, которые можно исследовать впервые появилась в Цепная новость ABMedia.
Related News
Anthropic: Киберпреступники с текстами научной фантастики для обучения Claude Opus 4, ставка выкупа 96%
OpenAI запустила программу кибербезопасности Daybreak; трёхуровневая архитектура GPT-5.5 против Anthropic Mythos
Акшай разбирает 6-уровневую архитектуру Claude Code: модель — всего лишь один узел в цикле
Джим Крамер: Сектор акций компаний, связанных с ИИ-ЦОД, «пока ещё не слишком поздно», список охватывает 4 категории — от чипов до электроэнергии
Режим кода от Anthropic: спор вокруг MCP vs CLI — инструменты удерживают runtime, а токены сжали с 150 тыс. до 2 тыс.