アンドレイ・カーパシーは近日、X プラットフォーム上で、Anthropic Claude Code チームエンジニアの Thariq Shihipar の見解に応じ、大規模言語モデルに質問する際には、プロンプトの最後に「回答を HTML の構造で提示してください」という一文を加え、その生成したファイルをブラウザで表示するだけで、効果は往々にして非常に良いと指摘した。彼はさらに、自分も LLM に回答をスライド形式にするよう求めたことがあり、同様に良い結果が得られたとも述べている。
(Anthropic エンジニア:HTML こそが Claude Code の最適な出力形式であり、Markdown ではない)
純テキストから HTML へ:AI 出力が「読める」から「可視化できる」へ向かっている
この記事の発言は、近日の AI 開発者コミュニティによる「HTML は Markdown よりも AI の出力フォーマットとして適しているのか」という議論を受け継いでいる。Shihipar は以前、記事〈Using Claude Code: The Unreasonable Effectiveness of HTML〉の中で、Claude Code のような AI coding agent にとって、HTML は単なるレイアウトの形式ではなく、AI の回答を線形の文章から対話的なドキュメントの出力インターフェースへと格上げできるものだと主張していた。
カーパシーはさらに、このテーマを人間と AI の入力・出力インターフェースの進化まで引き上げた。カーパシーによれば、現在ほとんどの LLM のデフォルト出力は依然として Markdown 段階にとどまっている。元の文章と比べると、Markdown は見出し、太字、斜体、表などによって読みやすさを改善しているが、本質的には文字を中心とした線形の提示のままだ。
彼の分類では、AI の出力フォーマットは概ね次の進化の道筋と捉えられる。第一段階は生のテキストで、読み取りコストが最も高い。第二段階は Markdown で、つまり現在の多くの AI 製品のデフォルト形式。第三段階が HTML だ。HTML はまだプログラム的な生成物ではあるものの、基盤にはタグと構造が必要だ。それでも、より柔軟に図形、レイアウト、スタイルを提供でき、さらにはインタラクティブな要素も追加できる。
Markdown は AI の回答を「より読みやすく」するが、HTML は AI の回答を「閲覧でき、操作でき、視覚的に理解できる」ドキュメントへと変える可能性がある。
これが、Shihipar が以前主張していた「HTML が Markdown に勝る」ことの核心的な理由でもある。HTML には SVG の図表、色分けのエンコーディング、CSS のスタイル、警告用のブロック、ページ内アンカー、インタラクティブなコンポーネント、並列比較表などを載せられる。技術ドキュメント、脆弱性分析、データの可視化、教育的な説明といった場面では、HTML は読者が時間をかけて消化する必要のあった文章情報を、ひと目で階層、リスク、関係性を把握できる視覚的なドキュメントへと変換できる。
カーパシー:人間は音声入力を好むが、AI は視覚出力を好む
カーパシーの新しい見解は HTML の話にとどまらず、AI インターフェースの未来についての話だ。
彼は、入力側を見ると人間は音声と AI のやりとりをより好むかもしれないと指摘する。話すことは自然で、表現コストが低いからだ。一方、出力側を見ると、人間が実際により好むのは視覚情報、つまり画像、アニメーション、動画だ。
その理由は、人間の大脳には視覚情報を処理するための領域がおよそ三分の一あるからだ。したがって、AI の能力が高まるほど、AI は答えをただ文字として包むのではなく、より高密度でより直感的な視覚出力へと段階的に進むべきだ。
これにより、HTML の重要性がより明確になる。HTML は終点ではなく、AI が文字出力から可視化出力へ移行するための過渡段階になり得る。Markdown よりも画像、レイアウト、インタラクションを表現しやすい一方で、神経網(ニューラルネット)だけで生成された動画やシミュレーションの完全生成物ほど不安定ではなく、より安定していて制御しやすい。
カーパシーはさらに推測する。関連技術は今のところまだ存在しないものの、長期的には、AI 出力の到達点は拡散モデルが直接生成する何らかのインタラクティブな動画やシミュレーションの形になる可能性がある。
つまり、将来の AI は「あなたに一段の文章を返す」だけでも、「HTML の文書を作る」だけでもなく、可互換で、探索でき、動的に変化する視覚シーンを直接生成するのだ。ユーザーはその中で操作し、変化を見て、因果関係を理解できる。まるで教育用の動画、インタラクティブなシミュレーション、リアルタイム生成のインターフェースを組み合わせたように。
ただし、カーパシーもここにはまだ多くの未解決の問題があることを認めている。とりわけ、従来のソフトウェア工学での、精確で検証可能で手続き化できる「Software 1.0」の成果物、例えばインタラクティブなシミュレーション、フロントエンドのコンポーネント、数学モデルなどを、拡散モデルが生成するニューラルネットの画像、アニメーション、あるいは動画と結びつける方法については、まだ成熟した答えがない。
この記事 Karpathy:AI は Markdown で止まるべきではない!HTML が未来で、終局は探索可能なインタラクティブなシーン この記事は最初に 鏈新聞 ABMedia に掲載された。
Related News
Anthropic:SFテキスト訓練でClaude Opus 4の勒索率は96%です
OpenAIは、資本が安い計画Daybreakを発表し、GPT-5.5の三層構造でAnthropicのMythosに対抗します
アクシャイ Claude Code 6層アーキテクチャ解析:モデルは単なるループ内の1つのノードにすぎない
ジム・クレイマー:AIの「資料中心」セクター群「まだ遅すぎるわけではない」、リストは半導体から電力までの4大カテゴリーを網羅
Anthropic コードモード 解:MCP と CLI の争い—ツールが Runtime に常駐し、トークンを 150K から 2K へ圧縮