Andrej Karpathy a récemment répondu sur la plateforme X aux points de vue du développeur ingénieur de l’équipe de Claude Code d’Anthropic, Thariq Shihipar, en soulignant qu’au moment de poser une question à un grand modèle de langage, il suffit d’ajouter une phrase à la toute fin du prompt : « 请将回答以 HTML 结构呈现 », puis de placer le fichier généré dans un navigateur pour le consulter, et que l’effet est souvent très bon. Il a même indiqué qu’il avait lui aussi essayé de demander au LLM de présenter la réponse sous forme de diapositives, avec là encore de bons résultats.
(Ingénieur d’Anthropic : HTML est le meilleur format de sortie pour Claude Code, pas Markdown)
Du texte brut à HTML : la sortie de l’IA passe de « lisible » à « visualisable »
Cette prise de parole prolonge, ces derniers jours, les discussions au sein de la communauté des développeurs d’IA sur la question de savoir si « HTML est plus adapté que Markdown comme format de sortie pour l’IA ». Shihipar avait auparavant défendu dans son article « Using Claude Code: The Unreasonable Effectiveness of HTML » que pour des agents de codage IA comme Claude Code, HTML n’est pas seulement un format de mise en page, mais une interface de sortie qui permet aux réponses de l’IA de passer du texte linéaire à des documents interactifs.
Karpathy a ensuite fait monter le débat en le reliant à l’évolution des interfaces d’entrée et de sortie entre humains et IA. Karpathy estime que, pour l’instant, la plupart des sorties par défaut des LLM restent au stade Markdown. Par rapport au texte original, Markdown a déjà amélioré l’expérience de lecture grâce à des titres, le gras, l’italique, des tableaux, etc. Mais dans l’essentiel, Markdown reste une présentation linéaire centrée sur le texte.
Dans sa classification, les formats de sortie de l’IA peuvent globalement être vus comme une trajectoire d’évolution : la première étape est le texte brut, avec le coût de lecture le plus élevé ; la deuxième étape est Markdown, soit le format par défaut de la majorité des produits d’IA actuels ; la troisième étape est HTML. Même si HTML reste un produit programmatique, dont la couche de base nécessite des balises et une structure, il offre davantage de flexibilité pour les graphiques, la mise en page et les styles, voire peut intégrer des éléments interactifs.
Markdown permet à la réponse de l’IA d’être « plus facile à lire », tandis que HTML pourrait permettre de transformer la réponse de l’IA en un document « consultable, actionnable, compréhensible visuellement ».
C’est aussi la raison centrale pour laquelle Shihipar affirmait précédemment que HTML surpassait Markdown : HTML peut supporter des graphiques SVG, un encodage par couleurs, des styles CSS, des blocs d’alerte, des ancres dans la page, des composants interactifs et des tableaux de comparaison côte à côte. Pour des cas comme la documentation technique, l’analyse de vulnérabilités, la visualisation de données, ou l’explication pédagogique, HTML transforme des informations textuelles que les lecteurs devaient auparavant digérer progressivement en un document visuel où l’on repère d’un coup d’œil les niveaux, les risques et les relations.
Karpathy : les humains préfèrent saisir via la voix, mais préfèrent davantage pour l’IA une sortie visuelle
Le point de vue de Karpathy ne porte pas seulement sur HTML : il s’agit aussi de l’avenir des interfaces d’IA.
Il indique que, côté entrée, les humains pourraient préférer davantage l’interaction par la voix et avec l’IA, car parler est une manière d’exprimer naturelle et à faible coût. Mais côté sortie, ce que les humains préfèrent, ce sont en réalité les informations visuelles, notamment les images, les animations et les vidéos.
Son raisonnement est que le cerveau humain consacre environ un tiers de ses ressources au traitement des informations visuelles. Ainsi, à mesure que les capacités de l’IA progressent, l’IA ne devrait pas seulement emballer les réponses dans du texte, mais évoluer progressivement vers une sortie visuelle plus dense et plus intuitive.
Cela rend l’importance de HTML plus nette. HTML n’est pas une destination finale, mais pourrait être une étape transitoire pendant laquelle l’IA passe de la sortie textuelle à la visualisation. Il exprime mieux que Markdown les images, la mise en page et l’interactivité, tout en restant plus stable et contrôlable que des vidéos ou des simulations générées entièrement par des réseaux neuronaux.
Karpathy avance ensuite une hypothèse : même si la technologie associée n’existe pas encore, à long terme, l’aboutissement de la sortie de l’IA pourrait être une sorte de vidéo interactive ou de contenu de simulation directement généré par des modèles de diffusion.
Autrement dit, à l’avenir, l’IA pourrait ne pas se limiter à « vous répondre avec un texte », ni à « vous produire un document HTML », mais générer directement des scènes visuelles interactives, explorables et capables d’évoluer dynamiquement. Les utilisateurs pourraient y interagir, regarder les changements et comprendre les relations de causalité, comme si l’on combinait des vidéos pédagogiques, des simulations interactives et des interfaces de génération en temps réel.
Cependant, Karpathy reconnaît aussi qu’il reste encore de nombreuses questions ouvertes. Notamment, comment combiner des produits « Software 1.0 » issus de l’ingénierie logicielle traditionnelle — précis, vérifiables et programmables — tels que les simulations interactives, les composants front-end ou les modèles mathématiques, avec des images de réseaux neuronaux, des animations ou des vidéos générées par des modèles de diffusion, tout en trouvant encore des réponses matures.
L’article Karpathy : « l’IA ne doit pas s’arrêter à Markdown ! HTML est l’avenir, le point final est une scène interactive explorables » est apparu pour la première fois sur Chaîne News ABMedia.