2026-03-04 21:10:05

La semaine dernière, j'ai ajouté Mira à un pipeline qui fonctionnait déjà.

Rien de spécial. Il extrait des clauses de contrats et les envoie à un classificateur en aval. La précision du modèle était correcte. La latence aussi. Personne ne se plaignait des performances.

Le problème n’était pas le modèle.

Le problème était l’approbation.

Chaque clause extraite devait encore être revue par un humain avant de pouvoir avancer. Pas parce que le modèle était mauvais. Parce que la conformité ne se soucie pas des scores de confiance. Ils veulent des preuves. La politique dit littéralement « validé par un humain ». Cette ligne ne change pas simplement parce que les benchmarks s’améliorent.

Alors, au lieu de débattre encore de la précision du modèle, j’ai essayé quelque chose de différent.

J’ai installé le SDK Mira.
Je l’ai pointé vers le point de terminaison. Ajouté la clé. Lancé le premier appel.

La réponse semblait normale. Si vous ne regardiez que la sortie, vous ne penseriez pas que quelque chose avait changé.

La différence apparaissait dans les logs.

Première clause : choses simples. Référence à une date. Loi applicable. Langage standard. Les validateurs l’ont détectée presque immédiatement. Le quorum s’est formé rapidement. La mise en jeu a été engagée. Le certificat émis. La somme de contrôle ancrée.

C’est fini.

La deuxième clause semblait similaire à première vue. Même ensemble de contrats. Mais celle-ci comportait une clause d’indemnisation avec un libellé conditionnel. Le genre de langage qui change de sens selon la façon dont on le lit. Ou selon la juridiction à laquelle on pense.

Celui-ci n’a pas été validé aussi vite.

On pouvait en fait voir les validateurs formant des opinions. Des modèles différents. Des sessions d’entraînement différentes. Chacun évaluant la même réclamation de manière indépendante.

Certains penchaient d’un côté. D’autres de l’autre.

Le poids du quorum a augmenté.
Pause.
Il a augmenté à nouveau.

Finalement, il a franchi le seuil. Le certificat a été imprimé. La vérification a été validée.

Mais quelque chose d’autre ressortait : le poids du dissentiment.

Même si la réclamation était validée, le désaccord était plus élevé que pour la première clause. Ce chiffre est resté visible.

Dans l’ancien système, tout cela n’existait pas. Le modèle renvoyait une réponse avec confiance. Tout semblait aussi certain. On ne savait jamais que plusieurs interprétations raisonnables étaient possibles.

Ici, la réclamation est toujours validée. Mais on peut voir à quel point l’accord était en réalité clair.

J’ai testé plus de clauses.

Même schéma à chaque fois.

Les affirmations factuelles claires avancent rapidement. Le consensus se forme vite. Faible dissentiment. Facile.

Les affirmations interprétatives prennent plus de temps. La confiance fluctue avant de se stabiliser. Parfois, le dissentiment reste élevé même après l’émission du certificat.

Ce sont devenues des situations intéressantes.

Personne ne demandait ce signal. L’objectif initial était simple : remplacer « validé par un humain » par quelque chose de cryptographique.

Mais une fois que le poids du dissentiment est apparu dans les logs, le flux de travail a changé tout seul.

Les réviseurs ont commencé par ouvrir en priorité les clauses à fort dissentiment. Pas parce que la vérification a échoué. Parce que le système montrait où il y avait une vraie incertitude.

Les clauses avec un consensus clair ont cessé d’être automatiquement revues.

La file d’attente de révision a diminué.

Pas parce que le modèle est devenu plus intelligent. Parce que l’incertitude n’était plus cachée.

L’ancien pipeline aplatisse tout. Chaque sortie semblait aussi sûre que les autres. Les humains traitaient tout comme si cela pouvait être risqué.

Maintenant, il y a un gradient.

Certaines clauses sont clairement solides. D’autres clairement pas. Et d’autres encore dans la zone grise.

Cette zone grise était invisible avant.

Mira ne prétend pas que le désaccord n’existe pas. Elle l’enregistre. Le certificat ne dit pas simplement « oui ». Il montre à quel point le réseau était d’accord.

Et il s’avère que c’est ce dont la conformité avait réellement besoin.

Pas un point de pourcentage supplémentaire de précision.

Pas un modèle plus sophistiqué.

Juste un moyen de voir où le modèle pourrait se tromper.

Une fois que vous pouvez voir cela, vous ne revoyez plus tout de la même façon.

MIRA3,02%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime