Leanstral : guide complet du premier agent open source pour les preuves formelles en Lean 4

Mistral AI vient de publier Leanstral, un agent IA open source dédié à Lean 4, le langage de preuve formelle utilisé par les mathématiciens, les chercheurs et un nombre croissant de développeurs en vérification logicielle. Publié le 16 mars 2026 sous licence Apache 2.0, Leanstral est le premier modèle spécifiquement entraîné pour l'ingénierie de preuves dans des dépôts de code réels.

Pour les développeurs et les agences techniques, cette sortie ouvre des perspectives concrètes : intégrer la vérification formelle dans des workflows clients, proposer des audits de smart contracts à coût réduit, ou contribuer à des projets de recherche formalisée. Ce guide détaille l'architecture, le déploiement et les cas d'intégration de Leanstral.

Pourquoi Leanstral intéresse les développeurs et les agences techniques

La vérification formelle sort du monde académique

Jusqu'à récemment, la vérification formelle restait cantonnée aux laboratoires de recherche et à quelques secteurs ultra-régulés (aéronautique, défense). La raison : écrire des preuves en Lean 4 ou en Rocq (ex-Coq) exige une expertise rare et un temps considérable.

Leanstral change l'équation. En automatisant une partie de l'ingénierie de preuves, il rend cette technologie accessible à des équipes qui n'avaient ni le budget ni les compétences internes pour s'y frotter.

Ce que Lean 4 permet de vérifier

Lean 4 n'est pas qu'un outil de mathématiciens. C'est un langage de programmation fonctionnel à part entière, capable d'exprimer et de vérifier :

  • Des propriétés de programmes (correction d'algorithmes, absence de bugs spécifiques)

  • Des politiques de sécurité (Amazon utilise Lean pour vérifier Cedar, son moteur de politiques d'accès)

  • Des preuves mathématiques complexes (espaces perfectoïdes, formes automorphes, théorème de Fermat)

  • Des contrats logiciels formels (spécifications que le code doit satisfaire)

La communauté Lean compte plus de 10 000 membres sur Zulip, le dépôt GitHub dépasse 7 500 étoiles, et plus de 50 cours universitaires intègrent désormais Lean dans leur programme.

Architecture technique de Leanstral : ce que les développeurs doivent savoir

Mixture-of-Experts : 119 milliards de paramètres, 6,5 milliards actifs

Leanstral repose sur une architecture Sparse Mixture-of-Experts (MoE) construite sur la famille Mistral Small 4.

Spécification

Détail

Identifiant du modèle

Leanstral-120B-A6B-2603

Paramètres totaux

~119B (128 experts)

Paramètres actifs par token

~6,5B (4 experts activés par token)

Architecture

Sparse MoE

Fenêtre de contexte

256K tokens

Entrées

Texte et images

Licence

Apache 2.0

Endpoint API

labs-leanstral-2603

Le routage MoE active 4 experts sur 128 pour chaque token, ce qui donne un ratio d'efficacité d'environ 18x entre la capacité totale du modèle et son coût d'inférence réel. En termes de déploiement, cela signifie que Leanstral peut tourner sur 4 GPU A100 80 Go, là où un modèle dense de taille équivalente nécessiterait une infrastructure bien plus lourde.

Intégration MCP avec le Language Server de Lean

Le point technique le plus important pour les développeurs : Leanstral a été entraîné avec des capacités de tool-calling via le protocole MCP (Model Context Protocol), spécifiquement pour lean-lsp-mcp, le serveur MCP du Language Server Protocol de Lean.

En pratique, cela signifie que l'agent ne se contente pas de générer du texte qui ressemble à du Lean. Il interagit en boucle avec le compilateur :

  1. Il soumet une tentative de preuve

  2. Le compilateur Lean vérifie et renvoie les erreurs

  3. L'agent analyse les erreurs et ajuste

  4. Le cycle recommence jusqu'à ce que la preuve compile

Cette boucle de rétroaction avec un vérificateur binaire (ça compile ou ça ne compile pas) est fondamentalement différente de la génération de code classique où le modèle produit une sortie sans retour automatique.

L'agent supporte également des MCP arbitraires via Mistral Vibe, ce qui le rend extensible à d'autres outils de développement.

Benchmarks FLTEval : performances et coûts comparés

FLTEval : un benchmark sur des dépôts réels, pas des exercices de compétition

Mistral AI a créé FLTEval en parallèle de Leanstral. Ce benchmark évalue la capacité à compléter des preuves formelles dans le projet FLT (formalisation du dernier théorème de Fermat), un vrai projet de recherche hébergé sur GitHub avec 55 contributeurs, 663 étoiles et un financement EPSRC.

La différence avec MiniF2F (le benchmark habituellement utilisé) : FLTEval mesure l'ingénierie de preuves dans un dépôt réel, avec imports, dépendances et structures multi-fichiers. C'est le type de travail qu'un développeur ou un chercheur rencontre au quotidien.

Stratégie d'inférence parallèle (pass@N)

Leanstral exploite le fait que Lean est un vérificateur binaire pour lancer plusieurs tentatives de preuve en parallèle. Le score pass@N indique la probabilité qu'au moins une des N tentatives produise une preuve valide. Cette stratégie est particulièrement adaptée aux architectures de déploiement distribuées.

Tableau comparatif : Leanstral vs Claude vs open source

Modèle

Paramètres actifs

Coût par run ($)

Score FLTEval

Leanstral pass@1

6,5B

18

21,9

Leanstral pass@2

6,5B

36

26,3

Leanstral pass@4

6,5B

72

29,3

Leanstral pass@8

6,5B

145

31,0

Leanstral pass@16

6,5B

290

31,9

Claude Haiku 4.5

N/A (propriétaire)

184

23,0

Claude Sonnet 4.6

N/A (propriétaire)

549

23,7

Claude Opus 4.6

N/A (propriétaire)

1 650

39,6

Qwen3.5-397B-A17B

17B

N/A

25,4 (pass@4)

Kimi-K2.5-1T-A32B

32B

N/A

~20,1

GLM5-744B-A40B

40B

N/A

~16,6

Points clés pour les développeurs :

  • Leanstral pass@2 à 36 $ surpasse Sonnet (549 $) et Haiku (184 $). Le rapport coût-performance est sans équivalent dans l'écosystème.

  • Avec 6,5B de paramètres actifs, Leanstral dépasse GLM5 (40B actifs), Kimi-K2.5 (32B actifs) et Qwen3.5 (17B actifs, pass@4).

  • Claude Opus reste devant en qualité brute (39,6 vs 31,9), mais à un coût 46x supérieur.

Tableau des coûts : auto-hébergement vs API

Mode de déploiement

Coût

Avantage

API labs-leanstral-2603

Gratuit (période limitée)

Démarrage immédiat, aucune infrastructure

Mistral Vibe (/leanstall)

Gratuit (utilise l'API)

Configuration automatique

Auto-hébergement (4x A100/H100)

Coût matériel uniquement

Contrôle total, pas de dépendance API

Claude Sonnet 4.6 (API)

~549 $ par run FLTEval

Pas d'auto-hébergement possible

Claude Opus 4.6 (API)

~1 650 $ par run FLTEval

Meilleure qualité, coût maximal

Comment déployer Leanstral : trois scénarios pour les développeurs

Scénario 1 : test rapide avec Mistral Vibe

Mistral Vibe est le CLI open source de Mistral AI pour orchestrer des agents. La version 2.5.0 (16 mars 2026) ajoute la commande /leanstall qui configure automatiquement Leanstral avec le serveur MCP Lean.

C'est le chemin le plus rapide pour évaluer le modèle sur vos propres preuves. Aucune infrastructure requise : Vibe utilise l'API Mistral en backend.

Scénario 2 : intégration via l'API labs

Le point d'accès labs-leanstral-2603 est disponible gratuitement pour une durée limitée. Pour les agences qui souhaitent intégrer la vérification formelle dans un pipeline CI/CD ou un outil interne, c'est le moyen le plus simple de prototyper.

Le modèle supporte le tool-calling MCP, ce qui permet de l'intégrer dans des workflows agentiques existants.

Scénario 3 : auto-hébergement avec vLLM

Les poids sont disponibles sur Hugging Face (mistralai/Leanstral-120B-A6B-2603) sous licence Apache 2.0. Configuration recommandée :

  • 4 GPU A100 80 Go ou H100

  • vLLM avec --tensor-parallel-size 4

  • Backend Flash Attention MLA

L'auto-hébergement est pertinent pour les agences travaillant sur des projets sensibles (propriété intellectuelle, données confidentielles) ou pour garantir la disponibilité sans dépendre d'un service tiers.

Note : au moment du lancement, la page Hugging Face présentait une erreur 404 temporaire. Les poids devraient être pleinement accessibles sous peu.

Cas d'intégration concrets pour les agences et développeurs

Audits de smart contracts à coût réduit

Le marché de l'audit de smart contracts repose largement sur la vérification formelle. Avec Leanstral, une agence peut proposer des audits formels à une fraction du coût actuel. Une preuve de correction via Leanstral pass@2 coûte 36 $ contre 549 $ avec Sonnet ou 1 650 $ avec Opus. Cette réduction de coût peut transformer la rentabilité d'une offre d'audit blockchain.

Pipeline de vérification continue pour logiciels critiques

Pour les équipes qui développent des logiciels critiques (medtech, fintech, infrastructure), Leanstral peut s'intégrer dans un pipeline de vérification continue. Le workflow type :

  1. Le développeur écrit la spécification en Lean 4

  2. Leanstral génère les preuves de conformité

  3. Le compilateur Lean vérifie la validité

  4. En cas d'échec, l'agent ajuste automatiquement

  5. La preuve validée est versionnée avec le code

Migration de bases de preuves Rocq vers Lean 4

Mistral AI a démontré la capacité de Leanstral à traduire des preuves de Rocq (anciennement Coq) vers Lean 4, en préservant la sémantique et les notations personnalisées. Pour les agences qui accompagnent des clients académiques ou industriels dans une migration d'écosystème, c'est un cas d'usage à forte valeur ajoutée.

Accélération de la recherche formalisée

Les projets comme Mathlib (plus de 20 000 contributions) et FLT (formalisation du théorème de Fermat) génèrent un volume considérable de preuves routinières. Leanstral peut automatiser cette partie du travail, permettant aux chercheurs de se concentrer sur les preuves créatives et les nouvelles définitions mathématiques.

Vérification du code produit par d'autres agents IA

Le cas d'usage le plus prometteur à moyen terme : utiliser Leanstral comme couche de vérification au-dessus d'autres agents de génération de code. L'agent de code produit l'implémentation, Leanstral génère et vérifie la preuve de conformité. C'est le concept de « trustworthy vibe coding » que Mistral AI met en avant.

Limites techniques et points de vigilance

Lean 4 uniquement

Leanstral ne supporte que Lean 4. Il ne génère pas de preuves pour Rocq, Isabelle, Agda ou tout autre assistant de preuve. Si votre projet utilise un autre langage formel, Leanstral n'est pas adapté.

Opus reste le meilleur en qualité absolue

Claude Opus 4.6 obtient 39,6 sur FLTEval contre 31,9 pour Leanstral pass@16. L'écart est de 24 %. Pour les projets où chaque point de score compte (proofs de sécurité critiques, publications académiques de haut niveau), Opus peut justifier son coût supérieur. La communauté Hacker News a soulevé cette question : un modèle spécialiste devrait-il battre un modèle généraliste sur sa propre spécialité ?

Courbe de rendement décroissant au-delà de pass@8

Le gain de performance entre pass@8 (31,0) et pass@16 (31,9) n'est que de 0,9 point pour un doublement du coût. Au-delà d'un certain nombre de tentatives parallèles, l'investissement marginal devient moins rentable. Les développeurs devront calibrer le nombre de passes en fonction de leur budget et de leurs exigences de qualité.

Exigences matérielles pour l'auto-hébergement

L'auto-hébergement nécessite 4 GPU haut de gamme (A100 ou H100). C'est un investissement significatif, même pour une agence bien équipée. Pour la plupart des cas d'usage, l'API gratuite ou Mistral Vibe seront plus pragmatiques en phase de découverte.

Disponibilité des poids au lancement

La page Hugging Face présentait une erreur 404 au moment du lancement. Bien que probablement temporaire, cela a été relevé par la communauté comme un point de friction pour l'adoption immédiate.

Leanstral dans l'écosystème : positionnement et perspectives

Leanstral occupe une position unique : c'est le seul modèle qui combine entraînement spécifique pour les preuves en Lean 4, licence open source (Apache 2.0) et coût d'inférence compétitif. Cette combinaison n'existait pas avant le 16 mars 2026.

Pour les agences et développeurs, l'opportunité se situe à deux niveaux :

  1. À court terme : tester Leanstral sur des projets existants, évaluer son intégration dans des pipelines de vérification, et proposer de nouvelles offres de service autour de la vérification formelle.

  1. À moyen terme : la vérification formelle pourrait devenir un standard dans le développement logiciel critique, à mesure que des outils comme Leanstral en réduisent le coût et la complexité. Les équipes qui maîtrisent cette technologie aujourd'hui seront bien positionnées demain.

Mistral AI a choisi de rendre Leanstral gratuit et open source pour accélérer l'adoption et collecter des retours. Pour les développeurs, c'est le moment d'expérimenter.

Envie d’automatiser ?

Audit gratuit de 30 min. On identifie vos 3 quick wins IA.

Réserver un audit gratuit →
Partager