L'OCR que les LLM ne remplaceront pas

Il y a un discours répandu dans l'écosystème IA qui dit que les LLM multimodaux (GPT-4o, Gemini, Claude) rendent l'OCR traditionnel obsolète. Envoyez une image de document à GPT-4o, il en extrait le texte. Problème résolu. Ce discours est faux pour une raison simple : les LLM génériques ne comprennent pas le layout.

Quand vous envoyez un tableau financier complexe avec des cellules fusionnées à un LLM multimodal, il extrait le texte mais perd la structure. Les colonnes se mélangent, les fusions de cellules disparaissent, les hiérarchies de rubriques s'aplatissent. Pour un document simple avec du texte linéaire, ça fonctionne. Pour un rapport annuel, un formulaire administratif ou une publication scientifique avec des équations, c'est inutilisable.

Chandra OCR, développé par Datalab, une startup de Brooklyn fondée en 2024 par Vik Paruchuri et Sandy Kwon, est le premier modèle à résoudre ce problème de manière convaincante en open source. Avec 85,9 % sur le benchmark olmOCR (le nouveau standard de facto), Chandra 2 surpasse toutes les alternatives, y compris dots.ocr (83,9 %), olmOCR 2 (78,5 %) et DeepSeek OCR (75,4 %). Et c'est sur les tableaux (89,9 %), les mathématiques (89,3 %) et les en-têtes/pieds de page (92,5 %) que les écarts sont les plus marqués.

L'architecture technique : le full-page decoding change tout

Ce qui distingue Chandra des OCR traditionnels est son approche de décodage de page complète avec conscience du layout. Les OCR classiques, y compris les précédents outils de Datalab (Marker et Surya), suivent une approche pipeline : segmenter le document en blocs, identifier chaque type de bloc, puis traiter chaque bloc séparément. Cette approche perd les relations spatiales entre les éléments.

Chandra utilise un modèle vision-language (basé sur les contributions de Qwen3 VL) qui traite la page entière en une seule passe. Il identifie simultanément les types de contenu (texte, tableaux, images, formules, cases à cocher), extrait et légende les images, préserve les structures de tableaux (y compris les colspan et rowspan), reconstruit les formulaires et gère l'écriture manuscrite et les équations mathématiques (sorties en LaTeX).

Le modèle Chandra 2 compte 4 milliards de paramètres et supporte plus de 90 langues. Il produit des sorties structurées en Markdown, HTML ou JSON avec des coordonnées de bounding boxes, ce qui permet une exploitation programmatique complète.

En termes de performance d'inférence, Chandra traite 4 pages par seconde sur un GPU H100, soit environ 345 000 pages par jour. Avec vLLM et 96 requêtes concurrentes, le débit descend à 1,44 pages par seconde, ce qui reste suffisant pour la plupart des cas d'usage batch.

Métrique

Chandra 2

dots.ocr

olmOCR 2

DeepSeek OCR

Gemini 2.5 Flash

Score global olmOCR

85,9 %

83,9 %

78,5 %

75,4 %

67,6 %

Tableaux

89,9 %

N/A

N/A

N/A

N/A

Mathématiques

89,3 %

N/A

N/A

N/A

N/A

En-têtes/pieds

92,5 %

N/A

N/A

N/A

N/A

Multilingue (43 langues)

77,8 %

N/A

N/A

N/A

67,6 %

Pourquoi le layout redevient un sujet brûlant

Le timing de Chandra n'est pas un hasard. Trois tendances convergent pour remettre la compréhension du layout au centre de l'attention.

La première tendance est l'explosion du RAG sur documents d'entreprise. Les systèmes RAG qui indexent des documents PDF (rapports financiers, contrats juridiques, documentation technique) ont besoin d'une extraction structurée de haute qualité. Un RAG qui ingère un tableau comme du texte brut perd l'information structurelle qui est souvent l'information la plus importante.

La deuxième tendance est la montée des agents IA qui traitent des documents. Les agents autonomes qui traitent des factures, des formulaires administratifs ou des dossiers médicaux nécessitent une compréhension du layout pour extraire les bonnes informations des bons champs. L'OCR de texte brut ne suffit pas.

La troisième tendance est la demande croissante de traitement de documents historiques et manuscrits. La numérisation des archives, la transcription de notes manuscrites et le traitement de documents anciens sont des marchés en expansion qui nécessitent un OCR capable de gérer des layouts complexes et de l'écriture manuscrite.

L'installation et l'utilisation pratique

L'un des atouts de Chandra est sa simplicité d'installation. La commande pip install chandra-ocr suivie de chandra input.pdf output/ suffit pour démarrer. L'API Python via InferenceManager permet une intégration plus fine dans des pipelines existants.

Pour les déploiements à plus grande échelle, le serveur vLLM permet un débit plus élevé. Les versions quantifiées (8B et 2B paramètres) sont disponibles commercialement pour les organisations qui ont besoin de performances sur du matériel plus modeste.

Le modèle est disponible sur Hugging Face sous l'identifiant datalab-to/chandra. Le code est sous licence Apache 2.0, et les poids du modèle sont sous une licence OpenRAIL-M modifiée qui est gratuite pour les startups sous 2 millions de dollars de revenu annuel. Au-delà, une licence commerciale est nécessaire.

Datalab propose aussi un playground hébergé gratuit sur datalab.to et des API hébergées pour les organisations qui préfèrent ne pas gérer l'infrastructure. La communauté est active sur Discord.

Applications concrètes pour les agences

Pour les agences comme Bridgers, Chandra OCR ouvre des possibilités dans plusieurs domaines.

Le premier domaine est l'alimentation des pipelines RAG. Si vous construisez un système RAG pour un client dans la finance, le juridique ou le médical, la qualité de l'extraction documentaire détermine la qualité du système entier. Remplacer un OCR basique par Chandra pour la phase d'ingestion peut améliorer significativement la pertinence des réponses, en particulier sur les documents contenant des tableaux et des données structurées.

Le deuxième domaine est l'automatisation de workflows documentaires. L'extraction de données depuis des factures, des bons de commande, des formulaires administratifs ou des rapports d'audit peut être automatisée avec Chandra. Un cas d'usage rapporté par Purchaser.ai montre des économies de six chiffres sur le traitement de documents d'achat.

Le troisième domaine est la numérisation d'archives. Pour les clients qui ont des archives papier importantes (cabinets juridiques, institutions culturelles, administrations), Chandra offre une qualité d'extraction supérieure sur les documents historiques, manuscrits et multi-colonnes.

Le quatrième domaine est le traitement multilingue. Avec 77,8 % de score moyen sur 43 langues (contre 67,6 % pour Gemini 2.5 Flash), Chandra est particulièrement pertinent pour les clients internationaux qui traitent des documents dans plusieurs langues.

Limites et alternatives à considérer

Chandra n'est pas la solution universelle pour tous les besoins OCR.

Pour les documents simples avec du texte linéaire sans tableaux ni formules, un LLM multimodal comme GPT-4o ou Gemini peut être suffisant et plus facile à intégrer. Le surcoût de Chandra ne se justifie que sur des documents structurés complexes.

La licence OpenRAIL-M modifiée impose des restrictions pour les entreprises de plus de 2 millions de dollars de revenu. Les agences qui déploient Chandra pour des clients de grande taille doivent évaluer le coût de la licence commerciale.

Le besoin d'un GPU H100 ou équivalent pour les performances optimales peut être une contrainte pour les déploiements on-premise. Les versions quantifiées réduisent les besoins matériels mais avec un impact sur la qualité à documenter au cas par cas.

Les alternatives à garder en radar sont olmOCR 2 (open source, 78,5 % sur le benchmark), PaddleOCR (Apache 2.0, fort sur les tableaux), et les API commerciales comme dots.ocr (83,9 %) pour les organisations qui préfèrent un service géré.

Le document structuré comme fondation de l'IA d'entreprise

La capacité à extraire de l'information structurée à partir de documents complexes est une brique fondamentale de l'IA d'entreprise que beaucoup sous-estiment. Les modèles de langage les plus puissants du monde sont inutiles si les données qu'on leur fournit sont mal extraites.

Chandra OCR, avec son approche de décodage full-page et ses performances de pointe sur les tableaux, les formules et les layouts complexes, comble un vide critique dans l'écosystème. Pour les agences qui construisent des solutions IA pour leurs clients, la qualité de la couche OCR détermine souvent le succès ou l'échec du projet entier.

La course au document structuré ne fait que commencer, et Chandra en a fixé le nouveau standard. Les agences qui intègrent cette brique dans leurs architectures aujourd'hui construisent sur des fondations plus solides que celles qui se contentent d'envoyer des images à un LLM et d'espérer le meilleur.

Un point stratégique à retenir pour les décideurs d'agence : la qualité de l'OCR détermine le plafond de performance de tout système IA en aval. Vous pouvez investir dans le meilleur modèle de langage du marché pour votre chatbot, votre assistant de recherche ou votre agent d'analyse. Si les documents qu'il consulte ont été mal extraits, les réponses seront défaillantes. Chandra OCR ne se vend pas comme un produit spectaculaire. C'est une brique d'infrastructure, invisible mais déterminante, qui fait la différence entre un système RAG qui répond correctement aux questions sur des tableaux financiers et un système qui hallucine des chiffres parce que les colonnes ont été mélangées à l'extraction.

Pour les agences qui travaillent avec des clients dans la finance, le juridique ou le médical, la recommandation est claire : évaluez Chandra OCR sur un échantillon représentatif de documents de votre client, comparez les sorties structurées avec celles de votre OCR actuel, et mesurez l'impact sur la qualité des réponses de votre système RAG. Les résultats parleront d'eux-mêmes.

Envie d’automatiser ?

Audit gratuit de 30 min. On identifie vos 3 quick wins IA.

Réserver un audit gratuit →
Partager