Le problème fondamental du RAG que Context-1 vient résoudre

Depuis deux ans, les pipelines RAG (Retrieval-Augmented Generation) fonctionnent sur un compromis que tout le monde accepte sans le questionner. Vous prenez un modèle de langage généraliste, vous lui donnez accès à une base vectorielle, et vous espérez qu'il saura à la fois chercher les bons documents et formuler la bonne réponse. Le problème, c'est qu'un modèle entraîné pour converser n'est pas optimisé pour chercher. Il hallucine ses requêtes de recherche autant qu'il hallucine ses réponses.

Chroma, l'entreprise derrière la base de données vectorielle open source la plus utilisée de l'écosystème, vient de publier Context-1, un modèle de 20 milliards de paramètres sous licence Apache 2.0 qui fait une chose et une seule : être un sous-agent de recherche spécialisé. Il ne répond pas aux questions. Il cherche, vérifie, élimine le bruit, et transmet au modèle de réponse un contexte propre et pertinent.

C'est un changement architectural significatif pour quiconque construit des applications RAG en agence. Voici pourquoi.

Comment Context-1 fonctionne : un agent de recherche dédié

Context-1 n'est pas un modèle de chat. C'est un agent de recherche qui opère en boucle itérative avec des outils spécifiques. Son architecture repose sur un modèle Mixture of Experts (MoE) de 20 milliards de paramètres, basé sur gpt-oss-20b, entraîné par SFT puis par reinforcement learning avec une méthode appelée CISPO sur plus de 8 000 tâches synthétiques multi-hop couvrant le web, la finance et le domaine juridique.

Le fonctionnement concret suit un cycle observe-tool-execute-append-prune. Le modèle dispose de quatre outils : search_corpus (recherche hybride BM25 + dense avec Reciprocal Rank Fusion, passage de 50 résultats à un reranker), grep_corpus (recherche par regex pour les termes exacts), read_document (lecture ciblée d'un document), et prune_chunks (suppression des passages non pertinents pour maintenir un budget de 32 000 tokens).

Ce dernier outil est fondamental. Context-1 ne se contente pas d'accumuler des résultats. Il les évalue et élimine activement les passages qui ne contribuent pas à la réponse, avec une précision de pruning mesurée à 0.94. C'est précisément ce que les pipelines RAG classiques ne font pas : un retriever basique renvoie les N documents les plus proches du vecteur de la requête, point final. Context-1 effectue en moyenne 5,2 tours de recherche avec 2,56 outils appelés en parallèle par tour, ce qui permet une exploration multi-hop que la recherche vectorielle simple ne peut pas reproduire.

Les benchmarks qui changent le calcul économique du RAG

Les chiffres publiés par Chroma méritent une attention particulière, non pas uniquement pour les scores bruts, mais pour ce qu'ils impliquent en termes de rapport performance/coût.

Sur leur benchmark Web (diff2+), Context-1 atteint 0.97, un score comparable aux modèles frontier comme o4-mini et GPT-4.5. Sur les benchmarks Finance et Legal, les scores sont respectivement de 0.82 et 0.95. Sur BrowseComp+ (une évaluation de navigation web complexe), le modèle atteint 0.96, et sur HotpotQA, 0.99.

Benchmark

Context-1 (20B)

Modèles frontier (o4-mini, GPT-4.5)

Ratio coût

Web (diff2+)

0.97

~0.97

1/10e

Finance

0.82

Variable

1/10e

Legal

0.95

Variable

1/10e

BrowseComp+

0.96

Variable

1/10e

HotpotQA

0.99

~0.99

1/10e

Le point décisif est le ratio coût/performance. Chroma annonce que Context-1 est 10 fois moins cher et 10 fois plus rapide que les modèles frontier utilisés comme agents de recherche. En inférence, le modèle tourne sur des GPU B200 via vLLM à 400-500 tokens par seconde. Les gains internes entre le modèle de base et la version entraînée sont significatifs : le score Final Answer Found passe de 0.541 à 0.798, et le F1 de 0.307 à 0.487.

Pour une agence qui facture des projets RAG à ses clients, ces chiffres changent fondamentalement le calcul économique. Jusqu'ici, obtenir une recherche multi-hop de qualité nécessitait d'utiliser GPT-4 ou Claude comme agent de recherche, ce qui consommait la majorité du budget de tokens. Avec Context-1, vous pouvez déléguer la recherche à un modèle spécialisé 10 fois moins cher et réserver le modèle frontier pour la formulation de la réponse.

L'architecture à deux modèles : ce que cela change pour vos projets RAG

La contribution architecturale la plus importante de Context-1 est la séparation formelle entre l'étape de recherche et l'étape de réponse. C'est une idée simple mais aux conséquences profondes pour la conception de systèmes RAG en production.

Dans l'architecture classique, un seul modèle gère tout. Il décompose la question, formule des requêtes de recherche, interprète les résultats, et génère la réponse. Le problème est que chaque étape est sous-optimisée : le modèle utilise ses capacités de raisonnement pour la recherche (sous-exploité) et ses capacités de recherche pour le raisonnement (mal adapté).

Avec Context-1, le pipeline devient :

  1. L'utilisateur pose une question complexe

  2. Context-1 décompose la question en sous-requêtes

  3. Context-1 effectue une recherche itérative multi-hop dans votre base Chroma

  4. Context-1 prune et ordonne les résultats pertinents

  5. Les documents vérifiés sont transmis au modèle de réponse (GPT-4, Claude, etc.)

  6. Le modèle de réponse formule sa réponse sur la base du contexte fourni

Cette séparation a un bénéfice collatéral majeur : elle réduit les hallucinations. Quand le modèle de réponse reçoit un contexte déjà vérifié et purgé du bruit par un agent spécialisé, il a moins de raisons d'inventer des informations. Le contexte rot, ce phénomène où un modèle ignore des passages pertinents noyés dans trop de contexte non pertinent, est directement combattu par le mécanisme de pruning de Context-1.

John Schulman d'OpenAI a salué publiquement le travail de Chroma, qualifiant Context-1 d'agent de recherche avec une efficacité de pointe. Quand le cofondateur du reinforcement learning chez OpenAI valide l'approche, le signal est difficile à ignorer.

Implications concrètes pour les agences qui déploient du RAG

Pour les agences comme Bridgers qui conçoivent et déploient des systèmes RAG pour leurs clients, Context-1 ouvre plusieurs perspectives concrètes.

La première est la réduction des coûts d'inférence. Sur un projet RAG en production qui traite des milliers de requêtes par jour, utiliser un modèle frontier comme agent de recherche coûte cher. Remplacer cette étape par Context-1 à 1/10e du coût peut transformer la rentabilité d'un projet.

La deuxième est l'amélioration de la qualité sur les requêtes complexes. Les questions multi-hop sont le talon d'Achille du RAG classique. Si la réponse nécessite de croiser des informations de plusieurs documents, la recherche vectorielle simple échoue souvent. Context-1, avec ses 5,2 tours de recherche itérative, est conçu précisément pour ces cas.

La troisième est la possibilité de proposer du RAG on-premise. Comme Context-1 est sous licence Apache 2.0 et tourne sur des GPU standard, les agences peuvent proposer à leurs clients des solutions RAG entièrement hébergées en interne, sans dépendance à des API externes pour la couche de recherche. C'est un argument décisif pour les clients dans des secteurs réglementés comme la finance ou le juridique, précisément les domaines où Context-1 excelle selon les benchmarks.

La quatrième est la reproductibilité. Chroma publie non seulement le modèle sur Hugging Face mais aussi le pipeline complet de génération de données d'entraînement sur GitHub. Une agence technique peut reproduire l'entraînement avec ses propres données pour créer un agent de recherche spécialisé sur le domaine de son client.

Limites et points de vigilance avant d'intégrer Context-1

Context-1 n'est pas encore clé en main. Le harness d'exécution (le cadre logiciel qui orchestre la boucle agent-outils) n'est pas encore publié au moment de l'annonce, bien que Chroma annonce sa publication imminente. Sans ce harness, l'intégration en production demande un travail d'ingénierie pour reproduire la boucle observe-tool-execute-append-prune.

Les benchmarks, bien qu'impressionnants, proviennent principalement de Chroma. Des évaluations indépendantes sur des cas d'usage réels seront nécessaires pour confirmer les performances annoncées, en particulier sur des corpus spécialisés qui diffèrent des données d'entraînement (web, finance, juridique).

Le modèle nécessite aussi des GPU substantiels pour l'inférence. Les 400-500 tokens/seconde annoncés le sont sur des GPU B200 de NVIDIA, ce qui n'est pas à la portée de tous les déploiements. La quantization MXFP4 mentionnée pourrait réduire les besoins, mais les performances en quantifié restent à documenter.

Enfin, Context-1 fonctionne avec Chroma comme base vectorielle. Bien que techniquement rien n'empêche de l'adapter à d'autres bases (Pinecone, Weaviate, Qdrant), l'intégration native avec Chroma est un avantage compétitif et un risque de dépendance à évaluer dans chaque projet.

La séparation search/answer comme nouvelle norme du RAG en agence

Context-1 n'est probablement pas le dernier modèle à proposer cette séparation entre recherche et réponse, mais il est le premier à le faire en open source avec des performances de niveau frontier. Pour les agences digitales, cette annonce marque un point d'inflexion dans la manière de concevoir les pipelines RAG.

La question n'est plus de savoir si le RAG fonctionne. C'est de savoir si vous utilisez la bonne architecture pour qu'il fonctionne de manière fiable et économique. La séparation entre un agent de recherche spécialisé et un modèle de réponse généraliste est une réponse convaincante, et Context-1 est la première implémentation open source crédible de cette approche.

Chez Bridgers, nous recommandons aux équipes techniques de commencer à expérimenter avec cette architecture à deux modèles dès que le harness sera publié. Les projets RAG qui souffrent de requêtes multi-hop mal gérées ou de coûts d'inférence excessifs ont un candidat sérieux pour améliorer leur pipeline.

Envie d’automatiser ?

Audit gratuit de 30 min. On identifie vos 3 quick wins IA.

Réserver un audit gratuit →
Partager