Chez Bridgers, nous concevons des solutions numériques pour des clients qui manipulent des données sensibles : cabinets de conseil, fintech, e-commerce, santé. Quand un client nous demande d'intégrer de l'IA dans son produit, la question de la confidentialité arrive systématiquement sur la table. Faire tourner un modèle en local, sur l'infrastructure du client plutôt que via une API cloud, est une option que nous évaluons de plus en plus souvent. Ce guide rassemble tout ce que nous avons appris en testant des dizaines de configurations et de modèles sur des projets internes.

L'IA locale en 2026 : une alternative crédible au cloud

Il y a deux ans, faire tourner un LLM sur son propre matériel relevait de l'expérimentation. En 2026, c'est devenu une pratique courante. Renewator rapporte que 55 % de l'inférence IA en entreprise se fait désormais en local ou en edge, contre 12 % en 2023. Ce n'est plus une niche.

Plusieurs facteurs expliquent cette bascule. Le premier, et le plus décisif pour nos clients, est la confidentialité des données. Un modèle qui tourne sur votre serveur ou votre poste de travail ne transmet rien à l'extérieur. Pour un cabinet qui traite des documents juridiques, un département RH qui analyse des CV, ou une startup santé soumise à des contraintes réglementaires, c'est un argument qui pèse plus que tout benchmark. Le coût moyen d'une fuite de données atteint 4,44 millions de dollars.

Le deuxième facteur est le coût à l'échelle. Les API cloud facturent au token. À faible volume, c'est imbattable. Mais dès que vous dépassez 2 à 3 millions de tokens par jour, le local devient plus rentable sur 12 mois. SitePoint a modélisé un scénario où une entreprise consommant 50 millions de tokens quotidiens économise plus de 90 000 dollars par an en passant au local.

Le troisième est la latence. Un modèle local répond en moins de 300 ms. Via le cloud, comptez 500 à 1 000 ms selon Petronella Tech. Pour des applications temps réel (support client, monitoring de sécurité, automatisation), la différence est significative.

Et enfin, la souveraineté numérique. Les gouvernements européens investissent massivement dans l'IA locale, avec une croissance de 140 % par an. Quand nous accompagnons un client dans le secteur public ou la défense, le local n'est pas une option : c'est une exigence.

Configurations matérielles testées : GPU, RAM et bande passante

Quand un client nous demande « quel matériel pour faire tourner un modèle X ? », la réponse tient en deux variables : la capacité mémoire (combien de poids le modèle peut stocker) et la bande passante mémoire (à quelle vitesse le modèle peut lire ces poids). La puissance de calcul brute est secondaire pour l'inférence.

Voici le tableau de référence que nous utilisons en interne, basé sur des modèles en quantification Q4_K_M (le standard) :

Taille du modèle

VRAM minimale

VRAM recommandée

RAM système

Modèles types

1 à 3B

2 à 3 Go

4 à 6 Go

8 Go

Phi-4-mini 3.8B, Gemma 3 1B

7 à 9B

5 à 6 Go

8 Go

16 Go

Llama 3.3 8B, Qwen3 7B, Mistral 7B

12 à 14B

8 à 11 Go

12 Go

32 Go

Phi-4 14B, Qwen3 14B, Gemma 3 12B

20 à 32B

14 à 22 Go

24 Go

32 à 48 Go

Qwen3 32B, Gemma 3 27B

70 à 72B

35 à 45 Go

48 Go et plus

64 à 128 Go

Llama 3.3 70B, Qwen3 72B

Le cas Apple Silicon

Apple Silicon est devenu un cas d'étude particulièrement intéressant pour nos évaluations. La mémoire unifiée (CPU et GPU partagent le même pool RAM haute vitesse) élimine le goulot d'étranglement PCIe qui limite les cartes graphiques dédiées.

Puce

RAM max

Bande passante

Capacité modèle

M4 (base)

32 Go

environ 120 Go/s

7B à 13B

M4 Pro

64 Go

environ 273 Go/s

Jusqu'à 32B

M4 Max

128 Go

environ 546 Go/s

Jusqu'à 70B

M3 Ultra

512 Go

environ 819 Go/s

70B et au-delà

Un fait qui surprend souvent nos clients : un MacBook Pro M3 Max 96 Go est le seul appareil grand public capable de faire tourner un Llama 3 70B en local. Une RTX 4090 à 2 000 euros ne peut pas, faute de VRAM. Source : SitePoint

Recommandations budget

Pour les équipes qui souhaitent investir, voici les configurations que nous recommandons :

Budget

Configuration

Modèle max

Usage type

Moins de 1 500 euros

RTX 4060 8 Go + 32 Go RAM

7B (Q4)

Autocomplétion code, chat basique

1 500 à 2 500 euros

RTX 3090 24 Go + 32 Go RAM

13 à 34B (Q4)

Analyse documents, rédaction

2 500 à 4 000 euros

MacBook Pro M4 Max 48 Go

34B et plus

Production individuelle

4 000 euros et plus

MacBook Pro M4 Max 128 Go

70B

Raisonnement avancé, RAG

Le Mac Mini M4 Pro 64 Go (environ 1 400 euros) est aussi un excellent compromis : il tient environ 11 à 12 tokens par seconde sur Qwen 2.5 32B, dans un form factor discret qui s'intègre dans n'importe quel bureau. La RTX 5090 (32 Go GDDR7, 1,79 To/s) est devenue le sweet spot côté PC selon Fluence.

Quel modèle choisir selon votre cas d'usage

Le choix du modèle dépend moins de la « puissance brute » que de l'adéquation entre votre cas d'usage et les forces du modèle. Voici notre grille de lecture.

Pour le code et le développement

Qwen3 7B affiche le meilleur score HumanEval de sa catégorie (76.0) et gère plus de 90 langues de programmation. À 5,5 Go de VRAM, il tourne sur la plupart des machines de développeurs. DeepSeek-R1-Distill-Qwen-7B apporte le raisonnement chaîne de pensée pour le debugging complexe. Nemotron 3 Nano (30B, 3B actifs) est spécialement conçu pour les workflows agents avec un contexte d'un million de tokens. Source : SitePoint

Pour l'analyse de documents et le RAG

Llama 3.3 70B (40 Go de VRAM) offre le meilleur raisonnement sur les documents longs. Si vous ne disposez pas d'autant de mémoire, Qwen3 32B (22 Go) ou Gemma 3 27B (22 Go) sont d'excellentes alternatives. Ce dernier est multimodal (texte et image), ce qui le rend précieux pour l'analyse de documents scannés. Source : Local AI Zone

Pour un assistant conversationnel

Llama 3.3 8B est le généraliste idéal : 6 Go de VRAM, environ 40 tokens par seconde sur une RTX 4080, et une qualité suffisante pour une conversation naturelle. Mistral Small 3 7B est encore plus rapide (environ 50 tokens par seconde). Les deux fonctionnent sous licence Apache 2.0. Source : Till Freitag

Pour le hardware très limité

Phi-4-mini 3.8B est le seul modèle véritablement utilisable sur 8 Go de RAM (3,5 Go de VRAM). Gemma 3 1B descend encore plus bas : 0,5 à 2 Go, fonctionnel en CPU-only. Licence MIT pour Phi, licence Gemma pour Gemma. Source : Clarifai

Modèle

Paramètres

VRAM

MMLU

HumanEval

Force principale

Llama 3.3 8B

8B

6 Go

73.0

72.6

Polyvalence

Qwen3 7B

7B

5,5 Go

72.8

76.0

Code + multilingue

Mistral Small 3

7B

5,5 Go

71.5

68.2

Vitesse brute

Phi-4-mini

3.8B

3,5 Go

68.5

64.0

Taille minimale

Qwen3 32B

32B

22 Go

N/A

N/A

Qualité/taille

Llama 3.3 70B

70B

40 Go

82.0

81.7

Raisonnement avancé

Qwen3 72B

72B

42 Go

83.1

84.2

Champion benchmarks

Comparatif des outils : Ollama, LM Studio et les autres

L'outil que vous choisissez pour faire tourner vos modèles détermine votre workflow quotidien. Voici les options principales.

Ollama est le choix par défaut des développeurs. Une commande (ollama run qwen3:7b), plus de 100 modèles disponibles, une API compatible OpenAI sur localhost:11434. Multi-plateforme, gestion mémoire automatique. Pas d'interface graphique.

LM Studio cible les utilisateurs non techniques. Interface soignée, navigateur de modèles intégré avec recherche HuggingFace, sliders de paramètres. Son support Vulkan lui donne un avantage sur les GPU intégrés Intel et AMD. Zen Van Riel détaille la comparaison. Environ 500 Mo d'overhead, non open source.

llama.cpp est le moteur sous-jacent (Ollama et LM Studio l'utilisent). C/C++ pur, aucune dépendance Python, support natif CPU (AVX2, NEON), Metal, CUDA, ROCm. Offloading partiel GPU/CPU possible. Pour les experts qui veulent un contrôle total. Guide par The AI Merge

vLLM est le standard de production multi-utilisateurs. PagedAttention réduit la fragmentation mémoire de plus de 50 %, débit 2 à 4 fois supérieur. Principalement NVIDIA. Source : Digital Applied

Jan.ai est une alternative axée vie privée, avec une interface type ChatGPT, 100 % hors ligne et sans télémétrie.

Outil

Interface

API OpenAI

Open Source

Cible

Ollama

CLI + API

Oui

Oui

Développeurs

LM Studio

GUI desktop

Oui

Non

Non-développeurs

llama.cpp

CLI bas niveau

Via llama-server

Oui

Experts

vLLM

API uniquement

Oui

Oui

Production

Jan.ai

GUI desktop

Bêta

Oui

Vie privée

Tester la compatibilité de votre machine avec CanIRun.ai

Avant d'investir du temps ou de l'argent, vous pouvez vérifier instantanément ce que votre matériel supporte grâce à CanIRun.ai. Cet outil gratuit, créé par le développeur midudev (Miguel Ángel Durán), détecte automatiquement votre GPU, CPU et RAM directement dans le navigateur via les API WebGL, WebGPU et Navigator. Aucune donnée n'est envoyée à un serveur. Documentation technique sur canirun.ai/why

L'outil attribue un score (S à F) à chacun des 50 modèles référencés, basé sur la vitesse estimée, la marge mémoire et un bonus qualité. Lors de son lancement le 13 mars 2026, il a récolté 899 points sur Hacker News avec environ 235 commentaires, un signe clair du besoin dans la communauté.

Un CLI Python (pip install canirun) complète l'outil web avec une analyse plus fine des configurations depuis HuggingFace Hub.

Comprendre la quantification GGUF en 5 minutes

La quantification est ce qui rend l'IA locale possible sur du matériel grand public. Un modèle 7B pèse environ 14 Go en précision native (FP16 : 16 bits par poids). En Q4_K_M, il descend à 3,8 Go, soit une réduction de 75 %, avec une perte de qualité quasi imperceptible.

Le format standard est le GGUF (GPT-Generated Unified Format), créé par llama.cpp. Les suffixes décodés :

  • Q = quantifié

  • Le chiffre (2 à 8) = bits par poids

  • K = K-quant (quantification par blocs avec facteurs d'échelle)

  • _S/_M/_L = taille des groupes (S = plus précis, L = plus compact)

  • IQ = quantification par importance (préserve les poids critiques)

Tableau de référence pour un modèle 7B

Format

Bits

Taille

Perte qualité

Usage

FP16

16

13 Go

Aucune

Serveurs

Q8_0

8

6,7 Go

Quasi nulle

Archivage

Q5_K_M

5,1

4,45 Go

Très faible

Haute qualité

Q4_K_M

4,5

3,80 Go

Faible

Standard recommandé

Q3_K_M

3,3

3,06 Go

Modérée

Mémoire limitée

Q2_K

2,5

2,67 Go

Forte

Déconseillé

Notre règle en interne : privilégier le plus grand modèle qui rentre en mémoire, même à quantification plus agressive. Un 14B en Q3 est presque toujours meilleur qu'un 7B en Q8. Ne jamais descendre sous Q3 sans validation sur le cas d'usage réel.

Analyse de coûts : quand le local devient rentable

C'est la question que nos clients posent en premier. SitePoint a publié une analyse TCO sur 12 mois qui résume bien les seuils :

Volume quotidien

GPT-4.1 (12 mois)

API open-weight

Local consommateur

500K tokens/jour

1 260 $

360 $

6 457 $

5M tokens/jour

12 600 $

3 600 $

18 387 $

50M tokens/jour

126 000 $

36 000 $

30 800 $

Le point de bascule se situe entre 2 et 3 millions de tokens par jour. En dessous, le cloud reste plus économique. Au-dessus, le local prend l'avantage, et l'écart se creuse avec le volume.

Mais le calcul financier n'est qu'une partie de l'équation. Pour un client soumis au RGPD, la valeur du local ne se mesure pas en euros économisés mais en risques évités. Un modèle qui tourne sur vos propres serveurs, c'est un traitement de données conforme par conception. Petronella Tech développe cet argument pour les déploiements enterprise.

Pour les particuliers et freelances, un Mac Mini M4 Pro 64 Go à environ 1 400 euros représente le meilleur investissement. Un abonnement ChatGPT Plus à 20 dollars par mois (240 dollars par an) reste cependant moins cher si votre usage est occasionnel.

Ce que l'IA locale ne fait pas (encore)

L'honnêteté impose de lister les limites. La vitesse locale (10 à 50 tokens par seconde) reste inférieure au cloud (100 à 200). Les modèles frontières comme GPT-5.4 ou Claude Opus 4.6 n'ont pas d'équivalent local. Le setup initial demande des compétences techniques, même si Ollama a considérablement simplifié le processus. La consommation électrique varie fortement : 350 à 450 W pour une RTX 4090 sous charge, contre 30 à 45 W pour un Mac Mini M4. Et les mises à jour sont manuelles : il faut surveiller les nouvelles sorties sur HuggingFace. Source : Neil Sahota

Nous ne recommandons pas le local pour tout. Si votre usage est léger et non sensible, une API cloud sera plus simple et moins chère. Le local prend tout son sens quand la confidentialité, le volume ou la latence sont des facteurs critiques.

Comment démarrer concrètement

Si vous travaillez avec Bridgers sur un projet impliquant de l'IA, ou si vous souhaitez simplement explorer le local pour vos propres besoins, voici la marche à suivre :

  1. Vérifiez votre matériel sur CanIRun.ai pour identifier les modèles compatibles.

  2. Installez Ollama (une commande) ou LM Studio (interface graphique) selon votre profil.

  3. Commencez avec un modèle 7B : ollama run qwen3:7b ou cherchez « Qwen3 7B » dans LM Studio.

  4. Testez sur vos cas d'usage réels : résumé de documents, analyse de code, rédaction, extraction de données.

  5. Montez en gamme si nécessaire : passez à un 14B, puis un 32B en ajustant la quantification.

L'IA locale a quitté le territoire des passionnés pour devenir un outil professionnel viable. La question n'est plus de savoir si c'est possible, mais de trouver la configuration qui correspond à vos contraintes et à vos ambitions.

Envie d’automatiser ?

Audit gratuit de 30 min. On identifie vos 3 quick wins IA.

Réserver un audit gratuit →
Partager