IA en local sur votre PC : le guide technique 2026

Chez Bridgers, nous concevons des solutions numériques pour des clients qui manipulent des données sensibles : cabinets de conseil, fintech, e-commerce, santé. Quand un client nous demande d'intégrer de l'IA dans son produit, la question de la confidentialité arrive systématiquement sur la table. Faire tourner un modèle en local, sur l'infrastructure du client plutôt que via une API cloud, est une option que nous évaluons de plus en plus souvent. Ce guide rassemble tout ce que nous avons appris en testant des dizaines de configurations et de modèles sur des projets internes.

L'IA locale en 2026 : une alternative crédible au cloud

Il y a deux ans, faire tourner un LLM sur son propre matériel relevait de l'expérimentation. En 2026, c'est devenu une pratique courante. Renewator rapporte que 55 % de l'inférence IA en entreprise se fait désormais en local ou en edge, contre 12 % en 2023. Ce n'est plus une niche.

Plusieurs facteurs expliquent cette bascule. Le premier, et le plus décisif pour nos clients, est la confidentialité des données. Un modèle qui tourne sur votre serveur ou votre poste de travail ne transmet rien à l'extérieur. Pour un cabinet qui traite des documents juridiques, un département RH qui analyse des CV, ou une startup santé soumise à des contraintes réglementaires, c'est un argument qui pèse plus que tout benchmark. Le coût moyen d'une fuite de données atteint 4,44 millions de dollars.

Le deuxième facteur est le coût à l'échelle. Les API cloud facturent au token. À faible volume, c'est imbattable. Mais dès que vous dépassez 2 à 3 millions de tokens par jour, le local devient plus rentable sur 12 mois. SitePoint a modélisé un scénario où une entreprise consommant 50 millions de tokens quotidiens économise plus de 90 000 dollars par an en passant au local.

Le troisième est la latence. Un modèle local répond en moins de 300 ms. Via le cloud, comptez 500 à 1 000 ms selon Petronella Tech. Pour des applications temps réel (support client, monitoring de sécurité, automatisation), la différence est significative.

Et enfin, la souveraineté numérique. Les gouvernements européens investissent massivement dans l'IA locale, avec une croissance de 140 % par an. Quand nous accompagnons un client dans le secteur public ou la défense, le local n'est pas une option : c'est une exigence.

Configurations matérielles testées : GPU, RAM et bande passante

Quand un client nous demande « quel matériel pour faire tourner un modèle X ? », la réponse tient en deux variables : la capacité mémoire (combien de poids le modèle peut stocker) et la bande passante mémoire (à quelle vitesse le modèle peut lire ces poids). La puissance de calcul brute est secondaire pour l'inférence.

Voici le tableau de référence que nous utilisons en interne, basé sur des modèles en quantification Q4_K_M (le standard) :

Taille du modèle	VRAM minimale	VRAM recommandée	RAM système	Modèles types
1 à 3B	2 à 3 Go	4 à 6 Go	8 Go	Phi-4-mini 3.8B, Gemma 3 1B
7 à 9B	5 à 6 Go	8 Go	16 Go	Llama 3.3 8B, Qwen3 7B, Mistral 7B
12 à 14B	8 à 11 Go	12 Go	32 Go	Phi-4 14B, Qwen3 14B, Gemma 3 12B
20 à 32B	14 à 22 Go	24 Go	32 à 48 Go	Qwen3 32B, Gemma 3 27B
70 à 72B	35 à 45 Go	48 Go et plus	64 à 128 Go	Llama 3.3 70B, Qwen3 72B

Source : LocalLLM.in

Le cas Apple Silicon

Apple Silicon est devenu un cas d'étude particulièrement intéressant pour nos évaluations. La mémoire unifiée (CPU et GPU partagent le même pool RAM haute vitesse) élimine le goulot d'étranglement PCIe qui limite les cartes graphiques dédiées.

Puce	RAM max	Bande passante	Capacité modèle
M4 (base)	32 Go	environ 120 Go/s	7B à 13B
M4 Pro	64 Go	environ 273 Go/s	Jusqu'à 32B
M4 Max	128 Go	environ 546 Go/s	Jusqu'à 70B
M3 Ultra	512 Go	environ 819 Go/s	70B et au-delà

Un fait qui surprend souvent nos clients : un MacBook Pro M3 Max 96 Go est le seul appareil grand public capable de faire tourner un Llama 3 70B en local. Une RTX 4090 à 2 000 euros ne peut pas, faute de VRAM. Source : SitePoint

Recommandations budget

Pour les équipes qui souhaitent investir, voici les configurations que nous recommandons :

Budget	Configuration	Modèle max	Usage type
Moins de 1 500 euros	RTX 4060 8 Go + 32 Go RAM	7B (Q4)	Autocomplétion code, chat basique
1 500 à 2 500 euros	RTX 3090 24 Go + 32 Go RAM	13 à 34B (Q4)	Analyse documents, rédaction
2 500 à 4 000 euros	MacBook Pro M4 Max 48 Go	34B et plus	Production individuelle
4 000 euros et plus	MacBook Pro M4 Max 128 Go	70B	Raisonnement avancé, RAG

Le Mac Mini M4 Pro 64 Go (environ 1 400 euros) est aussi un excellent compromis : il tient environ 11 à 12 tokens par seconde sur Qwen 2.5 32B, dans un form factor discret qui s'intègre dans n'importe quel bureau. La RTX 5090 (32 Go GDDR7, 1,79 To/s) est devenue le sweet spot côté PC selon Fluence.

Quel modèle choisir selon votre cas d'usage

Le choix du modèle dépend moins de la « puissance brute » que de l'adéquation entre votre cas d'usage et les forces du modèle. Voici notre grille de lecture.

Pour le code et le développement

Qwen3 7B affiche le meilleur score HumanEval de sa catégorie (76.0) et gère plus de 90 langues de programmation. À 5,5 Go de VRAM, il tourne sur la plupart des machines de développeurs. DeepSeek-R1-Distill-Qwen-7B apporte le raisonnement chaîne de pensée pour le debugging complexe. Nemotron 3 Nano (30B, 3B actifs) est spécialement conçu pour les workflows agents avec un contexte d'un million de tokens. Source : SitePoint

Pour l'analyse de documents et le RAG

Llama 3.3 70B (40 Go de VRAM) offre le meilleur raisonnement sur les documents longs. Si vous ne disposez pas d'autant de mémoire, Qwen3 32B (22 Go) ou Gemma 3 27B (22 Go) sont d'excellentes alternatives. Ce dernier est multimodal (texte et image), ce qui le rend précieux pour l'analyse de documents scannés. Source : Local AI Zone

Pour un assistant conversationnel

Llama 3.3 8B est le généraliste idéal : 6 Go de VRAM, environ 40 tokens par seconde sur une RTX 4080, et une qualité suffisante pour une conversation naturelle. Mistral Small 3 7B est encore plus rapide (environ 50 tokens par seconde). Les deux fonctionnent sous licence Apache 2.0. Source : Till Freitag

Pour le hardware très limité

Phi-4-mini 3.8B est le seul modèle véritablement utilisable sur 8 Go de RAM (3,5 Go de VRAM). Gemma 3 1B descend encore plus bas : 0,5 à 2 Go, fonctionnel en CPU-only. Licence MIT pour Phi, licence Gemma pour Gemma. Source : Clarifai

Modèle	Paramètres	VRAM	MMLU	HumanEval	Force principale
Llama 3.3 8B	8B	6 Go	73.0	72.6	Polyvalence
Qwen3 7B	7B	5,5 Go	72.8	76.0	Code + multilingue
Mistral Small 3	7B	5,5 Go	71.5	68.2	Vitesse brute
Phi-4-mini	3.8B	3,5 Go	68.5	64.0	Taille minimale
Qwen3 32B	32B	22 Go	N/A	N/A	Qualité/taille
Llama 3.3 70B	70B	40 Go	82.0	81.7	Raisonnement avancé
Qwen3 72B	72B	42 Go	83.1	84.2	Champion benchmarks

Comparatif des outils : Ollama, LM Studio et les autres

L'outil que vous choisissez pour faire tourner vos modèles détermine votre workflow quotidien. Voici les options principales.

Ollama est le choix par défaut des développeurs. Une commande (ollama run qwen3:7b), plus de 100 modèles disponibles, une API compatible OpenAI sur localhost:11434. Multi-plateforme, gestion mémoire automatique. Pas d'interface graphique.

LM Studio cible les utilisateurs non techniques. Interface soignée, navigateur de modèles intégré avec recherche HuggingFace, sliders de paramètres. Son support Vulkan lui donne un avantage sur les GPU intégrés Intel et AMD. Zen Van Riel détaille la comparaison. Environ 500 Mo d'overhead, non open source.

llama.cpp est le moteur sous-jacent (Ollama et LM Studio l'utilisent). C/C++ pur, aucune dépendance Python, support natif CPU (AVX2, NEON), Metal, CUDA, ROCm. Offloading partiel GPU/CPU possible. Pour les experts qui veulent un contrôle total. Guide par The AI Merge

vLLM est le standard de production multi-utilisateurs. PagedAttention réduit la fragmentation mémoire de plus de 50 %, débit 2 à 4 fois supérieur. Principalement NVIDIA. Source : Digital Applied

Jan.ai est une alternative axée vie privée, avec une interface type ChatGPT, 100 % hors ligne et sans télémétrie.

Outil	Interface	API OpenAI	Open Source	Cible
Ollama	CLI + API	Oui	Oui	Développeurs
LM Studio	GUI desktop	Oui	Non	Non-développeurs
llama.cpp	CLI bas niveau	Via llama-server	Oui	Experts
vLLM	API uniquement	Oui	Oui	Production
Jan.ai	GUI desktop	Bêta	Oui	Vie privée

Source : Glukhov.org

Tester la compatibilité de votre machine avec CanIRun.ai

Avant d'investir du temps ou de l'argent, vous pouvez vérifier instantanément ce que votre matériel supporte grâce à CanIRun.ai. Cet outil gratuit, créé par le développeur midudev (Miguel Ángel Durán), détecte automatiquement votre GPU, CPU et RAM directement dans le navigateur via les API WebGL, WebGPU et Navigator. Aucune donnée n'est envoyée à un serveur. Documentation technique sur canirun.ai/why

L'outil attribue un score (S à F) à chacun des 50 modèles référencés, basé sur la vitesse estimée, la marge mémoire et un bonus qualité. Lors de son lancement le 13 mars 2026, il a récolté 899 points sur Hacker News avec environ 235 commentaires, un signe clair du besoin dans la communauté.

Comme l'a analysé TopAIProduct, l'outil est particulièrement utile pour décider quel matériel acheter. Les estimations sont cependant conservatrices : plusieurs utilisateurs rapportent que leur matériel fait mieux que prévu, et les modèles MoE (comme Mixtral) sont mal évalués car le scoring ne prend pas en compte l'activation partielle des paramètres.

Un CLI Python (pip install canirun) complète l'outil web avec une analyse plus fine des configurations depuis HuggingFace Hub.

Comprendre la quantification GGUF en 5 minutes

La quantification est ce qui rend l'IA locale possible sur du matériel grand public. Un modèle 7B pèse environ 14 Go en précision native (FP16 : 16 bits par poids). En Q4_K_M, il descend à 3,8 Go, soit une réduction de 75 %, avec une perte de qualité quasi imperceptible.

Le format standard est le GGUF (GPT-Generated Unified Format), créé par llama.cpp. Les suffixes décodés :

Q = quantifié
Le chiffre (2 à 8) = bits par poids
K = K-quant (quantification par blocs avec facteurs d'échelle)
_S/_M/_L = taille des groupes (S = plus précis, L = plus compact)
IQ = quantification par importance (préserve les poids critiques)

Guide complet sur Toni Sagrista

Tableau de référence pour un modèle 7B

Format	Bits	Taille	Perte qualité	Usage
FP16	16	13 Go	Aucune	Serveurs
Q8_0	8	6,7 Go	Quasi nulle	Archivage
Q5_K_M	5,1	4,45 Go	Très faible	Haute qualité
Q4_K_M	4,5	3,80 Go	Faible	Standard recommandé
Q3_K_M	3,3	3,06 Go	Modérée	Mémoire limitée
Q2_K	2,5	2,67 Go	Forte	Déconseillé

Notre règle en interne : privilégier le plus grand modèle qui rentre en mémoire, même à quantification plus agressive. Un 14B en Q3 est presque toujours meilleur qu'un 7B en Q8. Ne jamais descendre sous Q3 sans validation sur le cas d'usage réel.

Analyse de coûts : quand le local devient rentable

C'est la question que nos clients posent en premier. SitePoint a publié une analyse TCO sur 12 mois qui résume bien les seuils :

Volume quotidien	GPT-4.1 (12 mois)	API open-weight	Local consommateur
500K tokens/jour	1 260 $	360 $	6 457 $
5M tokens/jour	12 600 $	3 600 $	18 387 $
50M tokens/jour	126 000 $	36 000 $	30 800 $

Le point de bascule se situe entre 2 et 3 millions de tokens par jour. En dessous, le cloud reste plus économique. Au-dessus, le local prend l'avantage, et l'écart se creuse avec le volume.

Mais le calcul financier n'est qu'une partie de l'équation. Pour un client soumis au RGPD, la valeur du local ne se mesure pas en euros économisés mais en risques évités. Un modèle qui tourne sur vos propres serveurs, c'est un traitement de données conforme par conception. Petronella Tech développe cet argument pour les déploiements enterprise.

Pour les particuliers et freelances, un Mac Mini M4 Pro 64 Go à environ 1 400 euros représente le meilleur investissement. Un abonnement ChatGPT Plus à 20 dollars par mois (240 dollars par an) reste cependant moins cher si votre usage est occasionnel.

Ce que l'IA locale ne fait pas (encore)

L'honnêteté impose de lister les limites. La vitesse locale (10 à 50 tokens par seconde) reste inférieure au cloud (100 à 200). Les modèles frontières comme GPT-5.4 ou Claude Opus 4.6 n'ont pas d'équivalent local. Le setup initial demande des compétences techniques, même si Ollama a considérablement simplifié le processus. La consommation électrique varie fortement : 350 à 450 W pour une RTX 4090 sous charge, contre 30 à 45 W pour un Mac Mini M4. Et les mises à jour sont manuelles : il faut surveiller les nouvelles sorties sur HuggingFace. Source : Neil Sahota

Nous ne recommandons pas le local pour tout. Si votre usage est léger et non sensible, une API cloud sera plus simple et moins chère. Le local prend tout son sens quand la confidentialité, le volume ou la latence sont des facteurs critiques.

Comment démarrer concrètement

Si vous travaillez avec Bridgers sur un projet impliquant de l'IA, ou si vous souhaitez simplement explorer le local pour vos propres besoins, voici la marche à suivre :

Vérifiez votre matériel sur CanIRun.ai pour identifier les modèles compatibles.
Installez Ollama (une commande) ou LM Studio (interface graphique) selon votre profil.
Commencez avec un modèle 7B : ollama run qwen3:7b ou cherchez « Qwen3 7B » dans LM Studio.
Testez sur vos cas d'usage réels : résumé de documents, analyse de code, rédaction, extraction de données.
Montez en gamme si nécessaire : passez à un 14B, puis un 32B en ajustant la quantification.

L'IA locale a quitté le territoire des passionnés pour devenir un outil professionnel viable. La question n'est plus de savoir si c'est possible, mais de trouver la configuration qui correspond à vos contraintes et à vos ambitions.