Guide GPU · IA locale

GPU pour IA locale : Llama, Stable Diffusion XL, FLUX

La VRAM fixe la taille des modèles que votre carte peut charger en local. Voici les GPU adaptés à cinq scénarios concrets, avec un classement organisé par modèle.

5 modèles

113 GPU évalués

5 70B avec offload

48 SDXL confortables

À retenir

Les recommandations couvrent 5 modèles et 113 GPU confirmés.
Llama 8B et SDXL restent accessibles ; Mistral 24B et FLUX demandent surtout des cartes 16 Go ou plus.
Llama 70B en Q4_K_M ne tient pas entièrement dans 24 Go : les cartes grand public l'envisagent surtout avec offload.
Les verdicts mesurent la marge VRAM. Le confort réel dépend aussi du backend : CUDA, ROCm, DirectML, OpenVINO ou oneAPI.

Comprendre

La VRAM est le premier filtre

Un modèle local charge ses poids, son cache et ses buffers dans la mémoire de la carte graphique. La quantification réduit cette empreinte, mais elle ne rend pas un 70B équivalent à un 8B. Le CPU joue surtout sur le chargement, la préparation des prompts et l'offload éventuel : pour le diagnostic CPU/GPU général, utilisez le calculateur de bottleneck.

Par modèle

Quel GPU selon le modèle IA ?

Chaque bloc utilise la fourchette VRAM sourcée du scénario et classe les cartes par niveau d'usage. Aucun prix marché n'est intégré.

LLM accessible

Llama 3.1 8B Q4_K_M

Le 8B quantifié est le point d'entrée réaliste pour tester un assistant local sans carte très haut de gamme. La priorité est d'avoir assez de VRAM pour éviter l'offload inutile.

Besoin VRAM : 5,5-6,5 Go

Option accessible

GeForce RTX 3050 6 GB 6 Go · Entrée
GeForce RTX 2060 TU104 6 Go · Entrée
GeForce RTX 2060 6 Go · Entrée
Radeon RX 5600 OEM 6 Go · Entrée

Sweet spot

GeForce RTX 4070 Ti SUPER 16 Go · 44,1 TFLOPS
GeForce RTX 4070 Ti SUPER AD102 16 Go · 44,1 TFLOPS
GeForce RTX 5070 Ti 16 Go · 43,9 TFLOPS
GeForce RTX 4070 Ti 12 Go · 40,1 TFLOPS
GeForce RTX 3090 Ti 24 Go · 40 TFLOPS

Premium

GeForce RTX 5090 32 Go · Confortable
GeForce RTX 4090 24 Go · Confortable
Radeon RX 7900 XTX 24 Go · Confortable
GeForce RTX 5080 16 Go · Confortable

LLM intermédiaire

Mistral Small 24B Q4_K_M

Mistral Small demande une marge nettement plus sérieuse. Les cartes 16 Go deviennent le seuil utile, avec plus de confort au-dessus de 16 Go.

Besoin VRAM : 16-17 Go

Option accessible

Pas d'option entrée ou milieu de gamme avec une marge VRAM suffisante dans le parc confirmé.

Sweet spot

GeForce RTX 3090 Ti 24 Go · 40 TFLOPS
GeForce RTX 3090 24 Go · 35,6 TFLOPS
GeForce RTX 3080 Ti 20 GB 20 Go · 34,1 TFLOPS

Limite mais utilisable

Cartes proches de la borne basse : réglages VRAM ou offload peuvent rester nécessaires.

GeForce RTX 4070 Ti SUPER 16 Go · Offload requis
GeForce RTX 4070 Ti SUPER AD102 16 Go · Offload requis
GeForce RTX 5070 Ti 16 Go · Offload requis
Radeon RX 7800 XT 16 Go · Offload requis
Radeon RX 9070 16 Go · Offload requis

Premium

GeForce RTX 5090 32 Go · Confortable
GeForce RTX 4090 24 Go · Confortable
Radeon RX 7900 XTX 24 Go · Confortable
Radeon RX 7900 XT 20 Go · Confortable

Très grand LLM

Llama 3.3 70B Q4_K_M

Le 70B ne se traite pas comme un simple modèle qui rentre dans 24 Go. Les cartes grand public peuvent surtout l'envisager avec offload vers la RAM système.

Besoin VRAM : 44-46 Go

32 Go : statut intermédiaire

GeForce RTX 5090 reste en offload pour ce 70B, mais avec moins de pression qu'une carte 24 Go.

En offload PCIe

Ces cartes peuvent l'envisager avec une partie du modèle en RAM système, ce qui ralentit fortement la génération.

GeForce RTX 5090 32 Go · Offload requis
GeForce RTX 4090 24 Go · Offload requis
Radeon RX 7900 XTX 24 Go · Offload requis
GeForce RTX 3090 Ti 24 Go · Offload requis
GeForce RTX 3090 24 Go · Offload requis

Sans offload

Aucune carte grand public du parc ne contient ce scénario entier en VRAM. Pour générer sans offload, il faut viser 48 Go+ côté workstation, plusieurs GPU, ou une quantification plus agressive.

Image 1024 px

Stable Diffusion XL FP16

SDXL reste le scénario image le plus accessible : 8 Go peuvent suffire selon le workflow, mais 12 à 16 Go donnent plus de marge avec les extensions et lots d'images.

Besoin VRAM : 8-10 Go

Option accessible

Radeon RX 590 GME 8 Go · Entrée
GeForce RTX 5060 8 Go · Milieu
Arc A750 8 Go · Milieu
GeForce RTX 3070 TiM 8 Go · Milieu

Sweet spot

GeForce RTX 4070 Ti SUPER 16 Go · 44,1 TFLOPS
GeForce RTX 4070 Ti SUPER AD102 16 Go · 44,1 TFLOPS
GeForce RTX 5070 Ti 16 Go · 43,9 TFLOPS
GeForce RTX 4070 Ti 12 Go · 40,1 TFLOPS
GeForce RTX 3090 Ti 24 Go · 40 TFLOPS

Premium

GeForce RTX 5090 32 Go · Confortable
GeForce RTX 4090 24 Go · Confortable
Radeon RX 7900 XTX 24 Go · Confortable
GeForce RTX 5080 16 Go · Confortable

Image lourde

FLUX.1 dev FP8

FLUX ajoute le poids du modèle, de l'encodeur texte et des buffers de génération. Les cartes 16 Go sont utilisables avec prudence ; 24 Go et plus évitent beaucoup de friction.

Besoin VRAM : 16-18 Go

Option accessible

Arc A770 16 Go · Milieu
Radeon RX 6800 16 Go · Milieu

Sweet spot

GeForce RTX 3090 Ti 24 Go · 40 TFLOPS
GeForce RTX 3090 24 Go · 35,6 TFLOPS
GeForce RTX 3080 Ti 20 GB 20 Go · 34,1 TFLOPS

Limite mais utilisable

Cartes proches de la borne basse : réglages VRAM ou offload peuvent rester nécessaires.

GeForce RTX 4070 Ti SUPER 16 Go · Limite
GeForce RTX 4070 Ti SUPER AD102 16 Go · Limite
GeForce RTX 5070 Ti 16 Go · Limite
Radeon RX 7800 XT 16 Go · Limite
Radeon RX 9070 16 Go · Limite

Premium

GeForce RTX 5090 32 Go · Confortable
GeForce RTX 4090 24 Go · Confortable
Radeon RX 7900 XTX 24 Go · Confortable
Radeon RX 7900 XT 20 Go · Confortable

Matrice complète

113 GPU face aux 5 scénarios IA

Tri par performance FP32 décroissante. Les cellules ne jugent que la marge VRAM : elles ne promettent ni vitesse, ni compatibilité logicielle parfaite.

GPU	VRAM	Tier	Llama 3.1 8B Q4_K_M	Mistral Small 24B Q4_K_M	Llama 3.3 70B Q4_K_M	Stable Diffusion XL FP16	FLUX.1 dev FP8
GeForce RTX 5090	32 Go	Extrême	Confortable	Confortable	Offload requis	Confortable	Confortable
GeForce RTX 4090	24 Go	Extrême	Confortable	Confortable	Offload requis	Confortable	Confortable
Radeon RX 7900 XTX	24 Go	Extrême	Confortable	Confortable	Offload requis	Confortable	Confortable
GeForce RTX 5080	16 Go	Extrême	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4080 SUPER	16 Go	Extrême	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 7900 XT	20 Go	Extrême	Confortable	Confortable	Non réaliste	Confortable	Confortable
GeForce RTX 4080	16 Go	Extrême	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 9070 XT	16 Go	Extrême	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 7900 GRE	16 Go	Extrême	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4070 Ti SUPER	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4070 Ti SUPER AD102	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 5070 Ti	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4070 Ti	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3090 Ti	24 Go	Haut	Confortable	Confortable	Offload requis	Confortable	Confortable
Radeon RX 7800 XT	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 9070	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 3090	24 Go	Haut	Confortable	Confortable	Offload requis	Confortable	Confortable
GeForce RTX 4070 SUPER	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 7700 XT	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 9070 GRE	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3080 Ti 20 GB	20 Go	Haut	Confortable	Confortable	Non réaliste	Confortable	Confortable
GeForce RTX 3080 Ti	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 5070	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3080 12 GB	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3080	10 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 4070 AD103	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 4070 GDDR6	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 4070	12 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 9060 XT 16 GB	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 9060 XT 8 GB	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 5060 Ti 16 GB	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 5060 Ti 8 GB	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6950 XT	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 6900 XT	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 7600 XT	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
Radeon RX 7650 GRE	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 4060 Ti 16 GB	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4060 Ti 8 GB	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 4060 Ti AD104	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3070 Ti	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3070 Ti 8 GB GA102	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 7600	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 9060	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6800 XT	16 Go	Haut	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 3070	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 7600M XT	8 Go	Haut	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Arc A770	16 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 5060	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Arc A750	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3070 TiM	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 7400	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 Ti GA103	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 Ti GDDR6X	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 Ti	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6800	16 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Limite
GeForce RTX 4060	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 4060 AD106	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 3840SP	6 Go	Milieu	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Arc B580	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6750 XT	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6850M XT	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6750 GRE 12 GB	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6700 XT	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 5050	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 12 GB	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3060 12 GB GA104	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 3060 8 GB	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3060 8 GB GA104	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Arc A580	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Arc B570	10 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6700	10 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
Radeon RX 6750 GRE 10 GB	10 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 2080 SUPER	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6650 XT	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6600 XT	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 5700 XT 50th Anniversary	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6650M XT	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 5700 XT	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3050 8 GB GA107	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3050 8 GB	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 2070 SUPER	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6600 LE	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 6600	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3050 OEM	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 5700	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
Radeon RX 5600 XT	6 Go	Milieu	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce RTX 2060 12 GB	12 Go	Milieu	Confortable	Offload requis	Non réaliste	Confortable	Offload requis
GeForce RTX 2060 SUPER	8 Go	Milieu	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 3050 4 GB	4 Go	Milieu	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce RTX 3050 6 GB	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 590 GME	8 Go	Entrée	Confortable	Non réaliste	Non réaliste	Limite	Offload requis
GeForce RTX 2060 TU104	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce RTX 2060	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 5600 OEM	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 6500 XT	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1660 Ti	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 5500 XT	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 5300 XT OEM	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 5500 OEM	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1660	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1660 SUPER	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1650 SUPER	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 560 XT	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Arc A380	6 Go	Entrée	Limite	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 6400	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Arc A350	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1650	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1650 TU106	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1650 GDDR6	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1650 TU116	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Arc A310	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
GeForce GTX 1630	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste
Radeon RX 640 OEM	4 Go	Entrée	Offload requis	Non réaliste	Non réaliste	Offload requis	Non réaliste

Backends

CUDA, ROCm, OpenVINO : la VRAM ne suffit pas seule

Les verdicts supposent qu'un backend existe pour lancer le modèle. En pratique, NVIDIA reste le chemin le plus simple via CUDA, AMD dépend davantage de ROCm, DirectML ou du système, et Intel progresse via OpenVINO et oneAPI.

NVIDIA

CUDAllama.cpp / OllamaComfyUI

AMD

ROCm selon modèlellama.cpp / OllamaComfyUI

Intel

OpenVINO / oneAPI selon backendllama.cpp

Méthode

Les besoins VRAM viennent de cinq scénarios figés pour cette version : Q4_K_M pour les LLM, FP16 pour SDXL et FP8 pour FLUX. Les fourchettes affichées utilisent le minimum et le maximum sourcés ; les verdicts utilisent la médiane. D'autres quantifications existent, avec des compromis taille, vitesse et qualité.

Cette page indique si la VRAM suffit, pas si la génération sera rapide ni si la qualité finale sera identique entre backends. Les cartes non confirmées ne sont pas incluses dans les recommandations : GeForce RTX 5070 Ti SUPER, GeForce RTX 5070 SUPER, GeForce RTX 4010.

Vérification au 11 mai 2026. Détails dans la méthodologie et les sources. Si votre priorité est l'encodage vidéo, consultez le comparatif AV1.