Guide GPU · IA locale

GPU pour IA locale : Llama, Stable Diffusion XL, FLUX

La VRAM fixe la taille des modèles que votre carte peut charger en local. Voici les GPU adaptés à cinq scénarios concrets, avec un classement organisé par modèle.

5 modèles
113 GPU évalués
5 70B avec offload
48 SDXL confortables

À retenir

  • Les recommandations couvrent 5 modèles et 113 GPU confirmés.
  • Llama 8B et SDXL restent accessibles ; Mistral 24B et FLUX demandent surtout des cartes 16 Go ou plus.
  • Llama 70B en Q4_K_M ne tient pas entièrement dans 24 Go : les cartes grand public l'envisagent surtout avec offload.
  • Les verdicts mesurent la marge VRAM. Le confort réel dépend aussi du backend : CUDA, ROCm, DirectML, OpenVINO ou oneAPI.

Comprendre

La VRAM est le premier filtre

Un modèle local charge ses poids, son cache et ses buffers dans la mémoire de la carte graphique. La quantification réduit cette empreinte, mais elle ne rend pas un 70B équivalent à un 8B. Le CPU joue surtout sur le chargement, la préparation des prompts et l'offload éventuel : pour le diagnostic CPU/GPU général, utilisez le calculateur de bottleneck.

Par modèle

Quel GPU selon le modèle IA ?

Chaque bloc utilise la fourchette VRAM sourcée du scénario et classe les cartes par niveau d'usage. Aucun prix marché n'est intégré.

LLM accessible

Llama 3.1 8B Q4_K_M

Le 8B quantifié est le point d'entrée réaliste pour tester un assistant local sans carte très haut de gamme. La priorité est d'avoir assez de VRAM pour éviter l'offload inutile.

Besoin VRAM : 5,5-6,5 Go

Option accessible

Sweet spot

Premium

LLM intermédiaire

Mistral Small 24B Q4_K_M

Mistral Small demande une marge nettement plus sérieuse. Les cartes 16 Go deviennent le seuil utile, avec plus de confort au-dessus de 16 Go.

Besoin VRAM : 16-17 Go

Option accessible

Pas d'option entrée ou milieu de gamme avec une marge VRAM suffisante dans le parc confirmé.

Sweet spot

Limite mais utilisable

Cartes proches de la borne basse : réglages VRAM ou offload peuvent rester nécessaires.

Premium

Très grand LLM

Llama 3.3 70B Q4_K_M

Le 70B ne se traite pas comme un simple modèle qui rentre dans 24 Go. Les cartes grand public peuvent surtout l'envisager avec offload vers la RAM système.

Besoin VRAM : 44-46 Go

32 Go : statut intermédiaire

GeForce RTX 5090 reste en offload pour ce 70B, mais avec moins de pression qu'une carte 24 Go.

En offload PCIe

Ces cartes peuvent l'envisager avec une partie du modèle en RAM système, ce qui ralentit fortement la génération.

Sans offload

Aucune carte grand public du parc ne contient ce scénario entier en VRAM. Pour générer sans offload, il faut viser 48 Go+ côté workstation, plusieurs GPU, ou une quantification plus agressive.

Image 1024 px

Stable Diffusion XL FP16

SDXL reste le scénario image le plus accessible : 8 Go peuvent suffire selon le workflow, mais 12 à 16 Go donnent plus de marge avec les extensions et lots d'images.

Besoin VRAM : 8-10 Go

Option accessible

Sweet spot

Premium

Image lourde

FLUX.1 dev FP8

FLUX ajoute le poids du modèle, de l'encodeur texte et des buffers de génération. Les cartes 16 Go sont utilisables avec prudence ; 24 Go et plus évitent beaucoup de friction.

Besoin VRAM : 16-18 Go

Option accessible

Sweet spot

Limite mais utilisable

Cartes proches de la borne basse : réglages VRAM ou offload peuvent rester nécessaires.

Premium

Matrice complète

113 GPU face aux 5 scénarios IA

Tri par performance FP32 décroissante. Les cellules ne jugent que la marge VRAM : elles ne promettent ni vitesse, ni compatibilité logicielle parfaite.

GPU VRAM Tier Llama 3.1 8B Q4_K_MMistral Small 24B Q4_K_MLlama 3.3 70B Q4_K_MStable Diffusion XL FP16FLUX.1 dev FP8
GeForce RTX 5090 32 Go Extrême Confortable Confortable Offload requis Confortable Confortable
GeForce RTX 4090 24 Go Extrême Confortable Confortable Offload requis Confortable Confortable
Radeon RX 7900 XTX 24 Go Extrême Confortable Confortable Offload requis Confortable Confortable
GeForce RTX 5080 16 Go Extrême Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4080 SUPER 16 Go Extrême Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 7900 XT 20 Go Extrême Confortable Confortable Non réaliste Confortable Confortable
GeForce RTX 4080 16 Go Extrême Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 9070 XT 16 Go Extrême Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 7900 GRE 16 Go Extrême Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4070 Ti SUPER 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4070 Ti SUPER AD102 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 5070 Ti 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4070 Ti 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3090 Ti 24 Go Haut Confortable Confortable Offload requis Confortable Confortable
Radeon RX 7800 XT 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 9070 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 3090 24 Go Haut Confortable Confortable Offload requis Confortable Confortable
GeForce RTX 4070 SUPER 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 7700 XT 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 9070 GRE 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3080 Ti 20 GB 20 Go Haut Confortable Confortable Non réaliste Confortable Confortable
GeForce RTX 3080 Ti 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 5070 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3080 12 GB 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3080 10 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 4070 AD103 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 4070 GDDR6 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 4070 12 Go Haut Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 9060 XT 16 GB 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 9060 XT 8 GB 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 5060 Ti 16 GB 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 5060 Ti 8 GB 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6950 XT 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 6900 XT 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 7600 XT 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
Radeon RX 7650 GRE 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 4060 Ti 16 GB 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4060 Ti 8 GB 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 4060 Ti AD104 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3070 Ti 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3070 Ti 8 GB GA102 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 7600 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 9060 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6800 XT 16 Go Haut Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 3070 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 7600M XT 8 Go Haut Confortable Non réaliste Non réaliste Limite Offload requis
Arc A770 16 Go Milieu Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 5060 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Arc A750 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3070 TiM 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 7400 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 Ti GA103 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 Ti GDDR6X 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 Ti 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6800 16 Go Milieu Confortable Offload requis Non réaliste Confortable Limite
GeForce RTX 4060 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 4060 AD106 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 3840SP 6 Go Milieu Limite Non réaliste Non réaliste Offload requis Non réaliste
Arc B580 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6750 XT 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6850M XT 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6750 GRE 12 GB 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6700 XT 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 5050 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 12 GB 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3060 12 GB GA104 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 3060 8 GB 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3060 8 GB GA104 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Arc A580 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Arc B570 10 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6700 10 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
Radeon RX 6750 GRE 10 GB 10 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 2080 SUPER 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6650 XT 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6600 XT 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 5700 XT 50th Anniversary 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6650M XT 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 5700 XT 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3050 8 GB GA107 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3050 8 GB 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 2070 SUPER 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6600 LE 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 6600 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3050 OEM 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 5700 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
Radeon RX 5600 XT 6 Go Milieu Limite Non réaliste Non réaliste Offload requis Non réaliste
GeForce RTX 2060 12 GB 12 Go Milieu Confortable Offload requis Non réaliste Confortable Offload requis
GeForce RTX 2060 SUPER 8 Go Milieu Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 3050 4 GB 4 Go Milieu Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce RTX 3050 6 GB 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 590 GME 8 Go Entrée Confortable Non réaliste Non réaliste Limite Offload requis
GeForce RTX 2060 TU104 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
GeForce RTX 2060 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 5600 OEM 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 6500 XT 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1660 Ti 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 5500 XT 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 5300 XT OEM 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 5500 OEM 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1660 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1660 SUPER 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1650 SUPER 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 560 XT 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Arc A380 6 Go Entrée Limite Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 6400 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Arc A350 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1650 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1650 TU106 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1650 GDDR6 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1650 TU116 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Arc A310 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
GeForce GTX 1630 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste
Radeon RX 640 OEM 4 Go Entrée Offload requis Non réaliste Non réaliste Offload requis Non réaliste

Backends

CUDA, ROCm, OpenVINO : la VRAM ne suffit pas seule

Les verdicts supposent qu'un backend existe pour lancer le modèle. En pratique, NVIDIA reste le chemin le plus simple via CUDA, AMD dépend davantage de ROCm, DirectML ou du système, et Intel progresse via OpenVINO et oneAPI.

NVIDIA

CUDAllama.cpp / OllamaComfyUI

AMD

ROCm selon modèlellama.cpp / OllamaComfyUI

Intel

OpenVINO / oneAPI selon backendllama.cpp

Méthode

Les besoins VRAM viennent de cinq scénarios figés pour cette version : Q4_K_M pour les LLM, FP16 pour SDXL et FP8 pour FLUX. Les fourchettes affichées utilisent le minimum et le maximum sourcés ; les verdicts utilisent la médiane. D'autres quantifications existent, avec des compromis taille, vitesse et qualité.

Cette page indique si la VRAM suffit, pas si la génération sera rapide ni si la qualité finale sera identique entre backends. Les cartes non confirmées ne sont pas incluses dans les recommandations : GeForce RTX 5070 Ti SUPER, GeForce RTX 5070 SUPER, GeForce RTX 4010.

Vérification au 11 mai 2026. Détails dans la méthodologie et les sources. Si votre priorité est l'encodage vidéo, consultez le comparatif AV1.