GPU pour IA locale : Llama, Stable Diffusion XL, FLUX
La VRAM fixe la taille des modèles que votre carte peut charger
en local. Voici les GPU adaptés à cinq scénarios concrets, avec
un classement organisé par modèle.
5modèles
113GPU évalués
570B avec offload
48SDXL confortables
À retenir
Les recommandations couvrent 5 modèles et 113 GPU confirmés.
Llama 8B et SDXL restent accessibles ; Mistral 24B et FLUX
demandent surtout des cartes 16 Go ou plus.
Llama 70B en Q4_K_M ne tient pas entièrement dans 24 Go :
les cartes grand public l'envisagent surtout avec offload.
Les verdicts mesurent la marge VRAM. Le confort réel dépend
aussi du backend : CUDA, ROCm, DirectML, OpenVINO ou oneAPI.
Comprendre
La VRAM est le premier filtre
Un modèle local charge ses poids, son cache et ses buffers
dans la mémoire de la carte graphique. La quantification
réduit cette empreinte, mais elle ne rend pas un 70B
équivalent à un 8B. Le CPU joue surtout sur le chargement,
la préparation des prompts et l'offload éventuel : pour le
diagnostic CPU/GPU général, utilisez le
calculateur de bottleneck.
Par modèle
Quel GPU selon le modèle IA ?
Chaque bloc utilise la fourchette VRAM sourcée du scénario
et classe les cartes par niveau d'usage. Aucun prix marché
n'est intégré.
LLM accessible
Llama 3.1 8B Q4_K_M
Le 8B quantifié est le point d'entrée réaliste pour tester un assistant local sans carte très haut de gamme. La priorité est d'avoir assez de VRAM pour éviter l'offload inutile.
Le 70B ne se traite pas comme un simple modèle qui rentre dans 24 Go. Les cartes grand public peuvent surtout l'envisager avec offload vers la RAM système.
Besoin VRAM : 44-46 Go
32 Go : statut intermédiaire
GeForce RTX 5090
reste en offload pour ce 70B,
mais avec moins de pression
qu'une carte 24 Go.
En offload PCIe
Ces cartes peuvent l'envisager
avec une partie du modèle en RAM
système, ce qui ralentit fortement
la génération.
Aucune carte grand public du parc
ne contient ce scénario entier en
VRAM. Pour générer sans offload,
il faut viser 48 Go+ côté
workstation, plusieurs GPU, ou
une quantification plus agressive.
Image 1024 px
Stable Diffusion XL FP16
SDXL reste le scénario image le plus accessible : 8 Go peuvent suffire selon le workflow, mais 12 à 16 Go donnent plus de marge avec les extensions et lots d'images.
FLUX ajoute le poids du modèle, de l'encodeur texte et des buffers de génération. Les cartes 16 Go sont utilisables avec prudence ; 24 Go et plus évitent beaucoup de friction.
Tri par performance FP32 décroissante. Les cellules ne
jugent que la marge VRAM : elles ne promettent ni vitesse,
ni compatibilité logicielle parfaite.
CUDA, ROCm, OpenVINO : la VRAM ne suffit pas seule
Les verdicts supposent qu'un backend existe pour lancer le
modèle. En pratique, NVIDIA reste le chemin le plus simple
via CUDA, AMD dépend davantage de ROCm, DirectML ou du
système, et Intel progresse via OpenVINO et oneAPI.
NVIDIA
CUDAllama.cpp / OllamaComfyUI
AMD
ROCm selon modèlellama.cpp / OllamaComfyUI
Intel
OpenVINO / oneAPI selon backendllama.cpp
Méthode
Les besoins VRAM viennent de cinq scénarios figés pour cette version :
Q4_K_M pour les LLM, FP16 pour SDXL et FP8 pour FLUX. Les
fourchettes affichées utilisent le minimum et le maximum
sourcés ; les verdicts utilisent la médiane. D'autres
quantifications existent, avec des compromis taille, vitesse
et qualité.
Cette page indique si la VRAM suffit, pas si la génération sera
rapide ni si la qualité finale sera identique entre backends.
Les cartes non confirmées ne sont pas incluses dans les
recommandations : GeForce RTX 5070 Ti SUPER, GeForce RTX 5070 SUPER, GeForce RTX 4010.
Vérification au 11 mai 2026. Détails dans la
méthodologie et les
sources. Si votre priorité est
l'encodage vidéo, consultez le
comparatif AV1.
Comprendre
La VRAM est le premier filtre
Un modèle local charge ses poids, son cache et ses buffers dans la mémoire de la carte graphique. La quantification réduit cette empreinte, mais elle ne rend pas un 70B équivalent à un 8B. Le CPU joue surtout sur le chargement, la préparation des prompts et l'offload éventuel : pour le diagnostic CPU/GPU général, utilisez le calculateur de bottleneck.