Google DeepMind n’a pas simplement publié un nouveau modèle. Avec Gemma 4, ils en ont publié quatre — couvrant les appareils edge jusqu’à l’inférence sur station de travail — et ont discrètement présenté l’argument le plus convaincant à ce jour en faveur des modèles à poids ouverts dans les systèmes agentiques de production.
Si vous construisez des agents IA qui doivent fonctionner localement, traiter des documents et des images, raisonner à travers des plans multi-étapes, et faire tout cela sans envoyer un seul octet à une API externe, Gemma 4 est la famille de modèles à évaluer.
Ce guide couvre la gamme complète Gemma 4 : ce que fait chaque variante, le matériel réellement nécessaire, comment déployer localement, et pourquoi c’est important pour les systèmes d’IA agentique que nous construisons chez dcode.
La Famille de Modèles Gemma 4
Gemma 4 comprend quatre variantes, chacune ciblant un profil de déploiement différent. Deux choses ressortent immédiatement : chaque variante supporte nativement l’entrée multimodale, et chaque variante inclut un mode raisonnement intégré pour la chaîne de pensée.
| Modèle | Architecture | Paramètres Totaux | Paramètres Actifs | Fenêtre de Contexte | Modalités |
|---|---|---|---|---|---|
| E2B | Dense + PLE | 2B | 2B | 128K | Texte, Image, Audio |
| E4B | Dense + PLE | 4B | 4B | 128K | Texte, Image, Audio |
| 26B-A4B | MoE | 26B | 4B | 256K | Texte, Image |
| 31B | Dense | 31B | 31B | 256K | Texte, Image |
La convention de nommage raconte l’histoire du déploiement. E signifie edge — E2B et E4B sont conçus pour les téléphones, les systèmes embarqués et les déploiements locaux légers. Le 26B-A4B est le choix de l’efficacité : 26 milliards de paramètres au total, mais seulement 4 milliards actifs sur chaque token grâce au routage Mixture-of-Experts. Le 31B est la puissance brute — chaque paramètre s’active à chaque token, qualité maximale, calcul maximal.
Quelle Variante Choisir
E2B — Choisissez-le si vous avez besoin d’un agent sur un appareil mobile, un Raspberry Pi, ou tout environnement avec moins de 8 Go de mémoire. Étonnamment capable pour sa taille, avec un traitement audio absent des modèles plus grands.
E4B — Choisissez-le pour un cran au-dessus du E2B sans quitter la catégorie edge. Suffisamment performant pour des assistants locaux, la synthèse de documents et les agents simples d’appel d’outils. Gère aussi l’entrée audio.
26B-A4B — Choisissez-le si vous voulez des performances quasi-frontier sur une seule station de travail ou un Mac. L’architecture MoE vous offre une qualité de classe 26B à la vitesse et au coût mémoire d’un 4B. C’est le point d’équilibre optimal pour la plupart des déploiements d’agents locaux.
31B — Choisissez-le si la précision est la priorité et que vous avez le matériel correspondant. Le modèle ouvert le plus performant sous 35B paramètres. Idéal pour les agents qui traitent des décisions à enjeux élevés — revue juridique, analyse financière, évaluations de conformité — où chaque point de pourcentage de précision compte.
Benchmarks
Les chiffres comptent plus que le marketing. Voici les performances de la famille Gemma 4 sur les benchmarks standards :
| Modèle | MMLU Pro | AIME 2026 | LiveCodeBench | MMMU Pro |
|---|---|---|---|---|
| 31B | 85,2 % | 89,2 % | 80,0 % | 76,9 % |
| 26B-A4B | 82,6 % | 88,3 % | 77,1 % | 73,8 % |
| E4B | 69,4 % | 42,5 % | 52,0 % | 52,6 % |
| E2B | 60,0 % | 37,5 % | 44,0 % | 44,2 % |
Le chiffre marquant : le 26B-A4B obtient 82,6 % sur MMLU Pro en n’activant que 4 milliards de paramètres par token. Pour mettre cela en contexte, les modèles atteignant ce niveau nécessitent typiquement plus de 70B de paramètres denses et une configuration multi-GPU. L’architecture MoE rend ce niveau de qualité accessible sur une seule machine.
Pour les charges agentiques, les scores AIME et LiveCodeBench sont particulièrement pertinents — ils mesurent le raisonnement multi-étapes et la génération de code dont les agents ont besoin pour l’utilisation d’outils, la planification et l’exécution autonome de tâches.
Exigences Matérielles
C’est le tableau qui détermine réellement si vous pouvez exécuter Gemma 4. Les besoins en mémoire varient significativement selon le niveau de quantisation :
| Variante | 4-bit | 8-bit | BF16 (pleine précision) |
|---|---|---|---|
| E2B | 4 Go | 5–8 Go | 10 Go |
| E4B | 5,5–6 Go | 9–12 Go | 16 Go |
| 26B-A4B | 16–18 Go | 28–30 Go | 52 Go |
| 31B | 17–20 Go | 34–38 Go | 62 Go |
Pour les utilisateurs Mac : la mémoire unifiée est votre avantage. Un M2 Pro avec 32 Go gère le 26B-A4B en 4-bit confortablement. Un M4 Max avec 64 Go exécute le 31B en 8-bit. La bande passante mémoire d’Apple Silicon rend l’inférence étonnamment rapide par rapport à une RAM équivalente sur x86.
Pour les serveurs GPU : le 26B-A4B tient sur une seule RTX 4090 (24 Go) en 4-bit. Le 31B en 8-bit nécessite une A100 40 Go ou deux GPU grand public. Pour les systèmes multi-agents en production servant des requêtes concurrentes, prévoyez au minimum 2x les besoins d’inférence unitaire.
Notre recommandation pour les déploiements d’agents : commencez avec le 26B-A4B en quantisation 4-bit. Le ratio qualité/ressources est exceptionnel, et la quantisation 4-bit sur les architectures modernes introduit une perte de qualité négligeable pour les tâches agentiques comme la sélection d’outils, la planification et la génération de texte.
Déployer avec Ollama
Ollama est le chemin le plus rapide pour exécuter Gemma 4 localement. Une seule commande, aucune configuration :
# Installer Ollama (macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Télécharger et exécuter Gemma 4 26B-A4B (recommandé pour les agents)
ollama run gemma4:27b
# Ou les variantes plus légères
ollama run gemma4:4b
ollama run gemma4:2b
# 31B pleine précision (nécessite 62+ Go de RAM)
ollama run gemma4:31b
Ollama sélectionne automatiquement la quantisation appropriée pour votre matériel. Sur un Mac avec 32 Go, il téléchargera la version quantisée en 4-bit du modèle 27B.
Ollama comme Backend d’Agent
Ollama expose une API compatible OpenAI sur localhost:11434. Cela signifie que tout framework d’agents supportant le format API OpenAI — LangChain, CrewAI, AutoGen, ou votre propre code — peut utiliser Gemma 4 comme modèle local sans aucune modification :
# Tester l'API
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:27b",
"messages": [
{"role": "system", "content": "Tu es un assistant utile."},
{"role": "user", "content": "Quelles sont les dispositions clés du Règlement IA européen ?"}
],
"temperature": 1.0,
"top_p": 0.95
}'
Pour les déploiements d’agents, configurez OLLAMA_KEEP_ALIVE=-1 pour empêcher le déchargement du modèle entre les requêtes :
export OLLAMA_KEEP_ALIVE=-1
ollama serve
Déployer avec llama.cpp
Pour un contrôle maximal — quantisation personnalisée, traitement par lots, optimisation matérielle spécifique — compilez llama.cpp depuis les sources :
# Cloner et compiler
git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp
# macOS (accélération Metal)
cmake -B build -DGGML_METAL=ON
cmake --build build --config Release -j
# Linux avec CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j
# Exécuter le modèle
./build/bin/llama-cli \
-hf google/gemma-4-27b-it-GGUF \
--temp 1.0 \
--top-p 0.95 \
--top-k 64 \
-c 32768 \
--conversation
Paramètres d’Inférence Recommandés
Les valeurs par défaut recommandées par Google pour Gemma 4 :
| Paramètre | Valeur | Notes |
|---|---|---|
temperature | 1.0 | Plus élevée que d’habitude — Gemma 4 est calibré pour |
top_p | 0.95 | Échantillonnage par noyau |
top_k | 64 | Candidats de tokens |
context | 32768 | Par défaut ; extensible à 256K si nécessaire et si la RAM le permet |
Important : Gemma 4 est entraîné avec temperature: 1.0 par défaut — pas le 0,7 auquel vous êtes peut-être habitué avec d’autres modèles. Utiliser des températures plus basses peut en fait réduire la qualité des sorties. Faites confiance au calibrage.
Mode Raisonnement
Chaque variante de Gemma 4 inclut un mode raisonnement intégré — le modèle produit explicitement une chaîne de pensée avant de générer sa réponse. Ce n’est pas un hack de prompt ; c’est entraîné dans les poids du modèle.
Pour les systèmes agentiques, le mode raisonnement est transformateur. Un agent capable de raisonner sur sa sélection d’outils, d’évaluer plusieurs approches et d’expliquer son plan avant exécution produit des résultats radicalement meilleurs — et des pistes d’audit radicalement meilleures.
Activer le Mode Raisonnement
Ajoutez le token <|think|> au début de votre prompt système pour l’activer :
<|system|>
<|think|>
Tu es un agent de planification de tâches. Décompose les demandes complexes en étapes
actionnables, sélectionne les outils appropriés pour chaque étape, et explique ton raisonnement.
<|end|>
Le modèle produira son raisonnement dans des blocs <|channel>thought avant de livrer la réponse finale. En production, vous pouvez parser ces blocs séparément — les journaliser pour audit, les afficher dans une vue de débogage, ou les utiliser pour l’auto-correction de l’agent.
Quand Utiliser le Mode Raisonnement
Activez-le pour : la planification multi-étapes, la sélection d’outils, le raisonnement complexe, les décisions sensibles à la conformité, tout contexte nécessitant une piste d’audit de la logique de l’agent.
Désactivez-le pour : les Q&R simples, le chat à haut débit, les interactions sensibles à la latence où le surcoût du raisonnement n’est pas justifié.
Le mode raisonnement double approximativement le nombre de tokens en sortie par requête. Prévoyez en conséquence pour la latence et le coût (si vous utilisez une infrastructure facturée à l’usage).
Capacités Multimodales
Toutes les variantes de Gemma 4 traitent les images nativement. Les variantes E2B et E4B gèrent aussi l’audio. Ce n’est pas un adaptateur ajouté après coup — la compréhension multimodale est entraînée dans le modèle de base.
Pour les déploiements d’agents, cela débloque :
- Agents de traitement documentaire — fournissez des factures, contrats ou rapports sous forme d’images ; l’agent extrait des données structurées sans pipeline OCR
- Agents d’inspection visuelle — contrôle qualité, documentation de chantier, gestion d’inventaire à partir de photos
- Agents de traitement audio (E2B/E4B) — transcription de réunions, analyse de commandes vocales, analyse de centres d’appels sur appareils edge
- RAG multimodal — agents qui raisonnent sur le contenu textuel et visuel des bases de connaissances
Pourquoi Gemma 4 Compte pour l’IA Agentique en Europe
Nous construisons et opérons des systèmes multi-agents pour les entreprises européennes. Trois aspects de Gemma 4 sont directement pertinents pour ce travail :
1. Souveraineté des Données
Avec le Règlement IA européen entrant en application en août 2026 et le RGPD déjà pleinement en vigueur, la capacité d’exécuter l’inférence localement — sans qu’aucune donnée ne quitte votre réseau — n’est plus un plus. C’est une exigence de conformité pour de nombreux cas d’usage.
Gemma 4 exécuté via Ollama ou llama.cpp sur une infrastructure hébergée en Europe (Hetzner, OVH, ou sur site) vous donne une couche IA entièrement souveraine. Aucun appel API vers des fournisseurs cloud américains. Aucune question de résidence des données. Aucun accord de sous-traitance pour votre pipeline d’inférence.
2. Économie des Coûts pour les Agents Permanents
Les agents qui fonctionnent 24h/24 — surveillance de systèmes, traitement d’emails, gestion de pipelines — accumulent des coûts API significatifs avec les modèles cloud. Un seul agent effectuant 1 000 appels par jour à 0,003 $ par 1K tokens d’entrée s’additionne rapidement sur une flotte multi-agents.
Le déploiement local de Gemma 4 convertit les coûts API variables en coûts d’infrastructure fixes. Une fois votre matériel provisionné, le coût marginal d’inférence est effectivement nul. Pour notre système de 8 agents chez Inscape, ce type d’économie fait la différence entre des opérations durables et des factures cloud incontrôlables.
3. Latence et Disponibilité
L’inférence locale élimine la latence réseau et la disponibilité API comme modes de défaillance. Vos agents ne tombent pas en panne parce qu’un fournisseur cloud a une interruption. Ils ne ralentissent pas parce que vous atteignez une limite de débit. Ils ne font pas la queue à cause de la congestion aux heures de pointe.
Pour les agents qui doivent répondre en temps réel — assistants en contact client, surveillants monitoring, processeurs financiers — cette fiabilité est essentielle.
Pour Commencer
- Évaluez votre matériel — vérifiez le tableau des exigences ci-dessus par rapport à votre mémoire disponible
- Installez Ollama — une seule commande, fonctionne sur macOS, Linux et Windows
- Téléchargez le 26B-A4B — le meilleur ratio qualité/ressources pour la plupart des cas d’usage d’agents
- Testez le mode raisonnement — activez
<|think|>et observez la qualité du raisonnement - Intégrez à votre framework d’agents — l’API compatible OpenAI d’Ollama fonctionne avec tout framework
- Benchmarkez sur votre charge de travail — exécutez vos tâches d’agents réelles, pas seulement des benchmarks génériques
Si vous évaluez des modèles ouverts pour un déploiement d’agents en production — particulièrement dans des environnements européens réglementés — Gemma 4 devrait être en tête de votre liste. La combinaison de l’efficacité MoE, du contexte 256K, du support multimodal natif et du raisonnement intégré en fait la famille de modèles ouverts la plus complète disponible aujourd’hui.
Chez dcode, nous concevons, construisons et opérons des systèmes multi-agents pour les entreprises européennes. Si vous évaluez le déploiement de modèles locaux pour votre infrastructure d’IA agentique, contactez-nous — nous l’avons déjà fait et nous pouvons vous aider à le faire correctement.