Gemma 4 : capacités, benchmarks et installation locale

Google DeepMind frappe fort avec Gemma 4, sa nouvelle famille de modèles d’intelligence artificielle ouverts. Sous licence Apache 2.0, ces modèles se téléchargent, se modifient et s’utilisent librement, y compris pour des projets commerciaux. Quatre tailles couvrent un spectre large : du smartphone au serveur en passant par le PC de bureau. La promesse : offrir les capacités de Gemini 3 dans un format exécutable en local, sans connexion cloud.

Sommaire

Quatre modèles pour tous les usages

La gamme Gemma 4 se décompose en quatre variantes calibrées selon le matériel cible :

E2B (2 milliards de paramètres) : taillé pour les smartphones et appareils embarqués type Raspberry Pi. Environ 5 Go de VRAM suffisent.
E4B (4 milliards) : version mobile enrichie, codéveloppée avec Qualcomm et MediaTek, fonctionnant hors ligne.
26B MoE (Mixture of Experts) : n’active qu’une fraction de ses paramètres lors de l’inférence, ce qui accélère le traitement sur GPU grand public.
31B Dense : le plus puissant de la famille, pensé pour le fine-tuning et les tâches exigeantes. Sa fenêtre de contexte atteint 256 000 tokens, soit l’équivalent de plusieurs centaines de pages de texte.

Les modèles Edge (E2B et E4B) disposent d’une fenêtre de 128 000 tokens. L’ensemble de la gamme supporte plus de 140 langues.

Ce que Gemma 4 sait faire

Vue rapprochée d’une carte graphique moderne illuminée, devant un arrière-plan flou de codes et de schémas numériques indiquant

Raisonnement et agents autonomes

Gemma 4 ne se limite pas à la conversation. Le modèle gère nativement les appels de fonctions (function calling) et produit des sorties JSON structurées. En pratique, cela signifie qu’un développeur peut construire un agent capable de piloter des outils, interroger des API et enchaîner des étapes sans intervention humaine. La planification en plusieurs étapes et la génération de code font partie des compétences de base, même sur les versions compactes. Pour les équipes qui souhaitent héberger ces agents sur une infrastructure managée, la plateforme cloud de Google dédiée à l’IA est une option à considérer.

Vision, vidéo et audio intégrés

Toute la famille traite les images et la vidéo : reconnaissance de caractères (OCR), lecture de graphiques, analyse de documents visuels. Les versions Edge ajoutent l’entrée audio native, ce qui ouvre la porte à la reconnaissance vocale directement sur le téléphone, sans passer par un serveur distant. Cette multimodalité complète distingue Gemma 4 de nombreux concurrents open source encore limités au texte.

Où se situe Gemma 4 face à la concurrence ?

Le modèle 31B Dense se classe troisième au classement mondial Arena AI des modèles ouverts, avec un score Elo de 1452. Il devance des modèles comptant vingt fois plus de paramètres. Sur le benchmark MMLU-Pro, il obtient 85,2 % de précision, se plaçant au neuvième rang toutes catégories confondues.

Modèle	Arena AI (Elo)	MMLU-Pro
Gemma 4 31B	1452 (rang #3 open)	85,2 %
Gemma 4 26B MoE	1441 (rang #6 open)	–
Llama 4 Maverick	~rang 41	–

Ces chiffres restent auto-rapportés par Google au lancement. Des évaluations indépendantes viendront confirmer ou nuancer ces performances dans les semaines suivantes.

Comment installer Gemma 4 sur votre PC ou Mac

Installer Gemma 4 avec Ollama
# 1. Installer Ollama (macOS / Linux)
curl -fsSL https://ollama.com/install.sh | sh

# 2. Télécharger et lancer Gemma 4 (4B, usage quotidien)
ollama run gemma4:4b

# 3. Version légère pour CPU uniquement (2B)
ollama run gemma4:2b

# 4. Tester via l'API locale
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:4b",
  "prompt": "Explique l'IA en une phrase.",
  "stream": false
}'

Le chemin le plus rapide passe par Google AI Studio : il suffit d’ouvrir le navigateur et de tester les modèles 26B et 31B sans rien installer. Pour une utilisation locale, Ollama et LM Studio proposent un support dès le premier jour. L’installation se résume à télécharger l’application, chercher « Gemma 4 » et lancer le modèle.

Sur Mac Apple Silicon (M1 à M5), la mémoire unifiée permet de faire tourner le modèle E4B sur un MacBook Air avec 24 Go de RAM. Sur PC, les GPU Nvidia RTX bénéficient d’optimisations Tensor Cores et CUDA, tandis qu’AMD assure la compatibilité via ROCm sur les Radeon et processeurs Ryzen AI.

Les poids sont téléchargeables sur Hugging Face, Kaggle et Ollama. Pour les déploiements professionnels, Vertex AI, Cloud Run et GKE prennent le relais côté Google Cloud. Gemma 4 servira aussi de base au prochain Gemini Nano 4, attendu sur les appareils Android phares d’ici fin 2026.