Google heeft Gemma 4 gelanceerd op Google Cloud Next — en dit is geen kleine update. Vier modellen, van een 2B-versie die op een Raspberry Pi draait tot een 31B-model dat concurreert met modellen die 20x groter zijn. En voor het eerst onder Apache 2.0: volledig open source, geen restricties voor commercieel gebruik.
Ik heb eerder 8 lokale modellen getest op mijn Mac Mini M4enQwen3.5 uitgebreid geanalyseerd. Gemma 4 is de volgende die ik ga benchmarken — maar eerst wil ik uitleggen wat elk model kan, waar je het voor inzet, en of het relevant is voor jouw werk.
De vier modellen
Gemma 4 is geen enkel model maar een familie van vier, elk gebouwd op dezelfde architectuur als Gemini 3 (Google's commerciële topmodel). Het "E" in de naam staat voor Effective Parameters — het werkelijke aantal parameters dat actief meerekent.
Gemma 4 E2B — De edge-runner
| Parameters | 2.3B effectief (5.1B totaal incl. embeddings) |
| Context | 128K tokens |
| RAM nodig | ~4GB |
| Draait op | Raspberry Pi, Android, IoT devices |
| Modaliteiten | Tekst, afbeeldingen, audio |
Het kleinste model, maar verrassend capabel. E2B is ontworpen voor apparaten waar je normaal geen AI op verwacht — je telefoon, een Raspberry Pi, een IoT-sensor. Het verwerkt niet alleen tekst maar ook afbeeldingen en audio.
Waar je het voor inzet:Lokale chatbot op je telefoon die offline werkt. Samenvatten van documenten op een tablet. Audio-transcriptie zonder cloudverbinding. Ideaal als je data je apparaat niet mag verlaten — denk aan medische of juridische toepassingen. (Twijfel je over wat mag van de AVG? LeesAI en AVG: wat mag wel en wat niet.)
Beperkingen: Te klein voor complexe code generatie of lange marketingteksten. Gebruik het voor snelle, gerichte taken.
Gemma 4 E4B — De allrounder
| Parameters | 4.5B effectief (8B totaal) |
| Context | 128K tokens |
| RAM nodig | ~8GB |
| Draait op | Laptops, desktops met 16GB RAM |
| Modaliteiten | Tekst, afbeeldingen, audio, video |
Dit is het default model — als je ollama pull gemma4 draait, krijg je E4B. Het is de sweet spot tussen kwaliteit en snelheid. Past comfortabel op een laptop met 16GB RAM en verwerkt alles: tekst, afbeeldingen, audio en zelfs video.
Waar je het voor inzet: Dagelijkse code-assistent naast je editor. Nederlandse e-mails samenvatten. Productbeschrijvingen genereren. Facturen scannen (OCR ingebouwd). Het model dat je continu draait voor ad-hoc taken.
Beperkingen: Voor complexe code-architectuur of lange analyses zijn de grotere modellen beter. Maar voor 80% van de dagelijkse taken is E4B meer dan voldoende.
Gemma 4 26B MoE — De slimme shortcut
| Parameters | 3.8B actief / 25.2B totaal (128 experts, 8 actief) |
| Context | 256K tokens |
| RAM nodig | ~20GB (24GB aanbevolen) |
| Draait op | Mac Mini M4 (24GB), gaming PC's met RTX 4090 |
| Modaliteiten | Tekst, afbeeldingen |
| Snelheid | 45-60 tok/s op high-end GPU's |
Dit is het meest interessante model in de familie. Mixture of Experts (MoE) betekent dat het 128 gespecialiseerde "experts" heeft, maar per vraag slechts 8 activeert. Het resultaat: de kwaliteit van een 13B dense model, de snelheid van een 4B model, op hardware die je al hebt.
Nummer 6 op de Arena AI leaderboard (1441 Elo) — dat is indrukwekkend voor een model dat effectief maar 3.8B parameters activeert.
Waar je het voor inzet: Dit is het werkpaard voor productie-workflows. Code generatie en review waar je snelheid nodig hebt. Batch-verwerking van marketingteksten. Lange documenten analyseren (256K context = ~400 pagina's). Het model dat je draait als je wilt dat AI continu meerdere taken parallel afhandelt.
Op mijn Mac Mini M4 (24GB):Dit model past precies. Ik ben benieuwd hoe het presteert versus deQwen- en Devstral-modellen uit mijn vorige benchmark — dat komt in een volgende blog.
Gemma 4 31B Dense — Het topmodel
| Parameters | 30.7B |
| Context | 256K tokens |
| RAM nodig | 24GB+ (32GB aanbevolen) |
| Draait op | Mac Studio, high-end GPU's (RTX 4090 in Q4) |
| Modaliteiten | Tekst, afbeeldingen |
| Snelheid | ~25 tok/s op RTX 4090 (Q4) |
Het flagship model. Nummer 3 op de Arena AI leaderboard (1452 Elo) — alleen twee closed-source modellen scoren hoger. Dit model overtreft modellen die 20x groter zijn.
De benchmark-resultaten zijn indrukwekkend:
| Benchmark | Gemma 4 31B | Qwen 3.5 27B | Llama 4 Scout |
|---|---|---|---|
| AIME 2026 (wiskunde) | 89.2% | ~85% | N/A |
| Codeforces (coding) | 2150 Elo | ~1900 | ~1400 |
| MMLU Pro (kennis) | 85.2% | 86.1% | ~80% |
| LiveCodeBench v6 | 80.0% | 83.6% | ~68% |
Beste in klasse voor wiskunde en competitieve coding. Iets onder Qwen 3.5 op algemene kennis en geavanceerde code, maar ver boven Llama 4.
Waar je het voor inzet: Complexe architectuurbeslissingen. Code reviews van grote codebases (256K context). Diepgaande analyses waar kwaliteit belangrijker is dan snelheid. Fine-tuning voor gespecialiseerde taken.
Beperkingen: Langzamer dan het MoE model (~25 tok/s vs 45-60 tok/s). Vereist meer hardware. Voor de meeste dagelijkse taken is het 26B MoE model efficiënter.
Wat is nieuw in Gemma 4
Drie dingen maken Gemma 4 fundamenteel anders dan zijn voorgangers.
1. Apache 2.0 licentie. Gemma 1 t/m 3 hadden Google's eigen licentie met beperkingen. Gemma 4 is volledig open source onder Apache 2.0 — dezelfde licentie als Kubernetes, TensorFlow, en Android. Geen restricties voor commercieel gebruik. VentureBeat noemt deze licentiewijziging mogelijk belangrijker dan de benchmarks zelf.
2. Thinking mode. Alle modellen hebben ingebouwde stap-voor-stap reasoning — vergelijkbaar met wat je kent van o1 of DeepSeek R1. Het model denkt eerst na, dan antwoordt. Configureerbaar per request.
3. Agentic-first ontwerp. Native function calling, gestructureerde JSON output, multi-step planning. Deze modellen zijn gebouwd om als AI-agents te functioneren — niet alleen als tekst-generators.
Use case: coding
De coding capabilities zijn waar Gemma 4 echt uitblinkt. Een Codeforces Elo van 2150 (31B) is het hoogste van alle open modellen — hoger dan Qwen 3.5 en ver boven Llama 4.
Wat je ermee kunt:
- Lokale code-assistent — draai E4B naast je editor, geen cloud nodig, geen maandelijkse kosten
- Code review — 256K context laat je hele repositories analyseren in één sessie
- Debugging — thinking mode + agentic capabilities = stap-voor-stap foutanalyse
- Function calling — bouw AI-tools die API's aanroepen, bestanden bewerken, en workflows uitvoeren
📖 Lees ook: Mijn AI Development Stack: Tools, Workflow en Wat het Kost — De tools en kosten achter mijn complete AI-workflow
Welk model voor coding:
- Snelle fixes en autocompletie → E4B
- Productie-workflows en batch-verwerking → 26B MoE
- Architectuurbeslissingen en complexe reviews → 31B Dense
Use case: marketing en content
Voor marketing is de situatie genuanceerder. Gemma 4 ondersteunt 140+ talen inclusief Nederlands, maar er zijn geen specifieke Nederlandse benchmarks beschikbaar bij launch.
Wat je ermee kunt:
- Blogposts en artikelen — lange context (256K) maakt uitgebreide content generatie mogelijk
- Social media — korte teksten, variaties, A/B-test versies
- E-mail campagnes — gepersonaliseerde templates op basis van klantdata
- Document analyse — facturen, offertes, contracten samenvatten (OCR ingebouwd)
- Vertaling — Nederlands ↔ Engels en 140+ andere talen
Welk model voor marketing:
- Dagelijkse teksten en samenvattingen → E4B
- Batch content generatie → 26B MoE
- Kwaliteitscontent die publicatie-klaar moet zijn → 31B Dense
Eerlijk advies: voor Nederlandse marketingteksten is Qwen 3.5 momenteel sterker — het heeft 201 talen en is specifiek getraind op breed taalgebruik. Ik ga dit benchmarken in een volgende blog. Maar voor Engelse content en technische documentatie is Gemma 4 een serieuze concurrent.
📖 Lees ook: AI-teksten schrijven zonder ChatGPT: 6 gratis modellen getest — Hoe lokale modellen presteren op echte Nederlandse marketingtaken
Lokaal draaien
Alle modellen draaien lokaal via Ollama — dag 1 support, één commando:
# Default model (E4B, ~8GB RAM)
ollama pull gemma4
# Alle varianten
ollama pull gemma4:e2b # Raspberry Pi / telefoon
ollama pull gemma4:26b # Mac Mini M4 / gaming PC
ollama pull gemma4:31b # High-end GPU / Mac Studio
# Draaien
ollama run gemma4Wat heb je nodig:
| Model | Minimum RAM | Aanbevolen | Voorbeeld hardware |
|---|---|---|---|
| E2B | 4GB | 8GB | Raspberry Pi, Android |
| E4B | 8GB | 16GB | Laptop, desktop |
| 26B MoE | 20GB | 24GB | Mac Mini M4, RTX 4090 |
| 31B Dense | 24GB+ | 32GB | Mac Studio, RTX 4090 (Q4) |
📖 Lees ook: Mac als Beste Keuze om AI Lokaal te Draaien — Waarom Apple Silicon ideaal is voor lokale AI modellen.
Vergelijking met concurrenten
| Gemma 4 31B | Qwen 3.5 27B | Llama 4 Scout | |
|---|---|---|---|
| Parameters | 30.7B | 27B | 109B (17B actief) |
| Wiskunde (AIME) | 89.2% | ~85% | N/A |
| Coding (Codeforces) | 2150 | ~1900 | ~1400 |
| Kennis (MMLU Pro) | 85.2% | 86.1% | ~80% |
| Context | 256K | 128K | 10M |
| Talen | 140+ | 201 | ~200 |
| Licentie | Apache 2.0 | Apache 2.0 | Llama Community |
| Lokaal (24GB) | Ja (Q4) | Ja | Nee (te groot) |
Samengevat: Gemma 4 wint op wiskunde en coding. Qwen 3.5 wint op algemene kennis en meertaligheid. Llama 4 Scout heeft een enorm contextvenster maar past niet op consumer hardware. Alle drie draaien lokaal — behalve Llama 4 Scout.
Veelgestelde vragen
Wat komt er aan
Ik ga het Gemma 4 26B MoE en 31B model toevoegen aan mijn lokale LLM benchmark — dezelfde taken (SEOcrawler code, bash-naar-Python migratie, Nederlandse marketingteksten) op dezelfde hardware (Mac Mini M4, 24GB). Eerlijke vergelijking met Qwen 3.5, Devstral, Phi-4 en de rest.
Wil je daar als eerste van horen? Volg me op LinkedIn of check regelmatig de blog.
Wil je weten welke AI-modellen het beste passen bij jouw bedrijf? Bekijk mijn AI voor het MKBpagina of plan een gesprek viaAI-architectuur.