Google Gemma 4: Wat Elk Model Kan en Waar Je Het Voor Inzet

Google heeft Gemma 4 gelanceerd op Google Cloud Next — en dit is geen kleine update. Vier modellen, van een 2B-versie die op een Raspberry Pi draait tot een 31B-model dat concurreert met modellen die 20x groter zijn. En voor het eerst onder Apache 2.0: volledig open source, geen restricties voor commercieel gebruik.

Ik heb eerder 8 lokale modellen getest op mijn Mac Mini M4enQwen3.5 uitgebreid geanalyseerd. Gemma 4 is de volgende die ik ga benchmarken — maar eerst wil ik uitleggen wat elk model kan, waar je het voor inzet, en of het relevant is voor jouw werk.

De vier modellen

Gemma 4 is geen enkel model maar een familie van vier, elk gebouwd op dezelfde architectuur als Gemini 3 (Google's commerciële topmodel). Het "E" in de naam staat voor Effective Parameters — het werkelijke aantal parameters dat actief meerekent.

Gemma 4 E2B — De edge-runner

Parameters2.3B effectief (5.1B totaal incl. embeddings)
Context128K tokens
RAM nodig~4GB
Draait opRaspberry Pi, Android, IoT devices
ModaliteitenTekst, afbeeldingen, audio

Het kleinste model, maar verrassend capabel. E2B is ontworpen voor apparaten waar je normaal geen AI op verwacht — je telefoon, een Raspberry Pi, een IoT-sensor. Het verwerkt niet alleen tekst maar ook afbeeldingen en audio.

Waar je het voor inzet:Lokale chatbot op je telefoon die offline werkt. Samenvatten van documenten op een tablet. Audio-transcriptie zonder cloudverbinding. Ideaal als je data je apparaat niet mag verlaten — denk aan medische of juridische toepassingen. (Twijfel je over wat mag van de AVG? LeesAI en AVG: wat mag wel en wat niet.)

Beperkingen: Te klein voor complexe code generatie of lange marketingteksten. Gebruik het voor snelle, gerichte taken.

Gemma 4 E4B — De allrounder

Parameters4.5B effectief (8B totaal)
Context128K tokens
RAM nodig~8GB
Draait opLaptops, desktops met 16GB RAM
ModaliteitenTekst, afbeeldingen, audio, video

Dit is het default model — als je ollama pull gemma4 draait, krijg je E4B. Het is de sweet spot tussen kwaliteit en snelheid. Past comfortabel op een laptop met 16GB RAM en verwerkt alles: tekst, afbeeldingen, audio en zelfs video.

Waar je het voor inzet: Dagelijkse code-assistent naast je editor. Nederlandse e-mails samenvatten. Productbeschrijvingen genereren. Facturen scannen (OCR ingebouwd). Het model dat je continu draait voor ad-hoc taken.

Beperkingen: Voor complexe code-architectuur of lange analyses zijn de grotere modellen beter. Maar voor 80% van de dagelijkse taken is E4B meer dan voldoende.

Gemma 4 26B MoE — De slimme shortcut

Parameters3.8B actief / 25.2B totaal (128 experts, 8 actief)
Context256K tokens
RAM nodig~20GB (24GB aanbevolen)
Draait opMac Mini M4 (24GB), gaming PC's met RTX 4090
ModaliteitenTekst, afbeeldingen
Snelheid45-60 tok/s op high-end GPU's

Dit is het meest interessante model in de familie. Mixture of Experts (MoE) betekent dat het 128 gespecialiseerde "experts" heeft, maar per vraag slechts 8 activeert. Het resultaat: de kwaliteit van een 13B dense model, de snelheid van een 4B model, op hardware die je al hebt.

Nummer 6 op de Arena AI leaderboard (1441 Elo) — dat is indrukwekkend voor een model dat effectief maar 3.8B parameters activeert.

Waar je het voor inzet: Dit is het werkpaard voor productie-workflows. Code generatie en review waar je snelheid nodig hebt. Batch-verwerking van marketingteksten. Lange documenten analyseren (256K context = ~400 pagina's). Het model dat je draait als je wilt dat AI continu meerdere taken parallel afhandelt.

Op mijn Mac Mini M4 (24GB):Dit model past precies. Ik ben benieuwd hoe het presteert versus deQwen- en Devstral-modellen uit mijn vorige benchmark — dat komt in een volgende blog.

Gemma 4 31B Dense — Het topmodel

Parameters30.7B
Context256K tokens
RAM nodig24GB+ (32GB aanbevolen)
Draait opMac Studio, high-end GPU's (RTX 4090 in Q4)
ModaliteitenTekst, afbeeldingen
Snelheid~25 tok/s op RTX 4090 (Q4)

Het flagship model. Nummer 3 op de Arena AI leaderboard (1452 Elo) — alleen twee closed-source modellen scoren hoger. Dit model overtreft modellen die 20x groter zijn.

De benchmark-resultaten zijn indrukwekkend:

BenchmarkGemma 4 31BQwen 3.5 27BLlama 4 Scout
AIME 2026 (wiskunde)89.2%~85%N/A
Codeforces (coding)2150 Elo~1900~1400
MMLU Pro (kennis)85.2%86.1%~80%
LiveCodeBench v680.0%83.6%~68%

Beste in klasse voor wiskunde en competitieve coding. Iets onder Qwen 3.5 op algemene kennis en geavanceerde code, maar ver boven Llama 4.

Waar je het voor inzet: Complexe architectuurbeslissingen. Code reviews van grote codebases (256K context). Diepgaande analyses waar kwaliteit belangrijker is dan snelheid. Fine-tuning voor gespecialiseerde taken.

Beperkingen: Langzamer dan het MoE model (~25 tok/s vs 45-60 tok/s). Vereist meer hardware. Voor de meeste dagelijkse taken is het 26B MoE model efficiënter.

Wat is nieuw in Gemma 4

Drie dingen maken Gemma 4 fundamenteel anders dan zijn voorgangers.

1. Apache 2.0 licentie. Gemma 1 t/m 3 hadden Google's eigen licentie met beperkingen. Gemma 4 is volledig open source onder Apache 2.0 — dezelfde licentie als Kubernetes, TensorFlow, en Android. Geen restricties voor commercieel gebruik. VentureBeat noemt deze licentiewijziging mogelijk belangrijker dan de benchmarks zelf.

2. Thinking mode. Alle modellen hebben ingebouwde stap-voor-stap reasoning — vergelijkbaar met wat je kent van o1 of DeepSeek R1. Het model denkt eerst na, dan antwoordt. Configureerbaar per request.

3. Agentic-first ontwerp. Native function calling, gestructureerde JSON output, multi-step planning. Deze modellen zijn gebouwd om als AI-agents te functioneren — niet alleen als tekst-generators.

Use case: coding

De coding capabilities zijn waar Gemma 4 echt uitblinkt. Een Codeforces Elo van 2150 (31B) is het hoogste van alle open modellen — hoger dan Qwen 3.5 en ver boven Llama 4.

Wat je ermee kunt:

  • Lokale code-assistent — draai E4B naast je editor, geen cloud nodig, geen maandelijkse kosten
  • Code review — 256K context laat je hele repositories analyseren in één sessie
  • Debugging — thinking mode + agentic capabilities = stap-voor-stap foutanalyse
  • Function calling — bouw AI-tools die API's aanroepen, bestanden bewerken, en workflows uitvoeren

📖 Lees ook: Mijn AI Development Stack: Tools, Workflow en Wat het Kost — De tools en kosten achter mijn complete AI-workflow

Welk model voor coding:

  • Snelle fixes en autocompletie → E4B
  • Productie-workflows en batch-verwerking → 26B MoE
  • Architectuurbeslissingen en complexe reviews → 31B Dense

Use case: marketing en content

Voor marketing is de situatie genuanceerder. Gemma 4 ondersteunt 140+ talen inclusief Nederlands, maar er zijn geen specifieke Nederlandse benchmarks beschikbaar bij launch.

Wat je ermee kunt:

  • Blogposts en artikelen — lange context (256K) maakt uitgebreide content generatie mogelijk
  • Social media — korte teksten, variaties, A/B-test versies
  • E-mail campagnes — gepersonaliseerde templates op basis van klantdata
  • Document analyse — facturen, offertes, contracten samenvatten (OCR ingebouwd)
  • Vertaling — Nederlands ↔ Engels en 140+ andere talen

Welk model voor marketing:

  • Dagelijkse teksten en samenvattingen → E4B
  • Batch content generatie → 26B MoE
  • Kwaliteitscontent die publicatie-klaar moet zijn → 31B Dense

Eerlijk advies: voor Nederlandse marketingteksten is Qwen 3.5 momenteel sterker — het heeft 201 talen en is specifiek getraind op breed taalgebruik. Ik ga dit benchmarken in een volgende blog. Maar voor Engelse content en technische documentatie is Gemma 4 een serieuze concurrent.

📖 Lees ook: AI-teksten schrijven zonder ChatGPT: 6 gratis modellen getest — Hoe lokale modellen presteren op echte Nederlandse marketingtaken

Lokaal draaien

Alle modellen draaien lokaal via Ollama — dag 1 support, één commando:

bash
# Default model (E4B, ~8GB RAM)
ollama pull gemma4

# Alle varianten
ollama pull gemma4:e2b    # Raspberry Pi / telefoon
ollama pull gemma4:26b    # Mac Mini M4 / gaming PC
ollama pull gemma4:31b    # High-end GPU / Mac Studio

# Draaien
ollama run gemma4

Wat heb je nodig:

ModelMinimum RAMAanbevolenVoorbeeld hardware
E2B4GB8GBRaspberry Pi, Android
E4B8GB16GBLaptop, desktop
26B MoE20GB24GBMac Mini M4, RTX 4090
31B Dense24GB+32GBMac Studio, RTX 4090 (Q4)

📖 Lees ook: Mac als Beste Keuze om AI Lokaal te Draaien — Waarom Apple Silicon ideaal is voor lokale AI modellen.

Vergelijking met concurrenten

Gemma 4 31BQwen 3.5 27BLlama 4 Scout
Parameters30.7B27B109B (17B actief)
Wiskunde (AIME)89.2%~85%N/A
Coding (Codeforces)2150~1900~1400
Kennis (MMLU Pro)85.2%86.1%~80%
Context256K128K10M
Talen140+201~200
LicentieApache 2.0Apache 2.0Llama Community
Lokaal (24GB)Ja (Q4)JaNee (te groot)

Samengevat: Gemma 4 wint op wiskunde en coding. Qwen 3.5 wint op algemene kennis en meertaligheid. Llama 4 Scout heeft een enorm contextvenster maar past niet op consumer hardware. Alle drie draaien lokaal — behalve Llama 4 Scout.

Veelgestelde vragen

Wat komt er aan

Ik ga het Gemma 4 26B MoE en 31B model toevoegen aan mijn lokale LLM benchmark — dezelfde taken (SEOcrawler code, bash-naar-Python migratie, Nederlandse marketingteksten) op dezelfde hardware (Mac Mini M4, 24GB). Eerlijke vergelijking met Qwen 3.5, Devstral, Phi-4 en de rest.

Wil je daar als eerste van horen? Volg me op LinkedIn of check regelmatig de blog.

Wil je weten welke AI-modellen het beste passen bij jouw bedrijf? Bekijk mijn AI voor het MKBpagina of plan een gesprek viaAI-architectuur.

Vincent van Deth

AI Strategy & Architecture

Vincent van Deth bouwt productiesystemen met AI voor het MKB. Hij is de maker van VNX, een multi-agent LLM orchestrator, en helpt teams betrouwbare AI-automatisering te shippen — zonder bullshit.

Reacties

Je e-mailadres wordt niet gepubliceerd. Reacties worden beoordeeld voor plaatsing.

Reacties laden...