Welke AI-modellen kun je lokaal draaien? Het overzicht voor 2026

Je hebt OpenAI of Anthropic niet nodig om goede AI te draaien. Er is een hele stapel open modellen die je gratis op je eigen machine zet, zonder dat je data je kantoor verlaat.

De vraag is niet óf het kan. De vraag is welk model je voor wat gebruikt. Dit is het overzicht: welke AI-modellen je lokaal kunt draaien in 2026, waar ze goed in zijn, en welke hardware je ervoor nodig hebt.

Eerst: wat bepaalt of een model op jouw machine past

Twee dingen, in gewone taal.

Geheugen. Een model moet in je werkgeheugen passen, niet alleen op je schijf. Past het niet, dan wordt een taak van een halve minuut ineens tien minuten, of het crasht. Vuistregel: deel het aantal miljarden parameters ongeveer door twee, dan heb je de gigabytes geheugen die je minimaal nodig hebt.

Het soort model. Een "dicht" model gebruikt zichzelf helemaal voor elk woord. Een mixture-of-experts-model activeert maar een klein stukje per woord, en draait daardoor veel sneller op dezelfde machine. Het hele model moet nog wel in je geheugen passen, maar groter is niet automatisch trager.

Welke machine je daarvoor onder je bureau zet, schreef ik uit in een eigen AI onder je bureau voor minder dan een laptop.

Open AI-modellen gerangschikt op grootte en toepassing
Van klein en snel tot groot en genuanceerd, per modelfamilie

De AI-modellen die je lokaal kunt draaien

Qwen (Alibaba)

De allrounder, en in mijn tests het beste in Nederlands. Er zijn kleine varianten van een paar gigabyte tot grote mixture-of-experts-modellen. De middenklasse is de zoete plek: genuanceerd genoeg voor klantcommunicatie, en het draait op een gewone machine met genoeg geheugen. Meer in Qwen lokaal draaien voor het MKB.

Google Gemma

Klein en zuinig. De compacte varianten draaien op vrijwel elke recente laptop en zijn verrassend goed voor hun formaat. Ideaal als eerste kennismaking, of voor snelle taken waar je geen zwaar model voor nodig hebt. Concrete toepassingen in Google Gemma: modellen en use cases.

Mistral (Devstral en Codestral)

Het werkpaard. Snel, compact, en in mijn benchmark de beste prijs-kwaliteit voor dagelijkse Nederlandse teksten. Codestral en Devstral zijn ook sterk in code. Als je één model wilt kiezen voor doodgewoon werk, begin hier.

Meta Llama

De bekende naam. Breed inzetbaar, goed gedocumenteerd, een grote gemeenschap eromheen. De grote varianten (70 miljard parameters) zijn capabel maar traag op betaalbare hardware. Voor de meeste MKB-taken is een kleiner model praktischer.

DeepSeek

Groot en sterk in redeneren. Dit zijn de modellen die tegen de frontier aanzitten, maar ze vragen serieus geheugen. Voor wie echt zwaar werk lokaal wil draaien en de hardware heeft.

Microsoft Phi

Piepklein, en het bokst boven zijn gewicht. Een model van iets meer dan twee gigabyte dat snelle eerste drafts levert op een machine met 8 gigabyte geheugen. Niet voor de fijne nuance, wel voor tempo.

OpenAI gpt-oss

OpenAI's eigen open modellen. Mixture-of-experts, dus zelfs de grote variant draait bruikbaar op een betaalbaar werkstation. Een serieuze optie sinds ze er zijn.

📖 Lees ook: Gratis AI-teksten schrijven, volledig lokaal: hoe je zonder abonnement teksten genereert op je eigen machine.

Welk model voor welke taak

Geen ranglijst, maar een nuchtere koppeling:

  • Social posts, e-mails, eerste drafts: een klein model (Gemma, Phi, kleine Mistral). Snel, draait overal.
  • Klantcommunicatie en offertes met nuance: een groter model met goed Nederlands (Qwen middenklasse). Hier telt elke nuance.
  • Code: Codestral, Devstral of een Qwen-coder-variant.
  • Zwaar redeneerwerk: DeepSeek of een groot mixture-of-experts-model, mits je de hardware hebt.

De cijfers achter deze keuzes (snelheid, compleetheid, kwaliteit per model) testte ik op echte MKB-taken in mijn benchmark van 8 lokale modellen.

Kiezen is pas stap één. Meerdere modellen laten samenwerken, elk op de taak waar het in uitblinkt, is stap twee, en hoe betrouwbaar dat lukt meet ik nu in een eigen test waar ik binnenkort op terugkom.

Waar je ze op draait

Een model is niets zonder een machine eronder. Drie routes:

De software om ze te draaien is gratis. Met Ollama heb je een model in vijf minuten draaiend, zonder account.

Veelgestelde vragen

Begin met één model

Het hele veld overzien is leuk, maar je leert het meeste door te draaien. Kies één model dat bij je belangrijkste taak past, installeer Ollama, en test het op echt werk uit je eigen bedrijf.

De rest van het overzicht hierboven loopt niet weg. Je breidt uit zodra je weet wat je mist.

Wil je hulp bij de keuze, en bij wat je er daarna omheen bouwt? Bekijk hoe ik AI-systemen voor het MKB ontwerp, of volg me op LinkedIn waar ik dit soort keuzes hardop maak.

Vincent van Deth

AI Strategy & Architecture

Vincent van Deth bouwt productiesystemen met AI voor het MKB. Hij is de maker van VNX, een multi-agent LLM orchestrator, en helpt teams betrouwbare AI-automatisering te shippen — zonder bullshit.

Reacties

Je e-mailadres wordt niet gepubliceerd. Reacties worden beoordeeld voor plaatsing.

Reacties laden...