Je hebt OpenAI of Anthropic niet nodig om goede AI te draaien. Er is een hele stapel open modellen die je gratis op je eigen machine zet, zonder dat je data je kantoor verlaat.
De vraag is niet óf het kan. De vraag is welk model je voor wat gebruikt. Dit is het overzicht: welke AI-modellen je lokaal kunt draaien in 2026, waar ze goed in zijn, en welke hardware je ervoor nodig hebt.
Eerst: wat bepaalt of een model op jouw machine past
Twee dingen, in gewone taal.
Geheugen. Een model moet in je werkgeheugen passen, niet alleen op je schijf. Past het niet, dan wordt een taak van een halve minuut ineens tien minuten, of het crasht. Vuistregel: deel het aantal miljarden parameters ongeveer door twee, dan heb je de gigabytes geheugen die je minimaal nodig hebt.
Het soort model. Een "dicht" model gebruikt zichzelf helemaal voor elk woord. Een mixture-of-experts-model activeert maar een klein stukje per woord, en draait daardoor veel sneller op dezelfde machine. Het hele model moet nog wel in je geheugen passen, maar groter is niet automatisch trager.
Welke machine je daarvoor onder je bureau zet, schreef ik uit in een eigen AI onder je bureau voor minder dan een laptop.

De AI-modellen die je lokaal kunt draaien
Qwen (Alibaba)
De allrounder, en in mijn tests het beste in Nederlands. Er zijn kleine varianten van een paar gigabyte tot grote mixture-of-experts-modellen. De middenklasse is de zoete plek: genuanceerd genoeg voor klantcommunicatie, en het draait op een gewone machine met genoeg geheugen. Meer in Qwen lokaal draaien voor het MKB.
Google Gemma
Klein en zuinig. De compacte varianten draaien op vrijwel elke recente laptop en zijn verrassend goed voor hun formaat. Ideaal als eerste kennismaking, of voor snelle taken waar je geen zwaar model voor nodig hebt. Concrete toepassingen in Google Gemma: modellen en use cases.
Mistral (Devstral en Codestral)
Het werkpaard. Snel, compact, en in mijn benchmark de beste prijs-kwaliteit voor dagelijkse Nederlandse teksten. Codestral en Devstral zijn ook sterk in code. Als je één model wilt kiezen voor doodgewoon werk, begin hier.
Meta Llama
De bekende naam. Breed inzetbaar, goed gedocumenteerd, een grote gemeenschap eromheen. De grote varianten (70 miljard parameters) zijn capabel maar traag op betaalbare hardware. Voor de meeste MKB-taken is een kleiner model praktischer.
DeepSeek
Groot en sterk in redeneren. Dit zijn de modellen die tegen de frontier aanzitten, maar ze vragen serieus geheugen. Voor wie echt zwaar werk lokaal wil draaien en de hardware heeft.
Microsoft Phi
Piepklein, en het bokst boven zijn gewicht. Een model van iets meer dan twee gigabyte dat snelle eerste drafts levert op een machine met 8 gigabyte geheugen. Niet voor de fijne nuance, wel voor tempo.
OpenAI gpt-oss
OpenAI's eigen open modellen. Mixture-of-experts, dus zelfs de grote variant draait bruikbaar op een betaalbaar werkstation. Een serieuze optie sinds ze er zijn.
📖 Lees ook: Gratis AI-teksten schrijven, volledig lokaal: hoe je zonder abonnement teksten genereert op je eigen machine.
Welk model voor welke taak
Geen ranglijst, maar een nuchtere koppeling:
- Social posts, e-mails, eerste drafts: een klein model (Gemma, Phi, kleine Mistral). Snel, draait overal.
- Klantcommunicatie en offertes met nuance: een groter model met goed Nederlands (Qwen middenklasse). Hier telt elke nuance.
- Code: Codestral, Devstral of een Qwen-coder-variant.
- Zwaar redeneerwerk: DeepSeek of een groot mixture-of-experts-model, mits je de hardware hebt.
De cijfers achter deze keuzes (snelheid, compleetheid, kwaliteit per model) testte ik op echte MKB-taken in mijn benchmark van 8 lokale modellen.
Kiezen is pas stap één. Meerdere modellen laten samenwerken, elk op de taak waar het in uitblinkt, is stap twee, en hoe betrouwbaar dat lukt meet ik nu in een eigen test waar ik binnenkort op terugkom.
Waar je ze op draait
Een model is niets zonder een machine eronder. Drie routes:
- De Mac die je al hebt. Met 16 of 24 gigabyte geheugen draai je de meeste taken. Waarom een Mac daar goed voor is, lees je in waarom een Mac de beste keuze is om AI lokaal te draaien.
- Een eigen werkstation van 2.000 tot 5.000 dollar (DGX Spark, AMD Strix Halo) voor wie groter wil.
- De compromisloze tier van 85.000 dollar, voor gereguleerde sectoren. Wat die prijs echt koopt, staat in een AI-supercomputer onder je bureau.
De software om ze te draaien is gratis. Met Ollama heb je een model in vijf minuten draaiend, zonder account.
Veelgestelde vragen
Begin met één model
Het hele veld overzien is leuk, maar je leert het meeste door te draaien. Kies één model dat bij je belangrijkste taak past, installeer Ollama, en test het op echt werk uit je eigen bedrijf.
De rest van het overzicht hierboven loopt niet weg. Je breidt uit zodra je weet wat je mist.
Wil je hulp bij de keuze, en bij wat je er daarna omheen bouwt? Bekijk hoe ik AI-systemen voor het MKB ontwerp, of volg me op LinkedIn waar ik dit soort keuzes hardop maak.