Qwen3.5 Lokaal Draaien: Waarom Dit AI-Model Alles Verandert voor het MKB

Stel je voor: een AI-assistent die je klantmails samenvat, je offertes doorleest, en marketinganalyses draait. Maar dan zonder dat je data je kantoor verlaat. Zonder maandelijkse abonnementskosten. En zonder dat je afhankelijk bent van een Amerikaans techbedrijf.

Dat is precies wat er deze week is veranderd. Alibaba bracht Qwen3.5 uit — een serie AI-modellen die slimmer zijn dan veel grotere concurrenten, maar op een gewone kantoorlaptop of Mac Mini draaien. Volledig lokaal. Ik test het sinds twee dagen en ben nu al enthousiast.

In dit artikel leg ik uit wat dit voor jouw bedrijf betekent. Geen technisch jargon — gewoon: wat kan het, wat kost het, en hoe begin je ermee? (Wil je meteen zelf aan de slag? Spring naar de installatie-instructies — het kost je een kwartier.)

Waarom AI lokaal draaien interessant is voor het MKB

Als je nu ChatGPT of Claude gebruikt, typ je je vraag in een chatvenster en stuurt die tekst naar servers in Amerika. Je klantdata, je financiële gegevens, je interne documenten — alles gaat het internet over.

Voor veel MKB-bedrijven is dat een probleem:

  • AVG/privacy: klantgegevens verwerken via een Amerikaanse clouddienst roept juridische vragen op
  • Vertrouwelijkheid: je wilt niet dat concurrentiegevoelige informatie op externe servers staat
  • Kosten: ChatGPT Plus kost €24/maand per gebruiker, zakelijke AI-tools al snel €100+/maand
  • Afhankelijkheid: als OpenAI morgen de prijzen verdubbelt of de service wijzigt, heb je geen alternatief

AI lokaal draaien lost al deze problemen op. Je data blijft op je eigen hardware. Je betaalt alleen stroom. En je bent van niemand afhankelijk.

Het probleem was altijd: lokale modellen waren te dom voor serieus werk. Tot nu.

Wat maakt Qwen3.5 anders — in gewone taal

Alibaba's Qwen-team bracht op 1 maart 2026 vier modellen uit, van heel klein (past op je telefoon) tot behoorlijk krachtig (draait op een kantoorcomputer). Het bijzondere:

Het begrijpt tekst én beeld tegelijk

De meeste AI-tools zijn gescheiden: je hebt een tekst-AI en een aparte beeld-AI. Qwen3.5 is van nature multimodaal — het verwerkt tekst en beeld in dezelfde "hersenen." Wat betekent dat voor jou als ondernemer?

  • Je kunt een foto van een factuur uploaden en het model haalt automatisch bedragen, datums en btw-nummers eruit
  • Je stuurt een screenshot van een concurrentwebsite en het analyseert de opzet, prijsstrategie en USP's
  • Je deelt een productfoto en het schrijft een productbeschrijving op basis van wat het ziet

Bij andere lokale modellen moet je dit soort taken apart afhandelen. Qwen3.5 doet het in één model — sneller, goedkoper, en zonder gedoe.

Het onthoudt meer dan ChatGPT

Elk AI-model heeft een "geheugen" voor je gesprek — het zogenaamde context window. Hoe groter dat venster, hoe meer informatie het model tegelijk kan verwerken.

ModelContext windowIn gewone taal
ChatGPT-4o128.000 tokens~200 pagina's tekst
Claude Sonnet200.000 tokens~300 pagina's tekst
Qwen3.5-9B262.000 tokens~400 pagina's tekst
Qwen3.5-0.8B262.000 tokens~400 pagina's op je telefoon

Je leest dat goed: zelfs het allerkleinste Qwen3.5 model — dat op een telefoon draait — heeft een groter geheugen dan ChatGPT. Dat betekent dat je complete handleidingen, contracten, of klantdossiers in één keer kunt laten analyseren, zonder dat het model halverwege de draad kwijtraakt.

Het is verbluffend slim voor zijn formaat

Het grootste model in de serie (9B — "9 miljard parameters") verslaat modellen die 13× groter zijn op wiskunde en code. Het scoort hoger dan GPT-5-Nano op beeldherkenning. Elon Musk noemde het "intelligence density" — meer slimheid per gram hardware.

In de praktijk: een model dat op een computer van €800 draait, presteert vergelijkbaar met cloud-AI waar je maandelijks voor betaalt.

Qwen3.5 modeloverzicht: van telefoon tot werkstation, met prestaties per model

Concrete toepassingen voor het MKB

Genoeg achtergrond. Wat kun je er daadwerkelijk mee? Hier zijn zes toepassingen die ik MKB-ondernemers direct aanraad:

1. Email- en documentverwerking

Het klassieke MKB-pijnpunt: bergen email, offertes, en contracten die handmatig doorgelezen moeten worden. Een lokaal AI-model kan:

  • Inkomende email classificeren op urgentie (direct actie / deze week / informatief)
  • Offertes samenvatten tot kernpunten: prijs, levertijd, voorwaarden
  • Contracten doorlezen en afwijkende clausules markeren
  • Facturen verwerken — inclusief foto's van papieren facturen (multimodaal)

En dat alles zonder dat je klantgegevens naar een externe server stuurt.

2. Marketing en contentanalyse

Je concurrent lanceert een nieuwe website. Je wilt je eigen SEO-prestaties analyseren. Je moet 50 productbeschrijvingen schrijven. Allemaal taken waar AI bij helpt — maar waar je misschien niet je volledige marketingstrategie door ChatGPT wilt jagen.

  • Concurrentanalyses draaien op basis van screenshots en websiteteksten
  • SEO-content laten genereren op basis van je zoekwoordenlijst
  • Social media posts in bulk laten voorbereiden
  • Klantreviews analyseren op terugkerende patronen en sentimenten

📖 Lees ook: Effectief Marketingplan voor het MKB — Hoe je een marketingplan bouwt dat daadwerkelijk werkt

3. Klantenservice automatiseren

Niet met een chatbot die "ik begrijp uw vraag niet" antwoordt, maar met een AI die je kennisbank begrijpt:

  • FAQ-vragen beantwoorden op basis van je eigen documentatie
  • Klantvragen classificeren en doorsturen naar de juiste persoon
  • Standaardantwoorden opstellen die medewerkers kunnen aanpassen en versturen

Omdat het context window zo groot is, kun je je complete productcatalogus of servicebeschrijving in één keer meegeven als achtergrondkennis.

4. Interne kennisbank doorzoekbaar maken

Elk MKB heeft dat ene probleem: kennis zit in de hoofden van medewerkers, in losse bestanden, en in emaildraden. Een lokaal AI-model kan fungeren als een slimme zoeklaag:

  • Procedures en handleidingen doorzoeken in gewone taal
  • "Hoe deden we dat ook alweer?"-vragen beantwoorden op basis van interne documenten
  • Nieuwe medewerkers inwerken met een AI die het bedrijfshandboek kent

5. Financiële en data-analyse

  • Kwartaalcijfers samenvatten in management-taal
  • Verkoopdata analyseren op trends en uitschieters
  • Begrotingsafwijkingen markeren en mogelijke oorzaken suggereren

6. Vertalingen met context

Nederlands-Engels en vice versa, maar dan met begrip van je vakjargon. Upload je woordenlijst of eerdere vertalingen, en het model past zich aan jouw terminologie aan.

Zes MKB-toepassingen: email, marketing, klantenservice, kennisbank, finance, vertalingen

De eerlijke vergelijking: lokaal vs. cloud

Lokale AI is niet altijd beter. Dit is de eerlijke afweging:

Lokaal (Qwen3.5)Cloud (ChatGPT/Claude)
PrivacyData blijft op je hardwareData gaat naar externe servers
KostenEenmalig (hardware) + stroom€24-100+/maand per gebruiker
SnelheidAfhankelijk van je hardwareConsistent snel
Intelligentie9B ≈ middenklasse cloud-AITopmodellen zijn slimmer
Complexe takenGoed voor routinewerkBeter voor complexe analyse
Beschikbaarheid24/7, geen internet nodigAfhankelijk van internet/uptime
Setup15 minuten (zie onder)Account aanmaken

Mijn advies: gebruik lokale AI voor routinetaken met gevoelige data (email, documenten, klantinfo). Gebruik cloud-AI voor complexe eenmalige analyses waar je de beste intelligentie nodig hebt. Je hoeft niet te kiezen — je kunt beide combineren.

Alternatieven voor Qwen3.5

Eerlijkheid gebiedt: Qwen3.5 is niet de enige optie. Dit zijn de alternatieven en waar ze sterk in zijn:

ModelVanSterkteBeperking
Gemma 3 4B/12BGoogleSterk in meerdere talenBeeld minder goed geïntegreerd
Phi-4-mini 3.8BMicrosoftUitstekend in redenerenBegrijpt geen beelden
Llama 3.2 11BMetaGrote communityKleiner geheugen (128K vs 262K)
DeepSeek-R1 7BDeepSeekKampioen in wiskunde/codeBegrijpt geen beelden

Qwen3.5 onderscheidt zich doordat het als enige alles combineert: tekst + beeld + groot geheugen + hoge intelligentie op consumentenhardware.

Zelf aan de slag: in 15 minuten draait het

Het mooie: je hebt geen technische achtergrond nodig. De tooling is inmiddels zo gebruiksvriendelijk dat het installeren van een lokaal AI-model niet moeilijker is dan een app downloaden.

Stap 1: Installeer Ollama

Ollama is een gratis programma dat lokale AI-modellen beheert. Ga naar ollama.com, download het voor je besturingssysteem, en installeer het. Klaar.

Stap 2: Download het model

Open je terminal (Mac: zoek op "Terminal"; Windows: zoek op "Opdrachtprompt") en typ:

bash
ollama pull qwen3.5:9b

Dit downloadt het 9B model — de beste balans tussen slimheid en snelheid. Het model is ~6GB groot, dus het duurt even afhankelijk van je internetsnelheid.

Stap 3: Stel je eerste vraag

bash
ollama run qwen3.5:9b "Vat de volgende tekst samen in 3 bulletpoints: [plak je tekst hier]"

Dat is het. Geen account. Geen API-sleutel. Geen maandelijkse factuur.

Bonus: ChatGPT-achtige interface

Wil je een vertrouwd chatvenster in plaats van de terminal? Installeer Open WebUI — een gratis interface die eruitziet als ChatGPT maar lokaal draait. Je kunt dan gewoon in je browser chatten met je lokale model.

Welke hardware heb je nodig?

  • Minimaal: laptop met 8GB RAM → draait het 0.8B of 2B model (basisassistent)
  • Goed: computer met 16GB RAM → draait het 4B model (volwaardige assistent)
  • Optimaal: Mac Mini M4 of PC met 24GB+ → draait het 9B model (best presterende)

📖 Lees ook: Waarom een Mac de Beste Keuze Is voor AI Lokaal Draaien — Wat unified memory is, welke Mac bij jouw budget past, en waarom de energierekening ertoe doet

Hoe ik het zelf gebruik: drie generaties, steeds beter

Als AI Architect bouw ik productiesystemen met meerdere AI-modellen. Lokale modellen zijn daar al maanden onderdeel van. Maar de kwaliteit is met elke generatie flink gesprongen.

De weg hiernaartoe

Ik begon met Qwen2.5-Coder:14B — een puur code-model. Goed voor eenvoudige taken, maar bij complexere opdrachten moest ik de output vaak flink corrigeren. Het was nuttig, maar voelde meer als een snelle eerste draft die ik dan handmatig moest afmaken.

Daarna stapte ik over op Qwen3-Coder-Flash (30B-A3B) — een MoE-model met 30 miljard parameters waarvan er slechts 3 miljard tegelijk actief zijn. Sneller, slimmer voor code, maar nog steeds puur tekst — geen beeldbegrip, en bij langere opdrachten raakte het de draad kwijt.

Nu draai ik Qwen3.5 en het verschil is merkbaar. De 9B begrijpt beeld én tekst, houdt veel langere gesprekken vast (262K context), en levert bij routinetaken output die ik direct kan gebruiken zonder correcties. De sprong van 2.5 naar 3.5 voelt niet als een update — het voelt als een generatiewisseling.

Mijn huidige setup op de Mac Mini M4

Met 24GB geheugen draai ik een twee-model strategie:

Overdagdraai ik het9B model voor snelle taken: bestanden doorzoeken, berichten classificeren, samenvattingen maken. Het reageert in real-time — snel genoeg voor interactief werk.

's Nachtsschakel ik over naar het27B model — groter, slimmer, maar langzamer. Het pakt taken op die ik klaarzet: standaardcode schrijven, documentatie genereren, repetitieve bewerkingen uitvoeren.

's Ochtends review ik de output. Complexere code wordt al verrassend goed geschreven — Claude vindt nog verbeterpunten, maar de basis klopt. En doordat mijn agents zelflerend zijn, worden de opdrachten steeds gerichter. Het systeem leert welke taken het lokale model in één keer foutloos kan uitvoeren, en stuurt daar steeds meer van die gerichte opdrachten naartoe. Het resultaat: elke nacht meer werk dat 's ochtends direct bruikbaar is, zonder correcties achteraf.

Waar ik met Qwen2.5-Coder nog 60-70% van de nachtelijke output moest herschrijven, is dat bij Qwen3.5 gedaald naar minder dan 20%. Dat is het verschil tussen "leuk experiment" en "productiewaardige tool."

Twee-model strategie: snel model overdag, slim model 's nachts, review 's ochtends

Dat is het punt: je computer werkt de hele nacht door terwijl jij slaapt. Zonder API-kosten. Zonder datalekken. En 's ochtends ligt er werk klaar dat je uren handmatig typen bespaart.

📖 Lees ook: Claude Agent Teams vs. je eigen multi-agent systeem — Hoe ik cloud- en lokale modellen combineer in één architectuur

De bottleneck is doorbroken

De afgelopen jaren was het verhaal steeds hetzelfde: lokale AI was óf slim genoeg maar te groot voor normale hardware, óf klein genoeg maar te dom voor serieus werk.

Qwen3.5 doorbreekt die trade-off. Een model dat op een kantoorcomputer draait en presteert op het niveau van cloud-AI. Dat tekst én beeld begrijpt. Met een geheugen dat groter is dan ChatGPT.

Voor het MKB betekent dit: je hoeft niet te kiezen tussen privacy en intelligentie. Tussen kosten en kwaliteit. Tussen cloud-afhankelijkheid en bruikbare AI.

De modellen zijn er. De hardware staat al op je bureau. De installatie kost een kwartier. De vraag is niet meer of lokale AI werkt voor jouw bedrijf — maar wanneer je begint.


Wil je weten welke AI-setup past bij jouw bedrijf? Ik help MKB-ondernemers met het ontwerpen van AI-architecturen die werken — lokaal, in de cloud, of een combinatie. Plan een gratis kennismakingsgesprek en we bekijken samen wat voor jou de beste eerste stap is.

Vincent van Deth

AI Strategy & Architecture

Met jarenlange ervaring in marketingstrategie en AI-architectuur help ik bedrijven om hun groeipotentieel te maximaliseren met data-gedreven inzichten en AI-automatisering.

Mijn expertise ligt in het ontwerpen van AI-agent workflows, het strategisch inzetten van multi-agent systemen en het verbeteren van processen door schaalbare, auditeerbare oplossingen.

Of het nu gaat om het verfijnen van je AI-strategie, het selecteren van de juiste modellen of het implementeren van governance voor AI-gestuurde processen — ik bied maatwerkadvies dat leidt tot meetbare resultaten.

Gerelateerde artikelen

Reacties

Je e-mailadres wordt niet gepubliceerd. Reacties worden beoordeeld voor plaatsing.

Reacties laden...