Een AI-assistent die je klantmails samenvat, je offertes doorleest, en marketinganalyses draait. Zonder dat je data je kantoor verlaat. Zonder maandelijkse abonnementskosten. En zonder dat je afhankelijk bent van een Amerikaans techbedrijf.

Dat is precies wat Qwen3.5 mogelijk maakt. Alibaba bracht deze week een serie AI-modellen uit die slimmer zijn dan veel grotere concurrenten, maar op een gewone kantoorlaptop of Mac Mini draaien. Volledig lokaal. Ik test het sinds twee dagen en de kwaliteitssprong ten opzichte van vorige generaties is direct merkbaar.

📖 Lees ook: Waarom geen subagents? Wat ik in plaats daarvan bouw: waarom modelkeuze minder uitmaakt dan architectuurkeuze

Hieronder: wat het kan, wat het kost, en hoe je begint. (Wil je meteen aan de slag? Spring naar de installatie-instructies. Het kost je een kwartier.)

Waarom AI lokaal draaien interessant is voor het MKB

Als je nu ChatGPT of Claude gebruikt, typ je je vraag in een chatvenster en stuurt die tekst naar servers in Amerika. Je klantdata, je financiële gegevens, je interne documenten: alles gaat het internet over.

Voor veel MKB-bedrijven is dat een probleem:

AVG/privacy: klantgegevens verwerken via een Amerikaanse clouddienst roept juridische vragen op
Vertrouwelijkheid: je wilt niet dat concurrentiegevoelige informatie op externe servers staat
Kosten: ChatGPT Plus kost €24/maand per gebruiker, zakelijke AI-tools al snel €100+/maand
Afhankelijkheid: als OpenAI morgen de prijzen verdubbelt of de service wijzigt, heb je geen alternatief

AI lokaal draaien lost al deze problemen op. Je data blijft op je eigen hardware. Je betaalt alleen stroom. En je bent van niemand afhankelijk.

Het probleem was altijd: lokale modellen waren te dom voor serieus werk. Tot nu.

Wat maakt Qwen3.5 anders

Alibaba's Qwen-team bracht op 1 maart 2026 vier modellen uit, van heel klein (past op je telefoon) tot behoorlijk krachtig (draait op een kantoorcomputer). Het bijzondere:

Het begrijpt tekst én beeld tegelijk

De meeste AI-tools zijn gescheiden: je hebt een tekst-AI en een aparte beeld-AI. Qwen3.5 is van nature multimodaal: het verwerkt tekst en beeld in dezelfde "hersenen." Wat betekent dat voor jou als ondernemer?

Je kunt een foto van een factuur uploaden en het model haalt automatisch bedragen, datums en btw-nummers eruit
Je stuurt een screenshot van een concurrentwebsite en het analyseert de opzet, prijsstrategie en USP's
Je deelt een productfoto en het schrijft een productbeschrijving op basis van wat het ziet

Bij andere lokale modellen moet je dit soort taken apart afhandelen. Qwen3.5 doet het in één model: sneller, goedkoper, en zonder gedoe.

Het onthoudt meer dan ChatGPT

Elk AI-model heeft een "geheugen" voor je gesprek: het zogenaamde context window. Hoe groter dat venster, hoe meer informatie het model tegelijk kan verwerken.

Model	Context window	In gewone taal
ChatGPT-4o	128.000 tokens	~200 pagina's tekst
Claude Sonnet	200.000 tokens	~300 pagina's tekst
Qwen3.5-9B	262.000 tokens	~400 pagina's tekst
Qwen3.5-0.8B	262.000 tokens	~400 pagina's op je telefoon

Je leest dat goed: zelfs het allerkleinste Qwen3.5 model, dat op een telefoon draait, heeft een groter geheugen dan ChatGPT. Dat betekent dat je complete handleidingen, contracten, of klantdossiers in één keer kunt laten analyseren, zonder dat het model halverwege de draad kwijtraakt.

Het is verbluffend slim voor zijn formaat

Het grootste model in de serie (9B, "9 miljard parameters") verslaat modellen die 13× groter zijn op wiskunde en code. Het scoort hoger dan GPT-5-Nano op beeldherkenning. Elon Musk noemde het "intelligence density": meer slimheid per gram hardware.

In de praktijk: een model dat op een computer van €800 draait, presteert vergelijkbaar met cloud-AI waar je maandelijks voor betaalt.

Qwen3.5 modeloverzicht: van telefoon tot werkstation, met prestaties per model

Concrete toepassingen voor het MKB

Genoeg achtergrond. Wat kun je er daadwerkelijk mee? Hier zijn zes toepassingen die ik MKB-ondernemers direct aanraad:

1. Email- en documentverwerking

Het klassieke MKB-pijnpunt: bergen email, offertes, en contracten die handmatig doorgelezen moeten worden. Een lokaal AI-model kan:

Inkomende email classificeren op urgentie (direct actie / deze week / informatief)
Offertes samenvatten tot kernpunten: prijs, levertijd, voorwaarden
Contracten doorlezen en afwijkende clausules markeren
Facturen verwerken, inclusief foto's van papieren facturen (multimodaal)

En dat alles zonder dat je klantgegevens naar een externe server stuurt.

2. Marketing en contentanalyse

Je concurrent lanceert een nieuwe website. Je wilt je eigen SEO-prestaties analyseren. Je moet 50 productbeschrijvingen schrijven. Allemaal taken waar AI bij helpt, maar waar je misschien niet je volledige marketingstrategie door ChatGPT wilt jagen.

Concurrentanalyses draaien op basis van screenshots en websiteteksten
SEO-content laten genereren op basis van je zoekwoordenlijst
Social media posts in bulk laten voorbereiden
Klantreviews analyseren op terugkerende patronen en sentimenten

3. Klantenservice automatiseren

Niet met een chatbot die "ik begrijp uw vraag niet" antwoordt, maar met een AI die je kennisbank begrijpt:

FAQ-vragen beantwoorden op basis van je eigen documentatie
Klantvragen classificeren en doorsturen naar de juiste persoon
Standaardantwoorden opstellen die medewerkers kunnen aanpassen en versturen

Omdat het context window zo groot is, kun je je complete productcatalogus of servicebeschrijving in één keer meegeven als achtergrondkennis.

4. Interne kennisbank doorzoekbaar maken

Elk MKB heeft dat ene probleem: kennis zit in de hoofden van medewerkers, in losse bestanden, en in emaildraden. Een lokaal AI-model kan fungeren als een slimme zoeklaag:

Procedures en handleidingen doorzoeken in gewone taal
"Hoe deden we dat ook alweer?"-vragen beantwoorden op basis van interne documenten
Nieuwe medewerkers inwerken met een AI die het bedrijfshandboek kent

5. Financiële en data-analyse

Kwartaalcijfers samenvatten in management-taal
Verkoopdata analyseren op trends en uitschieters
Begrotingsafwijkingen markeren en mogelijke oorzaken suggereren

6. Vertalingen met context

Nederlands-Engels en vice versa, maar dan met begrip van je vakjargon. Upload je woordenlijst of eerdere vertalingen, en het model past zich aan jouw terminologie aan.

Zes MKB-toepassingen: email, marketing, klantenservice, kennisbank, finance, vertalingen

De eerlijke vergelijking: lokaal vs. cloud

Lokale AI is niet altijd beter. Dit is de eerlijke afweging:

	Lokaal (Qwen3.5)	Cloud (ChatGPT/Claude)
Privacy	Data blijft op je hardware	Data gaat naar externe servers
Kosten	Eenmalig (hardware) + stroom	€24-100+/maand per gebruiker
Snelheid	Afhankelijk van je hardware	Consistent snel
Intelligentie	9B ≈ middenklasse cloud-AI	Topmodellen zijn slimmer
Complexe taken	Goed voor routinewerk	Beter voor complexe analyse
Beschikbaarheid	24/7, geen internet nodig	Afhankelijk van internet/uptime
Setup	15 minuten (zie onder)	Account aanmaken

Mijn advies: gebruik lokale AI voor routinetaken met gevoelige data (email, documenten, klantinfo). Gebruik cloud-AI voor complexe eenmalige analyses waar je de beste intelligentie nodig hebt. Je hoeft niet te kiezen; je kunt beide combineren.

Alternatieven voor Qwen3.5

Eerlijkheid gebiedt: Qwen3.5 is niet de enige optie. Dit zijn de alternatieven en waar ze sterk in zijn:

Model	Van	Sterkte	Beperking
Gemma 4 2B-31B	Google	Beste coding-scores, Apache 2.0, MoE op 24GB	Nederlandse teksten iets minder sterk
Phi-4-mini 3.8B	Microsoft	Uitstekend in redeneren	Begrijpt geen beelden
Llama 3.2 11B	Meta	Grote community	Kleiner geheugen (128K vs 262K)
DeepSeek-R1 7B	DeepSeek	Kampioen in wiskunde/code	Begrijpt geen beelden

Qwen3.5 onderscheidt zich doordat het als enige alles combineert: tekst + beeld + groot geheugen + hoge intelligentie op consumentenhardware.

📖 Lees ook: Lokale LLM benchmark: 8 modellen getest op een Mac Mini M4: Qwen 3.5 vergeleken met 7 andere modellen op echte taken

Zelf aan de slag: in 15 minuten draait het

Het mooie: je hebt geen technische achtergrond nodig. De tooling is inmiddels zo gebruiksvriendelijk dat het installeren van een lokaal AI-model niet moeilijker is dan een app downloaden.

Stap 1: Installeer Ollama

Ollama is een gratis programma dat lokale AI-modellen beheert. Ga naar ollama.com, download het voor je besturingssysteem, en installeer het. Klaar.

Stap 2: Download het model

Open je terminal (Mac: zoek op "Terminal"; Windows: zoek op "Opdrachtprompt") en typ:

bash

ollama pull qwen3.5:9b

Dit downloadt het 9B model, de beste balans tussen slimheid en snelheid. Het model is ~6GB groot, dus het duurt even afhankelijk van je internetsnelheid.

Stap 3: Stel je eerste vraag

bash

ollama run qwen3.5:9b "Vat de volgende tekst samen in 3 bulletpoints: [plak je tekst hier]"

Dat is het. Geen account. Geen API-sleutel. Geen maandelijkse factuur.

Bonus: ChatGPT-achtige interface

Wil je een vertrouwd chatvenster in plaats van de terminal? Installeer Open WebUI, een gratis interface die eruitziet als ChatGPT maar lokaal draait. Je kunt dan gewoon in je browser chatten met je lokale model.

Welke hardware heb je nodig?

Minimaal: laptop met 8GB RAM → draait het 0.8B of 2B model (basisassistent)
Goed: computer met 16GB RAM → draait het 4B model (volwaardige assistent)
Optimaal: Mac Mini M4 of PC met 24GB+ → draait het 9B model (best presterende)

📖 Lees ook: Waarom een Mac de Beste Keuze Is voor AI Lokaal Draaien: Wat unified memory is, welke Mac bij jouw budget past, en waarom de energierekening ertoe doet

Hoe ik het zelf gebruik: drie generaties, steeds beter

Als AI Architect bouw ik productiesystemen met meerdere AI-modellen. Lokale modellen zijn daar al maanden onderdeel van. Maar de kwaliteit is met elke generatie flink gesprongen.

De weg hiernaartoe

Ik begon met **Qwen2.5-Coder:14B**, een puur code-model. Goed voor eenvoudige taken, maar bij complexere opdrachten moest ik de output vaak flink corrigeren. Het was nuttig, maar voelde meer als een snelle eerste draft die ik dan handmatig moest afmaken. Daarna stapte ik over op **Qwen3-Coder-Flash (30B-A3B)**, een MoE-model met 30 miljard parameters waarvan er slechts 3 miljard tegelijk actief zijn. Sneller, slimmer voor code, maar nog steeds puur tekst: geen beeldbegrip, en bij langere opdrachten raakte het de draad kwijt. Nu draai ik **Qwen3.5** en het verschil is merkbaar. De 9B begrijpt beeld én tekst, houdt veel langere gesprekken vast (262K context), en levert bij routinetaken output die ik direct kan gebruiken zonder correcties. De sprong van 2.5 naar 3.5 voelt niet als een update; het voelt als een generatiewisseling.

Mijn huidige setup op de Mac Mini M4

Met 24GB geheugen draai ik een **twee-model strategie**: **Overdag** draai ik het **9B model** voor snelle taken: bestanden doorzoeken, berichten classificeren, samenvattingen maken. Het reageert in real-time, snel genoeg voor interactief werk. **'s Nachts** schakel ik over naar het **27B model**, groter en slimmer maar langzamer. Het pakt taken op die ik klaarzet: standaardcode schrijven, documentatie genereren, repetitieve bewerkingen uitvoeren. 's Ochtends review ik de output. Complexere code wordt al verrassend goed geschreven; Claude vindt nog verbeterpunten, maar de basis klopt. En doordat mijn agents zelflerend zijn, worden de opdrachten steeds gerichter. Het systeem leert welke taken het lokale model in één keer foutloos kan uitvoeren, en stuurt daar steeds meer van die gerichte opdrachten naartoe. Het resultaat: elke nacht meer werk dat 's ochtends direct bruikbaar is, zonder correcties achteraf. Waar ik met Qwen2.5-Coder nog 60-70% van de nachtelijke output moest herschrijven, is dat bij Qwen3.5 gedaald naar minder dan 20%. Dat is het verschil tussen "leuk experiment" en "productiewaardige tool." ![Twee-model strategie: snel model overdag, slim model 's nachts, review 's ochtends](images/two-model-strategy.png) Dat is het punt: je computer werkt de hele nacht door terwijl jij slaapt. Zonder API-kosten. Zonder datalekken. En 's ochtends ligt er werk klaar dat je uren handmatig typen bespaart.

De bottleneck is doorbroken

De afgelopen jaren was het verhaal steeds hetzelfde: lokale AI was óf slim genoeg maar te groot voor normale hardware, óf klein genoeg maar te dom voor serieus werk.

Qwen3.5 doorbreekt die trade-off. Een model dat op een kantoorcomputer draait en presteert op het niveau van cloud-AI. Dat tekst én beeld begrijpt. Met een geheugen dat groter is dan ChatGPT.

Voor het MKB betekent dit: je hoeft niet te kiezen tussen privacy en intelligentie. Tussen kosten en kwaliteit. Tussen cloud-afhankelijkheid en bruikbare AI.

De modellen zijn er. De hardware staat al op je bureau. De installatie kost een kwartier. De vraag is niet meer of lokale AI werkt voor jouw bedrijf, maar wanneer je begint.

Wil je weten welke AI-setup past bij jouw bedrijf? Ik help MKB-ondernemers met het ontwerpen van AI-architecturen die werken: lokaal, in de cloud, of een combinatie. Neem contact op en ik kijk met je mee naar de eerste stap die past bij jouw situatie.

Vincent van Deth

AI Strategy & Architecture

Vincent van Deth bouwt productiesystemen met AI voor het MKB. Hij is de maker van VNX, een multi-agent LLM orchestrator, en helpt teams betrouwbare AI-automatisering te shippen — zonder bullshit.

LinkedIn Email GitHub

Qwen3.5 Lokaal Draaien: Waarom Dit AI-Model Alles Verandert voor het MKB