Je hebt skills geschreven. Claude Code volgt ze. Het resultaat ziet er goed uit. Maar werken ze echt goed? Of heb je net geluk dat je testcase toevallig werkte?
Dat is het probleem met AI-configuratie: zonder meting weet je niet of je skill consistent levert. Misschien werkt het 90% van de tijd uitstekend en 10% mist het de bronvermeldingen. Of de SEO-richtlijnen. Of de juiste toon.
De Skill Creator plugin lost dit op. Het is een evaluatiesysteem voor je skills: je definieert test prompts, schrijft assertions (verwachtingen), en draait geautomatiseerde evaluaties. Niet op gevoel — op data.
Wat is het verschil: Skills vs. Plugins vs. Commands
Voordat we de Skill Creator installeren, eerst de begrippen helder. Dit zijn drie verschillende dingen in Claude Code:
Skills
Een skill is een instructieset in .claude/skills/skill-naam/SKILL.md. Claude activeert het automatisch wanneer de description matcht met wat de gebruiker vraagt.
.claude/skills/blog-writer/SKILL.mdWanneer: Claude herkent dat je een blog wilt schrijven → activeert de blog-writer skill. Controle: Claude beslist wanneer het past. Jij hebt geen directe controle over de volgorde.
Commands (slash commands)
Een command is een bestand in .claude/commands/naam.md dat je expliciet aanroept met /naam.
.claude/commands/blog.md → je roept aan met /blogWanneer: jij tikt /blog in. Altijd handmatig.
Controle: jij bepaalt wanneer en in welke volgorde.
Plugins
Een plugin is een bundel van skills en/of commands met een manifest bestand. Plugins kunnen via de marketplace worden geïnstalleerd of lokaal worden geconfigureerd.
.claude/plugins/mijn-plugin/
├── .claude-plugin/plugin.json ← manifest
├── commands/ ← slash commands
└── skills/ ← auto-trigger skillsWanneer: commands handmatig, skills automatisch — net als losse versies. Controle: de plugin bundelt ze en kan een vaste volgorde afdwingen.
Wanneer wat gebruiken?
| Situatie | Gebruik |
|---|---|
| Eén taak die Claude zelf moet herkennen | Skill |
| Een workflow die jij start en controleert | Command |
| Meerdere skills in een vaste volgorde | Plugin met commands |
| Een extern pakket (marketplace) | Plugin |
De Skill Creator installeren
De Skill Creator is een officiële Anthropic plugin. Installatie via de marketplace:
Stap 1: Open de plugin marketplace
In Claude Code:
/install-pluginOf als je de marketplace command niet hebt, installeer handmatig:
/pluginsZoek naar "skill-creator" in de lijst.
Stap 2: Selecteer en installeer
skill-creator — Create, modify, and evaluate skills with benchmarksDe plugin wordt gedownload naar .claude/plugins/cache/ en is direct beschikbaar.
Stap 3: Verificeer
/skill-creatorAls dit een interactieve sessie opent waarin je skills kunt maken of evalueren, is de installatie gelukt.
Claude Code skills evalueren: het eval-systeem
De Skill Creator heeft een ingebouwd evaluatiesysteem. Het werkt in 4 stappen:
Stap 1: Test prompts definiëren
Voor elke skill schrijf je test prompts — taken die de skill moet kunnen uitvoeren:
{
"eval_id": 1,
"skill": "research-agent",
"mode": "PRE-WRITE",
"prompt": "Zoek bronnen over AI governance voor het MKB. Focus op Nederlandse context en recente data.",
"expected_output": "Research Brief met citeerbare bronnen, statistieken, contra-argumenten"
}Stap 2: Assertions schrijven
Assertions zijn concrete verwachtingen. Niet "het resultaat moet goed zijn" maar specifiek:
{
"assertions": [
{"name": "has_source_table", "text": "Output bevat een bronnen tabel met URLs en kernpunten"},
{"name": "has_contra_arguments", "text": "Output bevat minimaal 1 contra-argument"},
{"name": "uses_perplexity", "text": "Agent roept Perplexity MCP aan voor deep research"},
{"name": "no_internal_links", "text": "Output bevat GEEN interne link suggesties"}
]
}Stap 3: Evaluaties draaien
De Skill Creator lanceert subagents die je skill uitvoeren met de test prompts. Het vergelijkt de output met je assertions:
- With-skill: draait de taak met de skill geladen
- Without-skill (optioneel): draait dezelfde taak zonder skill, als baseline
Stap 4: Grading en benchmark
Elke assertion wordt beoordeeld: passed of failed. Je krijgt een pass rate per skill en een totaal benchmark.

Lees ook: Claude Code Instellen: Van Vibe Coding naar Productie-Workflow — De basis: installatie, configuratie en je eerste project opzetten.
Praktijkvoorbeeld: 6 skills evalueren
Ik heb recent 6 skills geëvalueerd voor mijn content-pipeline. Dit is wat ik testte en wat eruit kwam:
De skills
| Skill | Test | Assertions |
|---|---|---|
| Research Agent (PRE-WRITE) | "Zoek bronnen over AI governance voor MKB" | 5: bronnen tabel, URLs, contra-argumenten, Perplexity gebruik, Supabase audience check |
| Research Agent (POST-WRITE) | "Valideer deze blog op feitelijke correctheid" | 4: validatierapport, claim-tabel, overall oordeel, onafhankelijk onderzoek |
| SEO Agent (SEO-content) | "Keyword analyse voor 'AI implementatie MKB'" | 5: type herkenning, keyword data, SERP tabel, strikte plaatsing, geen interne links |
| SEO Agent (Authority) | "Keywords voor 'Glass Box Governance' thought leadership" | 4: type herkenning, creatieve titels, verwante keywords, soepelere regels |
| Audience Intelligence | "Weekly intelligence brief voor LinkedIn" | 5: Supabase queries, trending topics, warme leads, content aanbevelingen, intelligence rapport |
| Blog Pipeline (/blog command) | Structurele analyse | 5: correcte fasevolgorde, quality gates, validatie na schrijven |
De resultaten
28 van 28 assertions passed. 100% pass rate.
Maar de interessantere inzichten zaten in de details:
Research Agent: produceerde 10 citeerbare bronnen met echte URLs (CBS, ChannelConnect, Rijksoverheid). Brave Search was niet beschikbaar door permissie-instellingen — de skill viel correct terug op Perplexity als fallback.
SEO Agent: herkende correct het verschil tussen SEO-content (strikte keyword-plaatsing in titel, H2's, eerste 100 woorden) en Authority-content (creatieve titels, soepelere regels). Een klein punt: de Authority-modus noemde nog interne links als suggestie, terwijl dat de taak is van een andere skill.
Audience Intelligence: haalde live data uit Supabase — 400 profielen, 35 warme leads met naam en score, trending topics per segment. Dit is het verschil tussen een skill die theoretisch werkt en een die echte data gebruikt.
Wat ik leerde
-
Assertions dwingen je tot nadenken over wat "goed" betekent. "De output moet goed zijn" is geen assertion. "De output bevat een bronnen tabel met minimaal 5 URLs" is dat wel.
-
Edge cases vind je pas door te testen. De SEO Agent had overlap met de SEO Interlinker — zonder evaluatie had ik dat niet gezien.
-
Fallback-gedrag is cruciaal. Als Brave Search niet beschikbaar is, moet de skill niet crashen maar terugvallen op Perplexity. Dat test je niet door één keer de skill te draaien.
Je eigen skills evalueren: stap-voor-stap
1. Maak een eval workspace
mkdir -p .claude/skills/skill-eval-workspace/evals2. Schrijf je test cases
Maak evals.json met voor elke skill:
- Een realistische prompt (niet te makkelijk, niet onmogelijk)
- Concrete assertions (meetbaar, ja/nee)
- Expected output format
3. Draai de evaluatie
/skill-creatorSelecteer "Evaluate skills" en wijs naar je eval workspace. De Skill Creator lanceert subagents, draait de tests, en rapporteert resultaten.
4. Itereer
- Skill faalt een assertion? Pas de SKILL.md aan.
- Assertion te vaag? Maak hem specifieker.
- Skill te traag? Optimaliseer de stappen.
- Draai opnieuw en vergelijk met de vorige benchmark.
Benchmarks over tijd
Het mooie van het eval-systeem is dat je benchmarks kunt vergelijken over iteraties:
Iteratie 1: 24/28 assertions passed (86%)
→ SEO agent miste SERP analyse, research miste contra-argumenten
Iteratie 2: 27/28 (96%)
→ SEO agent gefixt, research nog steeds overlap met interlinker
Iteratie 3: 28/28 (100%)
→ Overlap verwijderd, alle skills presteren naar verwachtingDit is het verschil tussen "het werkt geloof ik" en "het werkt bewezen." Elke iteratie maakt je skills beter, en je hebt data om het te bewijzen.
Wanneer evalueren?
- Na het aanmaken van een nieuwe skill: baseline meten
- Na een wijziging aan een skill: regressie voorkomen
- Na het toevoegen van nieuwe MCP servers: tools werken anders
- Periodiek (maandelijks): skills die afhangen van externe APIs kunnen veranderen
Volgende stap
Je kent nu het complete Claude Code configuratie-systeem: CLAUDE.md voor context, rules voor domeinregels, skills voor workflows, en de Skill Creator voor evaluatie.
In het laatste deel van deze serie laat ik mijn complete AI development stack zien — alle tools, wat ze kosten, en hoe ze samenwerken.
- Deel 1: Van ChatGPT naar AI Agent
- Deel 2: Claude Code Instellen
- Deel 3: CLAUDE.md, Rules en Skills
- Deel 5: Mijn AI Development Stack
Wil je een evaluatiesysteem voor je eigen AI-workflows? Plan een kennismakingsgesprek — ik help je skills bouwen die meetbaar presteren.
Vincent van Deth
AI Strategy & Architecture
Met jarenlange ervaring in marketingstrategie en AI-architectuur help ik bedrijven om hun groeipotentieel te maximaliseren met data-gedreven inzichten en AI-automatisering.
Mijn expertise ligt in het ontwerpen van AI-agent workflows, het strategisch inzetten van multi-agent systemen en het verbeteren van processen door schaalbare, auditeerbare oplossingen.
Of het nu gaat om het verfijnen van je AI-strategie, het selecteren van de juiste modellen of het implementeren van governance voor AI-gestuurde processen — ik bied maatwerkadvies dat leidt tot meetbare resultaten.