AI Skills Evalueren en Verbeteren met de Skill Creator Plugin

Je hebt skills geschreven. Claude Code volgt ze. Het resultaat ziet er goed uit. Maar werken ze echt goed? Of heb je net geluk dat je testcase toevallig werkte?

Dat is het probleem met AI-configuratie: zonder meting weet je niet of je skill consistent levert. Misschien werkt het 90% van de tijd uitstekend en 10% mist het de bronvermeldingen. Of de SEO-richtlijnen. Of de juiste toon.

De Skill Creator plugin lost dit op. Het is een evaluatiesysteem voor je skills: je definieert test prompts, schrijft assertions (verwachtingen), en draait geautomatiseerde evaluaties. Niet op gevoel — op data.

Wat is het verschil: Skills vs. Plugins vs. Commands

Voordat we de Skill Creator installeren, eerst de begrippen helder. Dit zijn drie verschillende dingen in Claude Code:

Skills

Een skill is een instructieset in .claude/skills/skill-naam/SKILL.md. Claude activeert het automatisch wanneer de description matcht met wat de gebruiker vraagt.

javascript
.claude/skills/blog-writer/SKILL.md

Wanneer: Claude herkent dat je een blog wilt schrijven → activeert de blog-writer skill. Controle: Claude beslist wanneer het past. Jij hebt geen directe controle over de volgorde.

Commands (slash commands)

Een command is een bestand in .claude/commands/naam.md dat je expliciet aanroept met /naam.

javascript
.claude/commands/blog.md → je roept aan met /blog

Wanneer: jij tikt /blog in. Altijd handmatig. Controle: jij bepaalt wanneer en in welke volgorde.

Plugins

Een plugin is een bundel van skills en/of commands met een manifest bestand. Plugins kunnen via de marketplace worden geïnstalleerd of lokaal worden geconfigureerd.

javascript
.claude/plugins/mijn-plugin/
├── .claude-plugin/plugin.json    ← manifest
├── commands/                      ← slash commands
└── skills/                        ← auto-trigger skills

Wanneer: commands handmatig, skills automatisch — net als losse versies. Controle: de plugin bundelt ze en kan een vaste volgorde afdwingen.

Wanneer wat gebruiken?

SituatieGebruik
Eén taak die Claude zelf moet herkennenSkill
Een workflow die jij start en controleertCommand
Meerdere skills in een vaste volgordePlugin met commands
Een extern pakket (marketplace)Plugin

De Skill Creator installeren

De Skill Creator is een officiële Anthropic plugin. Installatie via de marketplace:

Stap 1: Open de plugin marketplace

In Claude Code:

javascript
/install-plugin

Of als je de marketplace command niet hebt, installeer handmatig:

javascript
/plugins

Zoek naar "skill-creator" in de lijst.

Stap 2: Selecteer en installeer

javascript
skill-creator — Create, modify, and evaluate skills with benchmarks

De plugin wordt gedownload naar .claude/plugins/cache/ en is direct beschikbaar.

Stap 3: Verificeer

javascript
/skill-creator

Als dit een interactieve sessie opent waarin je skills kunt maken of evalueren, is de installatie gelukt.

Claude Code skills evalueren: het eval-systeem

De Skill Creator heeft een ingebouwd evaluatiesysteem. Het werkt in 4 stappen:

Stap 1: Test prompts definiëren

Voor elke skill schrijf je test prompts — taken die de skill moet kunnen uitvoeren:

json
{
  "eval_id": 1,
  "skill": "research-agent",
  "mode": "PRE-WRITE",
  "prompt": "Zoek bronnen over AI governance voor het MKB. Focus op Nederlandse context en recente data.",
  "expected_output": "Research Brief met citeerbare bronnen, statistieken, contra-argumenten"
}

Stap 2: Assertions schrijven

Assertions zijn concrete verwachtingen. Niet "het resultaat moet goed zijn" maar specifiek:

json
{
  "assertions": [
    {"name": "has_source_table", "text": "Output bevat een bronnen tabel met URLs en kernpunten"},
    {"name": "has_contra_arguments", "text": "Output bevat minimaal 1 contra-argument"},
    {"name": "uses_perplexity", "text": "Agent roept Perplexity MCP aan voor deep research"},
    {"name": "no_internal_links", "text": "Output bevat GEEN interne link suggesties"}
  ]
}

Stap 3: Evaluaties draaien

De Skill Creator lanceert subagents die je skill uitvoeren met de test prompts. Het vergelijkt de output met je assertions:

  • With-skill: draait de taak met de skill geladen
  • Without-skill (optioneel): draait dezelfde taak zonder skill, als baseline

Stap 4: Grading en benchmark

Elke assertion wordt beoordeeld: passed of failed. Je krijgt een pass rate per skill en een totaal benchmark.

Eval resultaten met pass rates per skill
28/28 assertions passed: alle skills presteren zoals verwacht

Lees ook: Claude Code Instellen: Van Vibe Coding naar Productie-Workflow — De basis: installatie, configuratie en je eerste project opzetten.

Praktijkvoorbeeld: 6 skills evalueren

Ik heb recent 6 skills geëvalueerd voor mijn content-pipeline. Dit is wat ik testte en wat eruit kwam:

De skills

SkillTestAssertions
Research Agent (PRE-WRITE)"Zoek bronnen over AI governance voor MKB"5: bronnen tabel, URLs, contra-argumenten, Perplexity gebruik, Supabase audience check
Research Agent (POST-WRITE)"Valideer deze blog op feitelijke correctheid"4: validatierapport, claim-tabel, overall oordeel, onafhankelijk onderzoek
SEO Agent (SEO-content)"Keyword analyse voor 'AI implementatie MKB'"5: type herkenning, keyword data, SERP tabel, strikte plaatsing, geen interne links
SEO Agent (Authority)"Keywords voor 'Glass Box Governance' thought leadership"4: type herkenning, creatieve titels, verwante keywords, soepelere regels
Audience Intelligence"Weekly intelligence brief voor LinkedIn"5: Supabase queries, trending topics, warme leads, content aanbevelingen, intelligence rapport
Blog Pipeline (/blog command)Structurele analyse5: correcte fasevolgorde, quality gates, validatie na schrijven

De resultaten

28 van 28 assertions passed. 100% pass rate.

Maar de interessantere inzichten zaten in de details:

Research Agent: produceerde 10 citeerbare bronnen met echte URLs (CBS, ChannelConnect, Rijksoverheid). Brave Search was niet beschikbaar door permissie-instellingen — de skill viel correct terug op Perplexity als fallback.

SEO Agent: herkende correct het verschil tussen SEO-content (strikte keyword-plaatsing in titel, H2's, eerste 100 woorden) en Authority-content (creatieve titels, soepelere regels). Een klein punt: de Authority-modus noemde nog interne links als suggestie, terwijl dat de taak is van een andere skill.

Audience Intelligence: haalde live data uit Supabase — 400 profielen, 35 warme leads met naam en score, trending topics per segment. Dit is het verschil tussen een skill die theoretisch werkt en een die echte data gebruikt.

Wat ik leerde

  1. Assertions dwingen je tot nadenken over wat "goed" betekent. "De output moet goed zijn" is geen assertion. "De output bevat een bronnen tabel met minimaal 5 URLs" is dat wel.

  2. Edge cases vind je pas door te testen. De SEO Agent had overlap met de SEO Interlinker — zonder evaluatie had ik dat niet gezien.

  3. Fallback-gedrag is cruciaal. Als Brave Search niet beschikbaar is, moet de skill niet crashen maar terugvallen op Perplexity. Dat test je niet door één keer de skill te draaien.

Je eigen skills evalueren: stap-voor-stap

1. Maak een eval workspace

bash
mkdir -p .claude/skills/skill-eval-workspace/evals

2. Schrijf je test cases

Maak evals.json met voor elke skill:

  • Een realistische prompt (niet te makkelijk, niet onmogelijk)
  • Concrete assertions (meetbaar, ja/nee)
  • Expected output format

3. Draai de evaluatie

javascript
/skill-creator

Selecteer "Evaluate skills" en wijs naar je eval workspace. De Skill Creator lanceert subagents, draait de tests, en rapporteert resultaten.

4. Itereer

  • Skill faalt een assertion? Pas de SKILL.md aan.
  • Assertion te vaag? Maak hem specifieker.
  • Skill te traag? Optimaliseer de stappen.
  • Draai opnieuw en vergelijk met de vorige benchmark.

Benchmarks over tijd

Het mooie van het eval-systeem is dat je benchmarks kunt vergelijken over iteraties:

javascript
Iteratie 1: 24/28 assertions passed (86%)
  → SEO agent miste SERP analyse, research miste contra-argumenten
Iteratie 2: 27/28 (96%)
  → SEO agent gefixt, research nog steeds overlap met interlinker
Iteratie 3: 28/28 (100%)
  → Overlap verwijderd, alle skills presteren naar verwachting

Dit is het verschil tussen "het werkt geloof ik" en "het werkt bewezen." Elke iteratie maakt je skills beter, en je hebt data om het te bewijzen.

Wanneer evalueren?

  • Na het aanmaken van een nieuwe skill: baseline meten
  • Na een wijziging aan een skill: regressie voorkomen
  • Na het toevoegen van nieuwe MCP servers: tools werken anders
  • Periodiek (maandelijks): skills die afhangen van externe APIs kunnen veranderen

Volgende stap

Je kent nu het complete Claude Code configuratie-systeem: CLAUDE.md voor context, rules voor domeinregels, skills voor workflows, en de Skill Creator voor evaluatie.

In het laatste deel van deze serie laat ik mijn complete AI development stack zien — alle tools, wat ze kosten, en hoe ze samenwerken.

Wil je een evaluatiesysteem voor je eigen AI-workflows? Plan een kennismakingsgesprek — ik help je skills bouwen die meetbaar presteren.

Vincent van Deth

AI Strategy & Architecture

Met jarenlange ervaring in marketingstrategie en AI-architectuur help ik bedrijven om hun groeipotentieel te maximaliseren met data-gedreven inzichten en AI-automatisering.

Mijn expertise ligt in het ontwerpen van AI-agent workflows, het strategisch inzetten van multi-agent systemen en het verbeteren van processen door schaalbare, auditeerbare oplossingen.

Of het nu gaat om het verfijnen van je AI-strategie, het selecteren van de juiste modellen of het implementeren van governance voor AI-gestuurde processen — ik bied maatwerkadvies dat leidt tot meetbare resultaten.

Reacties

Je e-mailadres wordt niet gepubliceerd. Reacties worden beoordeeld voor plaatsing.

Reacties laden...