Wat zijn Evals?
Evals is een open-source framework van OpenAI, ontworpen om grote taalmodellen (LLM’s) en systemen die op LLM’s zijn gebaseerd systematisch te evalueren. Een eval is een gestructureerde test of benchmark die de kwaliteit van de output van een model meet bij specifieke taken door de reacties te vergelijken met verwachte antwoorden of criteria.
OpenAI onderhoudt een register met kant-en-klare evals voor diverse domeinen, en ontwikkelaars kunnen ook eigen evals maken met eigen data, afgestemd op de behoeften van hun toepassing.
Waarom Evals belangrijk zijn
Werken met LLM’s vereist voortdurende experimentatie. Evals bieden objectieve, reproduceerbare meetwaarden zoals nauwkeurigheid en consistentie. Dit is vooral belangrijk omdat zelfs kleine aanpassingen vaak het her-testen van het hele systeem vereisen om stabiliteit te waarborgen en regressies te voorkomen. Voordat een wijziging in productie kan, moet de volledige LLM-toepassing doorgaans end-to-end opnieuw worden geëvalueerd. Evals maken dit proces schaalbaar en betrouwbaar. Ze zijn essentieel voor:
- Het waarborgen van stabiliteit van de applicatie naarmate modellen evolueren
- Het opsporen van regressies vóór uitrol (vaak geïntegreerd in CI/CD)
- Het verminderen van risico en het vergroten van vertrouwen in LLM-implementaties
“Evals zijn verrassend genoeg vaak alles wat je nodig hebt.”
Greg Brockman, OpenAI President
Inzicht in modelgedrag
Evals maken het mogelijk om verschillende modellen of versies systematisch te vergelijken door gestandaardiseerde testcases uit te voeren en kwantitatieve resultaten te produceren. Ze kunnen meten:
- Feitelijke nauwkeurigheid
- Redenering en kwaliteit van het gedachteproces
- Volgen van instructies (bijvoorbeeld geldige JSON-output)
Het OpenAI Evals-register bevat vooraf gebouwde tests voor vraagbeantwoording, logische puzzels, codegeneratie en content compliance.
Soorten Evals
Basis (grondwaarheid) Evals:
Vergelijken modeloutputs met bekende correcte antwoorden via deterministische controles. Ideaal voor taken met duidelijke, verifieerbare antwoorden (zoals wiskunde, meerkeuzevragen).
Model-beoordeelde Evals:
Een ander AI-model evalueert of de output aan het gewenste doel voldoet. Meestal wordt een sterker model dan het geteste model gebruikt om subjectieve kwaliteiten te beoordelen, zoals humor of samenvattingskwaliteit. Het is aanbevolen dat mensen ook de resultaten controleren om de nauwkeurigheid van de beoordeling te waarborgen. Deze aanpak is vooral nuttig voor open-eind of kwalitatieve taken.
OpenAI biedt Eval-templates voor beide benaderingen, waardoor je zonder te programmeren kunt starten.
Evals register gebruiken
Het register biedt datasets en evaluatielogica voor:

Elke eval wordt gedefinieerd door een YAML-configuratie en (optioneel) referentiebestanden. Een eval uitvoeren is zo eenvoudig als het installeren van het openai-evals pakket en het starten van een commando of het gebruik van de API.
Eigen Evals maken
Met custom evals kun je je eigen data en taken testen:
- Dataset voorbereiden: Verzamel voorbeeldprompts en verwachte antwoorden uit je applicatie, geformatteerd als JSONL.
- Eval configureren: Schrijf een YAML-bestand waarin je het eval-template, datasetpad, model(len) en parameters specificeert.
Voor de meeste gevallen is geen programmeerkennis nodig, en OpenAI biedt handleidingen en voorbeelden.
Custom evals kunnen privé blijven, zodat bedrijven gevoelige of domeinspecifieke data veilig kunnen testen.
Evals in de levenscyclus van LLM’s
Evals ondersteunen de volledige ontwikkelingscyclus van LLM’s:
- Modelselectie: Objectief modellen vergelijken vóór uitrol.
- Continue kwaliteitsborging: Prestaties monitoren bij elke update en regressies vroegtijdig opsporen.
- Modelupgrades: Verbeteringen kwantificeren of achteruitgang detecteren bij modelwijzigingen.
- Validatie van fine-tuning: Zekerstellen dat fijn-afgestelde modellen beter presteren dan basismodellen op relevante taken.
- Zekerheid voor belanghebbenden: Transparante meetwaarden bieden voor compliance en rapportage.
HealthBench: Evaluatie van AI-systemen in de gezondheidszorg
Op 12 mei 2025 introduceerde OpenAI HealthBench, een nieuwe benchmark voor het evalueren van AI-systemen in realistische zorgscenario’s. Ontwikkeld samen met 262 artsen uit 60 landen, heeft HealthBench als doel AI-modellen nuttig én veilig te maken in de gezondheidszorg.
Belangrijkste kenmerken van HealthBench:
- Realistische scenario’s: 5.000 meertalige, multi-turn gesprekken die interacties simuleren tussen AI-modellen en gebruikers of clinici, verspreid over diverse medische specialismen en contexten.
- Door artsen gemaakte rubrieken: Elke conversatie heeft een aangepaste rubric met specifieke criteria waaraan een modelantwoord moet voldoen. In totaal bevat HealthBench 48.562 unieke rubric-criteria.
- Model-gebaseerde beoordeling: Antwoorden worden geëvalueerd met een model-gebaseerde beoordelaar (GPT-4.1) die nagaat of elk rubric-criterium wordt gehaald. Dit zorgt voor consistente en schaalbare evaluatie.
- Prestatiebenchmarks: OpenAI deelt prestatiecijfers van diverse modellen op HealthBench, waarmee nieuwe referentiepunten voor verbetering worden gezet. Bijvoorbeeld behaalde het o3-model 60%, wat een aanzienlijke vooruitgang is ten opzichte van eerdere modellen.
Belang van HealthBench:
HealthBench vult belangrijke gaten in bestaande AI-evaluaties voor de gezondheidszorg door te focussen op:
- Betekenisvolheid: Scores weerspiegelen echte impact, verder dan examenvragen, en omvatten complexe, realistische scenario’s en workflows.
- Vertrouwbaarheid: Evaluaties zijn gebaseerd op artsenbeoordeling, wat een stevige basis biedt voor verbetering van AI-systemen.
- Vooruitgang: Benchmarks zijn ontworpen om voortdurende verbetering te ondersteunen, zodat huidige modellen nog veel ruimte voor groei hebben.
Door een uitgebreid en realistisch evaluatiekader te bieden, is HealthBench een waardevol instrument voor ontwikkelaars en onderzoekers die de veiligheid en effectiviteit van AI in de gezondheidszorg willen verbeteren.
Conclusie
Evals vormen de ruggengraat van robuuste LLM-toepassingsontwikkeling, met gestandaardiseerde, aanpasbare en transparante evaluaties. Door Evals te integreren kunnen teams sneller itereren, risico’s verminderen en betrouwbaardere AI-producten leveren.