{"id":3425319,"date":"2025-05-20T14:41:59","date_gmt":"2025-05-20T13:41:59","guid":{"rendered":"https:\/\/datanorth.ai\/blog\/evals-openais-framework-for-evaluating-llms"},"modified":"2025-05-21T16:25:55","modified_gmt":"2025-05-21T14:25:55","slug":"openai-evals-evalueren-van-llms","status":"publish","type":"post","link":"https:\/\/datanorth.ai\/nl\/blog\/openai-evals-evalueren-van-llms","title":{"rendered":"Evals: OpenAI&#8217;s standaard voor het evalueren van LLM&#8217;s"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Wat zijn&nbsp;Evals?<\/h2>\n\n\n\n<p>Evals is\u00a0een open-source framework\u00a0van <a href=\"https:\/\/platform.openai.com\/docs\/guides\/evals\" target=\"_blank\" rel=\"noreferrer noopener\">OpenAI<\/a>, ontworpen\u00a0om grote taalmodellen (LLM&#8217;s) en\u00a0systemen die\u00a0op LLM&#8217;s zijn\u00a0gebaseerd systematisch te evalueren. Een eval\u00a0is een gestructureerde test\u00a0of benchmark\u00a0die de kwaliteit\u00a0van de output\u00a0van een model\u00a0meet bij specifieke\u00a0taken door de\u00a0reacties te vergelijken\u00a0met verwachte antwoorden\u00a0of criteria.<\/p>\n\n\n\n<p>OpenAI onderhoudt een <a href=\"https:\/\/platform.openai.com\/docs\/guides\/evals\/registry\" target=\"_blank\" rel=\"noreferrer noopener\">register\u00a0met kant-en-klare evals<\/a> voor diverse\u00a0domeinen, en\u00a0ontwikkelaars kunnen\u00a0ook eigen evals maken met eigen\u00a0data, afgestemd op de behoeften\u00a0van hun toepassing.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Waarom Evals belangrijk zijn<\/h2>\n\n\n\n<p>Werken met LLM&#8217;s vereist voortdurende experimentatie. Evals bieden objectieve, reproduceerbare meetwaarden zoals nauwkeurigheid en consistentie. Dit is vooral belangrijk omdat zelfs kleine aanpassingen vaak het her-testen van het hele systeem vereisen om stabiliteit te waarborgen en regressies te voorkomen. Voordat een wijziging in productie kan, moet de volledige LLM-toepassing doorgaans end-to-end opnieuw worden ge\u00ebvalueerd. Evals maken dit proces schaalbaar en betrouwbaar. Ze zijn essentieel voor:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Het waarborgen van stabiliteit van de applicatie naarmate modellen evolueren<\/li>\n\n\n\n<li>Het opsporen van regressies v\u00f3\u00f3r uitrol (vaak ge\u00efntegreerd in CI\/CD)<\/li>\n\n\n\n<li>Het verminderen van risico en het vergroten van vertrouwen in LLM-implementaties<\/li>\n<\/ul>\n\n\n\n<blockquote class=\"wp-block-quote has-text-align-center is-layout-flow wp-block-quote-is-layout-flow\">\n<p><em>\u201cEvals zijn verrassend genoeg vaak alles wat je nodig hebt.\u201d<br>Greg Brockman, OpenAI President<\/em><\/p>\n<\/blockquote>\n\n\n\n<h2 class=\"wp-block-heading\"><br>Inzicht in modelgedrag<\/h2>\n\n\n\n<p>Evals maken het mogelijk om verschillende modellen of versies systematisch te vergelijken door gestandaardiseerde testcases uit te voeren en kwantitatieve resultaten te produceren. Ze kunnen meten:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Feitelijke nauwkeurigheid<\/li>\n\n\n\n<li>Redenering en kwaliteit van het gedachteproces<\/li>\n\n\n\n<li>Volgen van instructies (bijvoorbeeld geldige JSON-output)<\/li>\n<\/ul>\n\n\n\n<p>Het <a href=\"https:\/\/platform.openai.com\/docs\/guides\/evals\/registry\" target=\"_blank\" rel=\"noreferrer noopener\">OpenAI Evals-register<\/a> bevat vooraf gebouwde tests voor vraagbeantwoording, logische puzzels, codegeneratie en content compliance.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Soorten Evals<\/h2>\n\n\n\n<p><strong>Basis (grondwaarheid) Evals:<\/strong><br>Vergelijken modeloutputs met bekende correcte antwoorden via deterministische controles. Ideaal voor taken met duidelijke, verifieerbare antwoorden (zoals wiskunde, meerkeuzevragen).<\/p>\n\n\n\n<p><strong>Model-beoordeelde Evals:<\/strong><br>Een ander AI-model evalueert of de output aan het gewenste doel voldoet. Meestal wordt een sterker model dan het geteste model gebruikt om subjectieve kwaliteiten te beoordelen, zoals humor of samenvattingskwaliteit. Het is aanbevolen dat mensen ook de resultaten controleren om de nauwkeurigheid van de beoordeling te waarborgen. Deze aanpak is vooral nuttig voor open-eind of kwalitatieve taken.<\/p>\n\n\n\n<p>OpenAI biedt <a href=\"https:\/\/platform.openai.com\/docs\/guides\/evals\/templates\" target=\"_blank\" rel=\"noreferrer noopener\">Eval-templates<\/a> voor beide benaderingen, waardoor je zonder te programmeren kunt starten.<\/p>\n\n\n\n<div class=\"wp-block-columns is-layout-flex wp-container-core-columns-is-layout-9d6595d7 wp-block-columns-is-layout-flex\">\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:66.66%\">\n<h2 class=\"wp-block-heading\">Evals register gebruiken<\/h2>\n\n\n\n<p>Het register biedt datasets en evaluatielogica voor:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Vraagbeantwoording (bijvoorbeeld <a href=\"https:\/\/stanfordnlp.github.io\/coqa\/\" target=\"_blank\" rel=\"noreferrer noopener\">CoQA<\/a>)<\/li>\n\n\n\n<li>Logica- en wiskundepuzzels<\/li>\n\n\n\n<li>Codegeneratie en begrip (bijvoorbeeld <a href=\"https:\/\/github.com\/openai\/human-eval\" target=\"_blank\" rel=\"noreferrer noopener\">HumanEval<\/a>)<\/li>\n\n\n\n<li>Content compliance en veiligheid<\/li>\n<\/ul>\n<\/div>\n\n\n\n<div class=\"wp-block-column is-layout-flow wp-block-column-is-layout-flow\" style=\"flex-basis:33.33%\">\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" width=\"500\" height=\"363\" src=\"https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/05\/openai-evals-registry.webp\" alt=\"openai evals registry\" class=\"wp-image-3424690\" srcset=\"https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/05\/openai-evals-registry.webp 500w, https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/05\/openai-evals-registry-300x218.webp 300w\" sizes=\"(max-width: 500px) 100vw, 500px\" \/><\/figure>\n<\/div>\n<\/div>\n\n\n\n<p>Elke eval wordt gedefinieerd door een YAML-configuratie en (optioneel) referentiebestanden. Een eval uitvoeren is zo eenvoudig als het installeren van het <a href=\"https:\/\/github.com\/openai\/evals#:~:text=OpenAI%20Evals\" target=\"_blank\" rel=\"noreferrer noopener\">openai-evals pakket<\/a> en het starten van een commando of het gebruik van de API.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Eigen Evals maken<\/h2>\n\n\n\n<p>Met custom evals kun je je eigen data en taken testen:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Dataset voorbereiden:<\/strong>\u00a0Verzamel voorbeeldprompts en verwachte antwoorden uit je applicatie, geformatteerd als JSONL.<\/li>\n\n\n\n<li><strong>Eval configureren:<\/strong>\u00a0Schrijf een YAML-bestand waarin je het eval-template, datasetpad, model(len) en parameters specificeert.<\/li>\n<\/ul>\n\n\n\n<p>Voor de meeste gevallen is geen programmeerkennis nodig, en OpenAI biedt <a href=\"https:\/\/platform.openai.com\/docs\/guides\/evals\/custom-evals\" target=\"_blank\" rel=\"noreferrer noopener\">handleidingen en voorbeelden<\/a>.<\/p>\n\n\n\n<p>Custom evals kunnen priv\u00e9 blijven, zodat bedrijven gevoelige of domeinspecifieke data veilig kunnen testen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Evals in de levenscyclus van LLM&#8217;s<\/h2>\n\n\n\n<p>Evals ondersteunen de volledige ontwikkelingscyclus van LLM&#8217;s:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Modelselectie<\/strong>: Objectief modellen vergelijken v\u00f3\u00f3r uitrol.<\/li>\n\n\n\n<li><strong>Continue kwaliteitsborging<\/strong>: Prestaties monitoren bij elke update en regressies vroegtijdig opsporen.<\/li>\n\n\n\n<li><strong>Modelupgrades<\/strong>: Verbeteringen kwantificeren of achteruitgang detecteren bij modelwijzigingen.<\/li>\n\n\n\n<li><strong>Validatie van fine-tuning<\/strong>: Zekerstellen dat fijn-afgestelde modellen beter presteren dan basismodellen op relevante taken.<\/li>\n\n\n\n<li><strong>Zekerheid voor belanghebbenden<\/strong>: Transparante meetwaarden bieden voor compliance en rapportage.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">HealthBench: Evaluatie van AI-systemen in de gezondheidszorg<\/h2>\n\n\n\n<p>Op 12 mei 2025 introduceerde OpenAI HealthBench, een nieuwe benchmark voor het evalueren van AI-systemen in realistische zorgscenario&#8217;s. Ontwikkeld samen met 262 artsen uit 60 landen, heeft HealthBench als doel AI-modellen nuttig \u00e9n veilig te maken in de gezondheidszorg.<\/p>\n\n\n\n<p><strong>Belangrijkste kenmerken van HealthBench:<\/strong><\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Realistische scenario&#8217;s:<\/strong>\u00a05.000 meertalige, multi-turn gesprekken die interacties simuleren tussen AI-modellen en gebruikers of clinici, verspreid over diverse medische specialismen en contexten.<br><\/li>\n\n\n\n<li><strong>Door artsen gemaakte rubrieken:<\/strong>\u00a0Elke conversatie heeft een aangepaste rubric met specifieke criteria waaraan een modelantwoord moet voldoen. In totaal bevat HealthBench 48.562 unieke rubric-criteria.<br><\/li>\n\n\n\n<li><strong>Model-gebaseerde beoordeling:<\/strong>\u00a0Antwoorden worden ge\u00ebvalueerd met een model-gebaseerde beoordelaar (GPT-4.1) die nagaat of elk rubric-criterium wordt gehaald. Dit zorgt voor consistente en schaalbare evaluatie.<br><\/li>\n\n\n\n<li><strong>Prestatiebenchmarks:<\/strong>\u00a0OpenAI deelt prestatiecijfers van diverse modellen op HealthBench, waarmee nieuwe referentiepunten voor verbetering worden gezet. Bijvoorbeeld behaalde het o3-model 60%, wat een aanzienlijke vooruitgang is ten opzichte van eerdere modellen.<\/li>\n<\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Belang van HealthBench:<\/h3>\n\n\n\n<p>HealthBench vult belangrijke gaten in bestaande AI-evaluaties voor de gezondheidszorg door te focussen op:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Betekenisvolheid:<\/strong>\u00a0Scores weerspiegelen echte impact, verder dan examenvragen, en omvatten complexe, realistische scenario&#8217;s en workflows.<br><\/li>\n\n\n\n<li><strong>Vertrouwbaarheid:<\/strong>\u00a0Evaluaties zijn gebaseerd op artsenbeoordeling, wat een stevige basis biedt voor verbetering van AI-systemen.<br><\/li>\n\n\n\n<li><strong>Vooruitgang:<\/strong>\u00a0Benchmarks zijn ontworpen om voortdurende verbetering te ondersteunen, zodat huidige modellen nog veel ruimte voor groei hebben.<\/li>\n<\/ul>\n\n\n\n<p>Door een uitgebreid en realistisch evaluatiekader te bieden, is HealthBench een waardevol instrument voor ontwikkelaars en onderzoekers die de veiligheid en effectiviteit van AI in de gezondheidszorg willen verbeteren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusie<\/h2>\n\n\n\n<p>Evals vormen de ruggengraat van robuuste LLM-toepassingsontwikkeling, met gestandaardiseerde, aanpasbare en transparante evaluaties. Door Evals te integreren kunnen teams sneller itereren, risico\u2019s verminderen en betrouwbaardere AI-producten leveren.<\/p>\n\n\n<div class=\"brxe-container newsletter-sign-up-blog\"><div class=\"brxe-div newsletter-sign-up-blog__headings-div\"><div class=\"brxe-div newsletter-sign-up-blog__heading-icon-div\"><i id=\"brxe-xdnylt\" class=\"fa fa-envelope brxe-icon newsletter-sign-up-blog__icon\"><\/i><div class=\"brxe-heading newsletter-sign-up-blog__heading\">Schrijf je in voor onze Nieuwsbrief<\/div><\/div><div id=\"brxe-yrmmzb\" class=\"brxe-heading newsletter-sign-up-blog__subheading\">Blijf op de hoogte van onze nieuwste AI blogs, onderzoeken, diensten en nog veel meer!<\/div><\/div><div class=\"brxe-shortcode newsletter-sign-up-blog__shortcode form--light\"><div class='fluentform ff-default fluentform_wrapper_15 ffs_default_wrap'><form data-form_id=\"15\" id=\"fluentform_15\" class=\"frm-fluent-form fluent_form_15 ff-el-form-top ff_form_instance_15_1 ff-form-loading ffs_default\" data-form_instance=\"ff_form_instance_15_1\" method=\"POST\" ><fieldset  style=\"border: none!important;margin: 0!important;padding: 0!important;background-color: transparent!important;box-shadow: none!important;outline: none!important; min-inline-size: 100%;\">\n                    <legend class=\"ff_screen_reader_title\" style=\"display: block; margin: 0!important;padding: 0!important;height: 0!important;text-indent: -999999px;width: 0!important;overflow:hidden;\">Newsletter Sign Up Form (Blog) (NL)<\/legend><input type='hidden' name='__fluent_form_embded_post_id' value='3425319' \/><input type=\"hidden\" id=\"_fluentform_15_fluentformnonce\" name=\"_fluentform_15_fluentformnonce\" value=\"a121945d0b\" \/><input type=\"hidden\" name=\"_wp_http_referer\" value=\"\/nl\/wp-json\/wp\/v2\/posts\/3425319\" \/><div class='ff-el-group ff-el-form-hide_label'><div class=\"ff-el-input--label ff-el-is-required asterisk-right\"><label for='ff_15_email' id='label_ff_15_email' aria-label=\"Email\">Email<\/label><\/div><div class='ff-el-input--content'><input type=\"email\" name=\"email\" id=\"ff_15_email\" class=\"ff-el-form-control\" placeholder=\"E-mailadres\" data-name=\"email\"  aria-invalid=\"false\" aria-required=true><\/div><\/div><div class='ff-el-group ff-el-form-hide_label'><div class=\"ff-el-input--label ff-el-is-required asterisk-right\"><label   aria-label=\"Radio Field\">Radio Field<\/label><\/div><div class='ff-el-input--content'><div class='ff-el-form-check ff-el-form-check-'><label class='ff-el-form-check-label' for='input_radio_331bb66ebf38316b12ae753bc3ee9032'><input  type=\"radio\" name=\"input_radio\" data-name=\"input_radio\" class=\"ff-el-form-check-input ff-el-form-check-radio\" value=\"Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth\"  id='input_radio_331bb66ebf38316b12ae753bc3ee9032' aria-label='Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth' aria-invalid='false' aria-required=true> <span>Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth<\/span><\/label><\/div><\/div><\/div><div class='ff-el-group ff-text-left ff_submit_btn_wrapper'><button type=\"submit\" class=\"ff-btn ff-btn-submit ff-btn-md ff_btn_style\"  aria-label=\"Aanmelden!\">Aanmelden!<\/button><\/div><\/fieldset><\/form><div id='fluentform_15_errors' class='ff-errors-in-stack ff_form_instance_15_1 ff-form-loading_errors ff_form_instance_15_1_errors'><\/div><\/div>            <script type=\"text\/javascript\">\n                window.fluent_form_ff_form_instance_15_1 = {\"id\":\"15\",\"ajaxUrl\":\"https:\\\/\\\/datanorth.ai\\\/wp-admin\\\/admin-ajax.php\",\"settings\":{\"layout\":{\"labelPlacement\":\"top\",\"helpMessagePlacement\":\"with_label\",\"errorMessagePlacement\":\"inline\",\"cssClassName\":\"\",\"asteriskPlacement\":\"asterisk-right\"},\"restrictions\":{\"denyEmptySubmission\":{\"enabled\":false}}},\"form_instance\":\"ff_form_instance_15_1\",\"form_id_selector\":\"fluentform_15\",\"rules\":{\"email\":{\"required\":{\"value\":true,\"message\":\"This field is required\",\"global_message\":\"This field is required\",\"global\":true},\"email\":{\"value\":true,\"message\":\"This field must contain a valid email\",\"global_message\":\"This field must contain a valid email\",\"global\":true}},\"input_radio\":{\"required\":{\"value\":true,\"message\":\"This field is required\",\"global_message\":\"This field is required\",\"global\":true}}},\"debounce_time\":300};\n                            <\/script>\n            <\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Met OpenAI Evals kan je LLM&#8217;s testen en benchmarken met kant-en-klare of aangepaste evaluaties, waardoor de kwaliteit en betrouwbaarheid van AI-toepassingen wordt gewaarborgd.<\/p>\n","protected":false},"author":12,"featured_media":3424700,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none","_seopress_titles_title":"OpenAI Evals: Evalueren van LLM's - DataNorth","_seopress_titles_desc":"Met OpenAI Evals kan je LLM's testen en benchmarken met kant-en-klare of custom evaluaties, wat zorgt voor hoge kwaliteit en betrouwbaarheid.","_seopress_robots_index":"","footnotes":""},"categories":[71,66,70],"tags":[],"class_list":{"0":"post-3425319","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-ai-in-de-praktijk","8":"category-ai-in-practice","9":"category-ai-tools-frameworks-nl"},"meta_box":{"faq_item":[]},"_links":{"self":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts\/3425319","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/users\/12"}],"replies":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/comments?post=3425319"}],"version-history":[{"count":0,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts\/3425319\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media\/3424700"}],"wp:attachment":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media?parent=3425319"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/categories?post=3425319"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/tags?post=3425319"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}