{"id":3425646,"date":"2025-06-05T09:10:08","date_gmt":"2025-06-05T08:10:08","guid":{"rendered":"https:\/\/datanorth.ai\/blog\/tokenization-for-llms"},"modified":"2025-06-05T10:09:07","modified_gmt":"2025-06-05T08:09:07","slug":"tokenization-for-llms","status":"publish","type":"post","link":"https:\/\/datanorth.ai\/nl\/blog\/tokenization-for-llms","title":{"rendered":"Tokenisatie in LLM&#8217;s"},"content":{"rendered":"\n<p>Als je vaak met AI-onderwerpen te maken hebt, heb je waarschijnlijk al gehoord van tokenisatie. Afhankelijk van de context kan dit verwijzen naar databeveiliging, blockchain-assets of tekstanalyse. Vandaag richten we ons echter uitsluitend op tokenisatie binnen Large Language Models (LLM\u2019s).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Wat is tokenisatie?<\/h3>\n\n\n\n<p>Tokenisatie betekent het opdelen van menselijke taal in kleinere, beter hanteerbare eenheden die &#8220;Tokens&#8221; worden genoemd.<\/p>\n\n\n\n<p>Elke invoer die naar een LLM wordt gestuurd, moet eerst door een tokenizer gaan. De tokenizer splitst de invoer op in een reeks tokens door de woorden om te zetten in getallen, omdat LLM\u2019s uitsluitend numerieke data kunnen verwerken.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Het tokenisatieproces<\/h2>\n\n\n\n<p>Er zijn drie kernstappen:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li><strong>Invoergegevens<\/strong> &#8211; Dit is de ruwe tekst die je wilt verwerken (deze stap gebeurt voordat de tekst naar het model wordt gestuurd). De aard van deze tekst bepaalt hoe deze in tokens moet worden opgedeeld.<br><\/li>\n\n\n\n<li><strong>Transformers<\/strong> &#8211; Dit is de architectuur van het model die de getokeniseerde invoer verwerkt. Tokenisatie zorgt ervoor dat de invoer wordt omgezet naar het juiste formaat, zodat het model deze effectief kan verwerken.<br><\/li>\n\n\n\n<li><strong>Voorspellende output<\/strong> &#8211; Het model genereert de voorspellingen, maar de kwaliteit van deze output wordt mede bepaald door hoe goed de invoer is getokeniseerd. Goede tokenisatie vangt de betekenis en structuur van de oorspronkelijke tekst, waardoor het model nauwkeurigere en samenhangendere antwoorden kan geven.<\/li>\n<\/ol>\n\n\n\n<h2 class=\"wp-block-heading\">Vormen van tokenisatie<\/h2>\n\n\n\n<p>Er zijn drie hoofdmethoden om tekst te tokeniseren:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Woord<\/strong>&#8211; gebaseerd: Elk woord wordt als een apart token behandeld.<\/li>\n\n\n\n<li><strong>Karakter<\/strong>&#8211; gebaseerd: Elk afzonderlijk teken wordt een token.<\/li>\n\n\n\n<li><strong>Subwoord<\/strong>&#8211; gebaseerd: Woorden worden opgesplitst in kleinere, betekenisvolle eenheden in plaats van volledige woorden of losse tekens.<\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Wat is een subwoord?<\/h2>\n\n\n\n<p>Subwoorden zijn kleinere, betekenisvolle delen van een woord.<\/p>\n\n\n\n<p>Bijvoorbeeld: onverwerkt \u2192 on + verwerkt<\/p>\n\n\n\n<p>Hierdoor kan het model variaties van woorden begrijpen en genereren die het misschien nog niet eerder heeft gezien. Dit is vooral belangrijk tijdens het trainen, zeker bij grote en diverse datasets.<\/p>\n\n\n\n<p>Het is goed om te weten dat LLM\u2019s vooral subwoord gebaseerde tokenisatie gebruiken, omdat dit een goede balans biedt tussen de omvang van de woordenschat en het begrip van de context.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" width=\"1024\" height=\"427\" src=\"https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/06\/copia-de-copia-de-local-llms-1024x427.png\" alt=\"Types of tokenization\" class=\"wp-image-3425636\" srcset=\"https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/06\/copia-de-copia-de-local-llms-1024x427.png 1024w, https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/06\/copia-de-copia-de-local-llms-300x125.png 300w, https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/06\/copia-de-copia-de-local-llms-768x320.png 768w, https:\/\/datanorth.ai\/wp-content\/uploads\/2025\/06\/copia-de-copia-de-local-llms.png 1200w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h3 class=\"wp-block-heading\">Nadelen van woord gebaseerde tokenisatie<\/h3>\n\n\n\n<p><strong>Herhaling van vergelijkbare woorden<\/strong>: LLM\u2019s hebben moeite om verbanden te leggen tussen woorden met dezelfde stam. Bijvoorbeeld, \u201crun\u201d, \u201crunning\u201d en \u201crunner\u201d worden als volledig aparte tokens gezien, zonder hun onderlinge relatie te herkennen.<\/p>\n\n\n\n<p><strong>Stopwoorden<\/strong>: Veelvoorkomende woorden zoals \u201cen\u201d, \u201cof\u201d, \u201cde\u201d en \u201cis\u201d voegen weinig betekenis toe aan zinnen, maar nemen toch ruimte in als token.<\/p>\n\n\n\n<p><strong>Out-of-vocabulary-problemen<\/strong>: Het model heeft moeite met woorden die het tijdens de training niet heeft gezien, vooral bij spelfouten of nieuwe termen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Nadelen van karakter gebaseerde tokenisatie<\/h3>\n\n\n\n<p><strong>Kleine woordenschat, lange reeksen<\/strong>: Hoewel karaktergebaseerde tokenisatie een kleine woordenschat heeft, zorgt het voor veel langere contexten, wat de verwerking ineffici\u00ebnt maakt.<\/p>\n\n\n\n<p><strong>Gebrek aan betekenis<\/strong>: Losse karakters dragen op zichzelf geen betekenis, waardoor het voor modellen lastig is om context en relaties te begrijpen.<\/p>\n\n\n\n<p><strong>Verlies van taalstructuur<\/strong>: Deze methode vangt geen belangrijke patronen of woordstructuren op die essentieel zijn voor taalbegrip.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hoe bepalen we waar we woorden splitsen?<\/h2>\n\n\n\n<p>Een veelgebruikte methode is Byte Pair Encoding (BPE). Hierbij worden veelvoorkomende karakter paren of subwoorden samengevoegd, waardoor het totale aantal tokens afneemt zonder dat er betekenis verloren gaat. Deze methode is effici\u00ebnt en wordt veel toegepast in natuurlijke taalverwerking.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Tokens en kosten<\/h2>\n\n\n\n<p>Zoals je inmiddels weet, hangt er een prijskaartje aan het gebruik van AI (zeker voor geavanceerde functies).<\/p>\n\n\n\n<p>Tokenisatie heeft daarom direct invloed op de kosten van grote taalmodellen (LLM\u2019s). In plaats van een vast bedrag per interactie, betaal je op basis van het aantal gebruikte tokens.<\/p>\n\n\n\n<p>API-gebruikers krijgen meestal met twee soorten prijsstelling te maken:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Invoerprijs<\/strong>: Kosten voor tokens in je prompts en vragen.<\/li>\n\n\n\n<li><strong>Uitvoerprijs<\/strong>: Kosten voor tokens in het antwoord van het model.<\/li>\n<\/ul>\n\n\n\n<p>Bedrijven tonen hun prijzen vaak per 1.000 tokens of per 1 miljoen tokens, zodat je een inschatting kunt maken van de kosten.<\/p>\n\n\n\n<h4 class=\"wp-block-heading\">Token-effici\u00ebntie (Hoeveel tokens voor dezelfde zin?)<\/h4>\n\n\n\n<p>Bijvoorbeeld, de zin: \u201cArtificial intelligence is transforming the world.\u201d<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>GPT-4: 8 tokens<\/li>\n\n\n\n<li>Claude: 8 tokens (geschat)<\/li>\n\n\n\n<li>Mistral: 9 tokens<\/li>\n\n\n\n<li>LLaMA 3: 10 tokens<\/li>\n<\/ul>\n\n\n\n<p>Pro tip: Je kunt tools zoals de <a href=\"https:\/\/platform.openai.com\/tokenizer\" target=\"_blank\" rel=\"noopener noreferrer nofollow\">tokenizer-pagina van ChatGPT<\/a> gebruiken om te zien hoeveel tokens jouw tekst bevat (inclusief de bijbehorende token-ID\u2019s).<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Waarom tokenisatie belangrijk is<\/h2>\n\n\n\n<p>Tokenisatie begrijpen is belangrijk voor iedereen die met LLM\u2019s werkt, omdat het invloed heeft op:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Kosten beheer<\/strong>: Het aantal tokens bepaalt direct de API-kosten.<\/li>\n\n\n\n<li><strong>Prestatie-optimalisatie<\/strong>: Effici\u00ebnte tokenisatie zorgt voor betere modelprestaties.<\/li>\n\n\n\n<li><strong>Prompt engineering<\/strong>: Weten hoe tekst wordt getokeniseerd helpt je effectievere prompts te schrijven.<\/li>\n<\/ul>\n\n\n\n<p>Tokenisatie lijkt misschien technisch, maar het is essentieel om te begrijpen hoe LLM\u2019s taal verwerken en begrijpen. Bij DataNorth helpen we bedrijven om kunstmatige intelligentie te benutten en te implementeren in hun bedrijfsvoering.<\/p>\n\n\n\n<p>Benieuwd hoe AI jouw processen kan optimaliseren en vergemakkelijken? Neem vandaag nog <a href=\"https:\/\/datanorth.ai\/nl\/contact\" data-type=\"page\" data-id=\"643\">contact op met DataNorth AI<\/a> en ontdek de mogelijkheden!<\/p>\n\n\n<div class=\"brxe-container newsletter-sign-up-blog\"><div class=\"brxe-div newsletter-sign-up-blog__headings-div\"><div class=\"brxe-div newsletter-sign-up-blog__heading-icon-div\"><i id=\"brxe-xdnylt\" class=\"fa fa-envelope brxe-icon newsletter-sign-up-blog__icon\"><\/i><div class=\"brxe-heading newsletter-sign-up-blog__heading\">Schrijf je in voor onze Nieuwsbrief<\/div><\/div><div id=\"brxe-yrmmzb\" class=\"brxe-heading newsletter-sign-up-blog__subheading\">Blijf op de hoogte van onze nieuwste AI blogs, onderzoeken, diensten en nog veel meer!<\/div><\/div><div class=\"brxe-shortcode newsletter-sign-up-blog__shortcode form--light\"><div class='fluentform ff-default fluentform_wrapper_15 ffs_default_wrap'><form data-form_id=\"15\" id=\"fluentform_15\" class=\"frm-fluent-form fluent_form_15 ff-el-form-top ff_form_instance_15_1 ff-form-loading ffs_default\" data-form_instance=\"ff_form_instance_15_1\" method=\"POST\" ><fieldset  style=\"border: none!important;margin: 0!important;padding: 0!important;background-color: transparent!important;box-shadow: none!important;outline: none!important; min-inline-size: 100%;\">\n                    <legend class=\"ff_screen_reader_title\" style=\"display: block; margin: 0!important;padding: 0!important;height: 0!important;text-indent: -999999px;width: 0!important;overflow:hidden;\">Newsletter Sign Up Form (Blog) (NL)<\/legend><input type='hidden' name='__fluent_form_embded_post_id' value='3425646' \/><input type=\"hidden\" id=\"_fluentform_15_fluentformnonce\" name=\"_fluentform_15_fluentformnonce\" value=\"a121945d0b\" \/><input type=\"hidden\" name=\"_wp_http_referer\" value=\"\/nl\/wp-json\/wp\/v2\/posts\/3425646\" \/><div class='ff-el-group ff-el-form-hide_label'><div class=\"ff-el-input--label ff-el-is-required asterisk-right\"><label for='ff_15_email' id='label_ff_15_email' aria-label=\"Email\">Email<\/label><\/div><div class='ff-el-input--content'><input type=\"email\" name=\"email\" id=\"ff_15_email\" class=\"ff-el-form-control\" placeholder=\"E-mailadres\" data-name=\"email\"  aria-invalid=\"false\" aria-required=true><\/div><\/div><div class='ff-el-group ff-el-form-hide_label'><div class=\"ff-el-input--label ff-el-is-required asterisk-right\"><label   aria-label=\"Radio Field\">Radio Field<\/label><\/div><div class='ff-el-input--content'><div class='ff-el-form-check ff-el-form-check-'><label class='ff-el-form-check-label' for='input_radio_6cd3ab827243a659dfbaa15663e25e4d'><input  type=\"radio\" name=\"input_radio\" data-name=\"input_radio\" class=\"ff-el-form-check-input ff-el-form-check-radio\" value=\"Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth\"  id='input_radio_6cd3ab827243a659dfbaa15663e25e4d' aria-label='Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth' aria-invalid='false' aria-required=true> <span>Ik wil graag marketing gerelateerde e-mails ontvangen van DataNorth<\/span><\/label><\/div><\/div><\/div><div class='ff-el-group ff-text-left ff_submit_btn_wrapper'><button type=\"submit\" class=\"ff-btn ff-btn-submit ff-btn-md ff_btn_style\"  aria-label=\"Aanmelden!\">Aanmelden!<\/button><\/div><\/fieldset><\/form><div id='fluentform_15_errors' class='ff-errors-in-stack ff_form_instance_15_1 ff-form-loading_errors ff_form_instance_15_1_errors'><\/div><\/div>            <script type=\"text\/javascript\">\n                window.fluent_form_ff_form_instance_15_1 = {\"id\":\"15\",\"ajaxUrl\":\"https:\\\/\\\/datanorth.ai\\\/wp-admin\\\/admin-ajax.php\",\"settings\":{\"layout\":{\"labelPlacement\":\"top\",\"helpMessagePlacement\":\"with_label\",\"errorMessagePlacement\":\"inline\",\"cssClassName\":\"\",\"asteriskPlacement\":\"asterisk-right\"},\"restrictions\":{\"denyEmptySubmission\":{\"enabled\":false}}},\"form_instance\":\"ff_form_instance_15_1\",\"form_id_selector\":\"fluentform_15\",\"rules\":{\"email\":{\"required\":{\"value\":true,\"message\":\"This field is required\",\"global_message\":\"This field is required\",\"global\":true},\"email\":{\"value\":true,\"message\":\"This field must contain a valid email\",\"global_message\":\"This field must contain a valid email\",\"global\":true}},\"input_radio\":{\"required\":{\"value\":true,\"message\":\"This field is required\",\"global_message\":\"This field is required\",\"global\":true}}},\"debounce_time\":300};\n                            <\/script>\n            <\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Als je vaak met AI-onderwerpen te maken hebt, heb je waarschijnlijk al gehoord van tokenisatie. Afhankelijk van de context kan dit verwijzen naar databeveiliging, blockchain-assets of tekstanalyse. Vandaag richten we ons echter uitsluitend op tokenisatie binnen Large Language Models (LLM\u2019s). Wat is tokenisatie? Tokenisatie betekent het opdelen van menselijke taal in kleinere, beter hanteerbare eenheden [&hellip;]<\/p>\n","protected":false},"author":7,"featured_media":3425648,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"none","_seopress_titles_title":"Tokenisatie in LLMs - DataNorth","_seopress_titles_desc":"Tokenisatie in Large Language Models LLM\u2019s: Wat is het, waarom is het belangrijk, welke methoden zijn er en wat is de invloed op kosten en prestaties.","_seopress_robots_index":"","footnotes":""},"categories":[7],"tags":[],"class_list":{"0":"post-3425646","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-geen-onderdeel-van-een-categorie"},"meta_box":{"faq_item":[]},"_links":{"self":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts\/3425646","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/users\/7"}],"replies":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/comments?post=3425646"}],"version-history":[{"count":0,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/posts\/3425646\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media\/3425648"}],"wp:attachment":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media?parent=3425646"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/categories?post=3425646"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/tags?post=3425646"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}