{"id":3440137,"date":"2026-06-11T14:52:34","date_gmt":"2026-06-11T12:52:34","guid":{"rendered":"https:\/\/datanorth.ai\/?post_type=news&#038;p=3440137"},"modified":"2026-06-11T14:52:14","modified_gmt":"2026-06-11T12:52:14","slug":"google-lanceert-diffusiongemma","status":"publish","type":"news","link":"https:\/\/datanorth.ai\/nl\/nieuws\/google-lanceert-diffusiongemma","title":{"rendered":"Google lanceert DiffusionGemma 26B-A4B"},"content":{"rendered":"\n<p class=\"wp-block-paragraph\"><em>11 juni 2026<\/em><\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Op 10 juni 2026 lanceerde Google DiffusionGemma 26B-A4B, een experimenteel open-weights model van Google DeepMind dat tekst genereert via diffusie in plaats van token voor token. DiffusionGemma is gebouwd op de Gemma 4 26B-A4B Mixture-of-Experts-architectuur en denoiset blokken van 256 tokens parallel, met meer dan 1.000 tokens per seconde op een enkele NVIDIA H100 en tot 4x snellere generatie dan vergelijkbare Gemma-modellen. Het model komt uit onder de Apache 2.0-licentie, waardoor het gratis commercieel te gebruiken en lokaal te draaien is.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Wat is DiffusionGemma 26B-A4B en hoe werkt text diffusion?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma 26B-A4B is het eerste open text-diffusion model van Google DeepMind. Waar standaardmodellen zoals Gemma 4 tekst autoregressief genereren, dus token na token van links naar rechts, gebruikt DiffusionGemma discrete diffusie. Het begint met een gemaskeerd of ruisachtig canvas van 256 tokens en verfijnt die allemaal parallel over meerdere denoising-stappen, waardoor het per forward pass een volledig blok van 256 tokens genereert in plaats van een enkele token.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Het model is gemaakt door de Google DeepMind-onderzoekers Brendan O&#8217;Donoghue en Sebastian Flennerhag, die het eerdere Gemini Diffusion-onderzoek van het lab toepasten op de Gemma 4-architectuur. Het resultaat is een model dat de open Gemma 4-architectuur behoudt maar de generatiemethode vervangt, waarbij een beetje kwaliteit wordt ingeleverd voor een grote winst in snelheid bij taken waar lage latency telt.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">DiffusionGemma benchmarks en technische specificaties<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma 26B-A4B heeft 25,2 miljard parameters in totaal, maar activeert er door het Mixture-of-Experts-ontwerp slechts 3,8 miljard per token. Het model ondersteunt een contextvenster van 256K tokens, verwerkt meer dan 140 talen en accepteert afwisselend tekst, beeld en video als invoer, terwijl het tekst als uitvoer produceert. De kennisdrempel ligt op januari 2025.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Wat snelheid betreft rapporteert Google meer dan 1.000 tokens per seconde op een enkele NVIDIA H100 en meer dan 700 tokens per seconde op een consumenten-NVIDIA GeForce RTX 5090, waarbij elke forward pass 256 tokens oplevert. Gekwantiseerd naar ongeveer 18GB VRAM en met slechts 3,8 miljard actieve parameters is het model ontworpen om op een enkele consumenten-GPU te draaien in plaats van op een servercluster.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Hoe verhoudt DiffusionGemma zich tot de standaard Gemma 4 26B-A4B?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma is sneller, maar scoort lager dan de standaard autoregressieve Gemma 4 26B-A4B op de benchmarks die Google publiceerde. Op MMLU Pro haalt het 77,6 procent tegenover 82,6 procent voor Gemma 4, op LiveCodeBench v6 scoort het 69,1 procent tegenover 77,1 procent, op GPQA Diamond 73,2 procent tegenover 82,3 procent, en op Codeforces noteert het een Elo van 1429 tegenover 1718. De afstand is consistent: de diffusiemethode kost een paar punten nauwkeurigheid in ruil voor het snelheidsvoordeel.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Google is duidelijk over die afweging en adviseert de standaard Gemma 4 voor toepassingen die maximale kwaliteit nodig hebben. DiffusionGemma wordt gepositioneerd als de keuze voor latency-gevoelig werk en niet als vervanger van de volledige Gemma 4-lijn. Omdat beide modellen dezelfde 26B-A4B-architectuur en hetzelfde contextvenster van 256K delen, kunnen teams ertussen wisselen zonder hun pipelines opnieuw in te richten.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Waar is DiffusionGemma 26B-A4B het meest geschikt voor?<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma richt zich op snelheidskritische, interactieve workflows die lokaal of bij lage concurrency draaien. Google noemt in-line tekstbewerking, code infilling, markdown-opmaak en het genereren van aminozuursequenties als geschikte toepassingen, allemaal taken waarbij het model een begrensd blok tekst invult of herschrijft en waar parallelle generatie van 256 tokens het duidelijkste voordeel oplevert.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\">Omdat het op een enkele consumenten-GPU draait en onder Apache 2.0 is gelicentieerd, is DiffusionGemma bedoeld voor ontwikkelaars die snelle lokale inferentie willen zonder kosten per token via een API. Voor zware redeneertaken of lange teksten waarbij nauwkeurigheid zwaarder weegt dan latency, blijft Google de standaard Gemma 4 aanraden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">DiffusionGemma beschikbaarheid, licentie en lokaal draaien<\/h2>\n\n\n\n<p class=\"wp-block-paragraph\">DiffusionGemma 26B-A4B is nu beschikbaar als open weights onder de Apache 2.0-licentie, die commercieel gebruik toestaat. De instructie-getrainde weights staan op Hugging Face als google\/diffusiongemma-26B-A4B-it, en het model kan lokaal op een enkele GPU draaien na kwantisatie naar ongeveer 18GB VRAM.<\/p>\n\n\n\n<p class=\"wp-block-paragraph\"><em>Alle details zijn beschikbaar op <a href=\"https:\/\/blog.google\/innovation-and-ai\/technology\/developers-tools\/diffusion-gemma-faster-text-generation\/\" target=\"_blank\" rel=\"noreferrer noopener\">de offici\u00eble Google Blog over DiffusionGemma<\/a><\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>DiffusionGemma 26B-A4B is het experimentele open text-diffusion model van Google DeepMind, dat blokken van 256 tokens parallel genereert voor tot 4x snellere uitvoer, tegen de prijs van een paar benchmarkpunten ten opzichte van de standaard Gemma 4.<\/p>\n","protected":false},"author":12,"featured_media":3440135,"template":"","tags":[],"news-category":[],"class_list":["post-3440137","news","type-news","status-publish","has-post-thumbnail"],"meta_box":[],"_links":{"self":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/news\/3440137","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/news"}],"about":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/types\/news"}],"author":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/users\/12"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media\/3440135"}],"wp:attachment":[{"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/media?parent=3440137"}],"wp:term":[{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/tags?post=3440137"},{"taxonomy":"news-category","embeddable":true,"href":"https:\/\/datanorth.ai\/nl\/wp-json\/wp\/v2\/news-category?post=3440137"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}