4 juni 2026
Google heeft op 3 juni 2026 Gemma 4 12B uitgebracht, een nieuw open-weight multimodaal model dat tekst, afbeeldingen, audio en video verwerkt en volledig draait op een gewone laptop met 16GB. Gemma 4 12B gebruikt een encoder-vrije architectuur, ondersteunt een contextvenster van 256.000 tokens en wordt geleverd met open gewichten onder de Apache 2.0-licentie op Hugging Face. Het is het eerste middelgrote Gemma-model met native audio-invoer.
Wat kan Gemma 4 12B?
Gemma 4 12B is een open-weight model met 12 miljard parameters dat tekst, afbeeldingen, audio en video als invoer accepteert. Het is het eerste middelgrote model in de Gemma-familie met native audio, wat betekent dat het ruwe spraak en geluid kan verwerken zonder aparte transcriptiestap. Het contextvenster van 256.000 tokens laat het model in een keer werken met lange documenten, grote codebases en meerstaps agentische workflows.
Het model is ontworpen om lokaal te draaien. Gemma 4 12B past op een systeem met ongeveer 16GB VRAM of gedeeld geheugen, wat geldt voor veel huidige Windows-laptops en Apple MacBook-configuraties. Daardoor is het mogelijk een multimodaal model op een enkele machine te draaien zonder gegevens naar een clouddienst te sturen, wat relevant is voor privacygevoelige toepassingen en offline gebruik.
Hoe werkt de encoder-vrije architectuur?
De meeste multimodale modellen koppelen aparte vision- en audio-encoders aan het taalmodel. Gemma 4 12B laat deze encoders weg en projecteert ruwe invoer rechtstreeks in de embeddingruimte van het taalmodel via lichte lineaire lagen. Voor beeld gebruikt het model een embedder van ongeveer 35 miljoen parameters die afbeeldingen opdeelt in patches van 48 bij 48 pixels en elke patch projecteert met een enkele matrixvermenigvuldiging plus gefactoriseerde X- en Y-positielookups.
Voor audio verdeelt Gemma 4 12B een 16 kHz-signaal in frames van 40 milliseconden met elk 640 waarden en projecteert die lineair naar de tokenruimte. Het weglaten van de aparte encoders verlaagt het geheugengebruik en is de belangrijkste reden dat het model op consumentenhardware past en toch vier invoertypen aankan.
Gemma 4 12B benchmarks en technische specificaties
Gemma 4 12B scoort 94,9% op DocVQA en 88,4% op InfoVQA, twee benchmarks voor het lezen van en beantwoorden van vragen over documenten en infographics. Op MMMU Pro, een benchmark voor multimodaal redeneren, haalt het 69,1%. Op tekstgebaseerd redeneren scoort het model 77,2% op MMLU Pro en 78,8% op GPQA Diamond. Op wiskunde haalt het 77,5% op AIME 2026 en 79,7% op MATH-Vision.
Volgens Google presteert Gemma 4 12B vergelijkbaar met het grotere Gemma 4 26B mixture-of-experts-model op standaardbenchmarks, terwijl het minder dan de helft van het totale geheugen gebruikt. Het model heeft een contextvenster van 256.000 tokens en een dicht ontwerp met 12 miljard parameters, en de open gewichten zijn gepubliceerd in zowel een base- als een instructievariant.
Gemma 4 12B beschikbaarheid, licentie en prijs
Gemma 4 12B is nu beschikbaar met open gewichten onder de Apache 2.0-licentie, die commercieel gebruik toestaat. De gewichten zijn gepubliceerd op Hugging Face als google/gemma-4-12B en google/gemma-4-12B-it, en het model is toegankelijk via Google AI for Developers en lokale runtimes zoals LM Studio. Omdat het model lokaal draait, zijn er geen API-kosten per token voor een eigen installatie.
De instructievariant (gemma-4-12B-it) is bedoeld voor chat- en assistenttoepassingen, terwijl de base-variant bedoeld is voor fine-tuning. Beide draaien op een enkel apparaat met 16GB, wat de hardwaredrempel verlaagt vergeleken met modellen die aparte server-GPU’s vereisen.
Hoe verhoudt Gemma 4 12B zich tot eerdere Gemma-modellen?
Gemma 4 12B volgt de Gemma 3-generatie op en voegt native audio-invoer, videobegrip en de encoder-vrije architectuur toe. De belangrijkste verandering is efficientie: het model richt zich op multimodale prestaties op frontierniveau in een formaat dat op een laptop past, terwijl eerdere open multimodale modellen met vergelijkbare mogelijkheden doorgaans meer geheugen of aparte encoders nodig hadden.
Binnen het aanbod van Google staat Gemma 4 12B onder het grotere Gemma 4 26B mixture-of-experts-model en de propriëtaire Gemini 3.5-familie. Het verschil is dat Gemma open-weight is en gemaakt is om op lokale hardware te draaien, terwijl Gemini wordt geleverd als beheerde API. Voor ontwikkelaars die een multimodaal model op het apparaat nodig hebben met een ruime licentie, is Gemma 4 12B de relevante optie.
Voor alle details over Gemma 4 12B, waaronder het architectuuroverzicht en de benchmarkmethode, zie de officiële aankondiging op de Google-blog.