27 maart 2026
Google heeft Gemini 3.1 Flash Live uitgebracht, een realtime multimodaal spraakmodel dat is gebouwd voor audio, video en toolgebruik met lage latentie in AI-agentworkflows. Het model is nu beschikbaar als preview via de Gemini Live API in Google AI Studio. Google noemt het zijn beste audio- en spraakmodel tot nu toe en zet het in voor verbeteringen aan zowel Gemini Live als Search Live in meer dan 200 landen.
Wat Gemini 3.1 Flash Live doet
Gemini 3.1 Flash Live is een spraakgericht model dat is ontworpen voor realtime, multimodale gesprekken. Het verwerkt audio, video en tekst tegelijkertijd, waardoor interactieve uitwisselingen met minimale vertraging mogelijk zijn. Het model ondersteunt meer dan 90 talen en is geoptimaliseerd voor scenario’s waar snelheid essentieel is, zoals spraakassistenten, klantenserviceagenten en realtime zoekinteracties.
Aan de gebruikerskant draait het model nu onder Gemini Live op Android en iOS. Volgens Google voelen gesprekken merkbaar sneller aan, met minder pauzes tussen beurten. Het model past bovendien de lengte en toon van antwoorden dynamisch aan op basis van de gesprekscontext, wat langere brainstormsessies natuurlijker zou moeten maken.
Belangrijkste mogelijkheden en verbeteringen ten opzichte van vorige versies
Vergeleken met zijn voorganger, Gemini 2.5 Flash Native Audio, biedt het nieuwe model lagere latentie en betere audiokwaliteit. Het herkent akoestische nuances zoals toonhoogte en tempo beter, en filtert achtergrondgeluid van bronnen zoals verkeer of televisie aanzienlijk effectiever. Dat maakt het praktischer voor gebruik in luidruchtige, echte omgevingen in plaats van alleen gecontroleerde settings.
Ook het gespreksgeheugen is verbeterd. Gemini Live kan de draad van een gesprek nu ongeveer twee keer zo lang vasthouden als voorheen, waardoor de context tijdens langere sessies intact blijft. Voor ontwikkelaars toont het model verbeterde instructieopvolging, betere naleving van complexe systeemprompts en een sterkere capaciteit om externe tools midden in een gesprek aan te roepen. Dit zijn belangrijke eigenschappen voor wie agentische applicaties bouwt bovenop de API.
Search Live gaat wereldwijd
Een van de opvallendste productgevolgen van deze release is de wereldwijde uitrol van Search Live. Aangedreven door Gemini 3.1 Flash Live wordt Search Live uitgerold naar meer dan 200 landen en integreert het nu zowel audio als video (via Google Lens) voor interactieve zoekopdrachten. Gebruikers kunnen hun camera op een object richten en er een gesproken conversatie over voeren, of vervolgvragen stellen in natuurlijke taal terwijl ze door zoekresultaten bladeren.
Hiermee positioneert Google zich om directer te concurreren met spraakgestuurde zoekervaringen van andere aanbieders. De combinatie van spraakinteractie met lage latentie, visuele input en webzoekopdrachten creëert een merkbaar andere ervaring dan het typen van zoekopdrachten in een zoekbalk.
Beschikbaarheid en toegang voor ontwikkelaars
Gemini 3.1 Flash Live is beschikbaar als preview via de Gemini Live API in Google AI Studio. Zakelijke klanten kunnen het inzetten voor klantbeleving toepassingen. Google heeft nog geen prijsdetails voor API-toegang gepubliceerd, hoewel de Flash-laag van oudsher gepositioneerd is als de kostenefficiënte optie in Google’s modelaanbod. Ter vergelijking: de eerder deze maand gelanceerde Gemini 3.1 Flash-Lite variant kost $0,25 per miljoen invoertokens.
Zie voor alle technische details de officiële modelkaart op Google DeepMind en de blogaankondiging van Google.