De AI die jouw scherm bedient
Op 7 oktober 2025 heeft Google DeepMind het Gemini 2.5 Computer Use-model gelanceerd — een nieuwe stap in de ontwikkeling van AI-systemen die direct met computerinterfaces kunnen omgaan. Voortbouwend op de visuele redeneercapaciteiten van Gemini 2.5 Pro, maakt dit model AI-agenten mogelijk die schermen kunnen bedienen, knoppen aanklikken, tekst typen en scrollen. Kortom, het bootst menselijke computerinteractie na zonder gebruik te maken van traditionele API’s.
Wat maakt Gemini 2.5 uniek?
Het model werkt in een continu proces: het ontvangt een opdracht, maakt een screenshot, analyseert de interface en bepaalt de juiste acties. Hierdoor kan het formulieren invullen, dropdownmenu’s bedienen, inloggen op afgeschermde omgevingen en complete workflows uitvoeren die normaal menselijke tussenkomst vereisten.
Belangrijkste opties
- Web- en mobiele besturing: haalt automatisch informatie op, organiseert content, plant afspraken in en verplaatst data tussen systemen.
- Zakelijk gebruik: ingezet voor UI-tests, onder andere binnen Project Mariner, Firebase Testing Agent en AI Mode in Search. Vroege gebruikers melden sterke resultaten voor persoonlijke assistenten en workflowautomatisering.
- Meertrapsautomatisering: splitst complexe taken op in kleine stappen en past zich aan onvoorziene veranderingen aan tijdens de uitvoering.
Prestaties
Benchmarks tonen aan dat Gemini 2.5 beter presteert dan concurrenten op het gebied van web- en mobiele besturing, met lage vertraging en hoge nauwkeurigheid, vooral bij browser bediening. Onafhankelijke tests door Browserbase bevestigen de betrouwbaarheid in verschillende omgevingen.
Concurrentie
Claude 3.5 Sonnet: sterke prestaties, maar gevoelig voor ‘prompt injection’-aanvallen en blind doelgericht gedrag zonder veiligheidstoetsen.
OpenAI’s computer-using agent: aangedreven door de Operator-service met 38% succes op de OSWorld-benchmark; werkt met pixelherkenning en veiligheidscontroles voor gevoelige acties.
Microsoft Copilot Studio: de functie ‘Use your computer’ integreert met Windows en legt nadruk op beveiliging via expliciete gebruikersrechten in gecontroleerde omgevingen.
Voordelen
Universele toegang: werkt met elke software of website die een mens kan bedienen, zonder specifieke API’s.
Productiviteitswinst: automatiseert dataverwerking, formulier- invoer en repetitieve workflows, waardoor medewerkers zich op strategisch werk kunnen richten.
Toegankelijkheid: ondersteunt mensen met fysieke beperkingen bij digitale navigatie.
Risico’s
Prompt injection: kwaadaardige content kan ongewenste acties activeren.
Privacy: toegang tot inloggegevens of gevoelige data vormt een aanzienlijk risico.
Auditproblemen: moeilijk te onderscheiden of acties door AI of mensen zijn uitgevoerd.
Blinde autonomie: agents kunnen onveilige of onmogelijke doelen nastreven.
Adversariële manipulatie: gevoelig voor visuele of contextuele misleiding.
Beveiligingsmaatregelen
Google beperkt risico’s via veiligheidscontroles per stap, door ontwikkelaars gedefinieerde weigergregels en bevestigingen van gebruikers bij gevoelige acties. Het systeem voorkomt schadelijke activiteiten zoals het omzeilen van CAPTCHAs of het besturen van medische apparatuur. De meeste toepassingen draaien met menselijke toezicht, al blijft dit niet volledig waterdicht. Afgesloten sandbox-omgevingen verkleinen verdere risico’s.
Toekomstige impact
Geavanceerde modellen zoals Gemini 2.5 kunnen de manier waarop mensen met computers omgaan ingrijpend veranderen, met snellere workflows en nieuwe automatiseringsmogelijkheden. Toch blijven veiligheid, privacy en controle cruciale thema’s. Toenemende concurrentie tussen AI-leiders zal innovatie verder aanjagen, en benadrukt de noodzaak van gezamenlijke veiligheidsstandaarden.
Een interessante vraag die hieruit voortvloeit, is hoe website-eigenaren zich moeten aanpassen aan een toekomst waarin niet alleen mensen, maar ook bots hun sites bezoeken. Dit leidt tot nieuwe dilemma’s, zoals de rol van CAPTCHAs, die mogelijk klanten of leads van AI-agents uitsluiten.
Voor meer informatie, zie de officiële aankondiging van het Gemini 2.5 Computer Use Model door Google.
