30-03-2026
Mistral AI heeft Voxtral TTS uitgebracht, het eerste tekst-naar-spraak-model van het bedrijf. Het model telt 4 miljard parameters, ondersteunt negen talen, draait op consumentenhardware en is beschikbaar via zowel de Mistral API als open weights op Hugging Face. In menselijke evaluaties evenaart of overtreft Voxtral TTS de spraakkwaliteit van ElevenLabs, op dit moment een van de meest gebruikte commerciele TTS-aanbieders.
Wat Voxtral TTS doet
Voxtral TTS zet tekst om in natuurlijk klinkende spraak in negen talen: Engels, Frans, Duits, Spaans, Nederlands, Portugees, Italiaans, Hindi en Arabisch. Het model is gebouwd op een transformer-gebaseerde, autoregressieve architectuur gecombineerd met flow-matching, met Mistrals Ministral 3B als basis. Het bestaat uit een transformer-decoder van 3,4 miljard parameters, een flow-matching akoestische transformer van 390 miljoen parameters en een neurale audiocodec van 300 miljoen parameters.
Het systeem kan per verzoek tot twee minuten audio genereren, waarbij de API van Mistral langere invoer verwerkt via een slim interleaving-proces. Voice cloning is mogelijk met slechts drie seconden referentieaudio. Het model vangt sprekerkenmerken op, waaronder natuurlijke pauzes, ritme, intonatie en emotionele expressie. Ook ondersteunt het zero-shot cross-linguale spraakaanpassing: een stem met een Frans accent kan bijvoorbeeld Engels spreken zonder hertraining.
Prestaties en benchmarks
Mistral rapporteert een modellatentie van 70 milliseconden voor een typische invoer van 10 seconden referentieaudio en 500 tekens, met een real-time factor van ongeveer 9,7x. De time-to-first-audio latentie ligt rond de 90 milliseconden, waardoor het model geschikt is voor real-time en streaming-toepassingen zoals spraakagenten en interactieve assistenten.
In menselijke evaluaties toont Voxtral TTS een superieure natuurlijkheid ten opzichte van ElevenLabs Flash v2.5, met vergelijkbare time-to-first-audio prestaties. Het bereikt ook pariteit met ElevenLabs v3, hun kwalitatief hoogwaardigere aanbod, op het gebied van levensechte spraakinteracties. Deze resultaten positioneren Voxtral als een competitief alternatief voor gevestigde commerciele TTS-oplossingen.
Compact ontwerp en potentieel voor on-device gebruik
Met 4 miljard parameters in totaal is Voxtral TTS ontworpen om te draaien op consumentenhardware. Mistral stelt dat het model kan werken op moderne laptops, middenklasse desktop-GPU’s en sommige high-end mobiele apparaten. Dit compacte formaat opent de deur naar on-device spraaktoepassingen die niet afhankelijk zijn van cloudverwerking, wat gevolgen heeft voor latentiegevoelige toepassingen en scenario’s waarin dataprivacy belangrijk is.
De compacte omvang van het model is opvallend omdat de meeste concurrerende TTS-systemen met vergelijkbare kwaliteit aanzienlijk groter zijn of alleen beschikbaar als cloud-API. Door zowel een gehoste API als downloadbare weights aan te bieden, biedt Mistral flexibiliteit voor ontwikkelaars die behoefte hebben aan een managed service of volledige lokale controle.
Prijzen en beschikbaarheid
Voxtral TTS is beschikbaar via de API van Mistral voor $0,016 per 1.000 tekens, en ook via Mistral Studio en Le Chat. De open-weight versie, gehost op Hugging Face onder een CC BY-NC 4.0-licentie, bevat het model en meerdere referentiestemmen. De niet-commerciele licentie betekent dat de open weights vrij gebruikt kunnen worden voor onderzoek en persoonlijke projecten, terwijl commercieel gebruik de API van Mistral of een aparte licentieovereenkomst vereist.
De officiele aankondiging en technische details zijn beschikbaar op de blog van Mistral. Ontwikkelaarsdocumentatie is te vinden in de Mistral Docs.