Gepubliceerd: 28 april 2026
Alibaba’s Taotian Future Life Lab, onderdeel van de Alibaba Token Hub-divisie, heeft HappyHorse-1.0 officieel gelanceerd. Het gaat om een AI-videogeneratiemodel dat de nummer één positie inneemt op de Artificial Analysis Video Arena, zowel in de categorie Text-to-Video als Image-to-Video. Ontwikkelaars en bedrijven kunnen het model sinds 27 april 2026 benaderen via de API van fal, met vier endpoints: text-to-video, image-to-video, reference-to-video en video-edit.
HappyHorse-1.0 is een unified Transformer met 15 miljard parameters die gesynchroniseerde video en audio genereert in één enkele forward pass, met native lip-sync in zeven talen. Het model produceert 1080p-output in circa 38 seconden op een enkele NVIDIA H100 GPU.
Wat kan HappyHorse-1.0?
HappyHorse-1.0 is een unified 40-laags self-attention Transformer die video en audio gezamenlijk genereert in één forward pass, zonder cross-attention modules en zonder een aparte audiobewerkingsstap. Deze architectuur zorgt ervoor dat het model gesynchroniseerde audiovisuele output produceert, inclusief lip-sync in zeven talen:
- Engels,
- Mandarijn,
- Kantonees,
- Japans,
- Koreaans,
- Duits,
- Frans.
Het model biedt vier API-endpoints:
- text-to-video (video genereren op basis van een tekstprompt),
- image-to-video (een stilstaand beeld animeren),
- reference-to-video (consistente karakteridentiteit behouden over meerdere shots)
- video-edit (bestaande videocontent bewerken).
De output is beschikbaar in 720p en 1080p, in beeldverhoudingen zoals 16:9, 9:16, 1:1, 4:3 en 3:4. Dat maakt het model geschikt voor diverse platformen, van YouTube tot TikTok en Instagram.
Een opvallende eigenschap is de camerasturing: HappyHorse-1.0 reageert op specifieke cinematografische aanwijzingen zoals “slow dolly push-in”, “overhead crane shot” en variaties in windintensiteit. Het model ondersteunt ook multi-shot-sequenties met consistente karakteridentiteit, wat relevant is voor productpromo’s, social media-content en korte verhalende video’s.
HappyHorse-1.0 benchmarks en technische specificaties
Op de Artificial Analysis Video Arena, waar modellen worden gerangschikt op basis van blinde menselijke voorkeursstemmen (gebruikers vergelijken twee clips zonder te weten welk model ze heeft geproduceerd), behaalde HappyHorse-1.0 een Elo-score van 1333 in Text-to-Video en 1392 in Image-to-Video (beide zonder audio-evaluatie). Met audio in de beoordeling scoort het model 1238 Elo. Deze scores plaatsen HappyHorse-1.0 boven alle andere videogeneratiemodellen die momenteel op het platform gebenchmarkt zijn, waaronder ByteDance’s Dreamina Seedance 2.0, dat bijna 115 Elo-punten lager scoort bij text-to-video.
Het model bevat 15 miljard parameters in een 40-laags self-attention Transformer-architectuur. Op een enkele NVIDIA H100 GPU genereert HappyHorse-1.0 1080p-video in circa 38 seconden en een clip van 5 seconden op 256p-resolutie in ongeveer 2 seconden. Het model is ontwikkeld onder leiding van Zhang Di, een AI-veteraan met 15 jaar ervaring die eerder VP was bij Kuaishou en de technisch architect achter Kling AI, voordat hij eind 2025 terugkeerde bij Alibaba.
Hoe verhoudt HappyHorse-1.0 zich tot andere AI-videomodellen?
HappyHorse-1.0 is het eerste videomodel dat de toppositie bereikt op de Artificial Analysis-ranglijst. Het belangrijkste onderscheid ten opzichte van concurrenten zoals Dreamina Seedance 2.0, Sora, Veo, Runway, Pika en Luma is de gecombineerde audio-videogeneratie. Waar de meeste concurrerende modellen stille video genereren en een apart audiopijplijn vereisen, produceert HappyHorse-1.0 video met gesynchroniseerde dialoog, omgevingsgeluid en Foley-effecten in één enkele inferentiestap.
De native meertalige lip-sync in zeven talen is een ander punt waarop HappyHorse-1.0 zich onderscheidt. De meeste concurrerende modellen bieden geen lip-sync of ondersteunen uitsluitend Engels. De combinatie van hoge visuele kwaliteit (bevestigd door het blinde stemproces van de Arena) met native audio maakt HappyHorse-1.0 bijzonder relevant voor toepassingen met sprekende personen, productdemonstraties met voice-over en meertalige social media-productie.
HappyHorse-1.0 prijzen en beschikbaarheid
HappyHorse-1.0 is nu beschikbaar via het generatieve mediaplatform van fal. De prijs bedraagt $0,14 per seconde gegenereerde video op 720p-resolutie en $0,28 per seconde op 1080p, zonder minimale besteding of abonnementsvereiste. Zakelijke tarieven zijn beschikbaar op aanvraag. fal garandeert volledige commerciële rechten op alle gegenereerde output.
Ontwikkelaars kunnen HappyHorse-1.0 integreren via de Python- en JavaScript-SDK’s van fal. De vier API-endpoints zijn bereikbaar via fal.ai/models/alibaba/happy-horse/ gevolgd door text-to-video, image-to-video, reference-to-video of video-edit. Er is ook een playground beschikbaar op de fal-website voor niet-technische gebruikers.
HappyHorse-1.0 is eveneens beschikbaar via Alibaba Cloud Model Studio (Bailian), waar een introductiekorting van 10% geldt voor early access-gebruikers. Het model is ontwikkeld door Alibaba’s Taotian Future Life Lab en is wereldwijd beschikbaar vanaf de lancering.
Voor volledige technische details en API-documentatie, bezoek de officiële HappyHorse-1.0-pagina op fal.