Zyphra lanceert ZAYA1-8B

08-05-2026

ZAYA1-8B is een open-weight MoE-redeneermodel dat wiskunde- en codeerprestaties op frontier-niveau levert met minder dan een miljard actieve parameters.

Geschreven door:

Jorick van Weelie

Jorick van Weelie | Marketing Lead & AI-strateeg bij DataNorth AI Als Marketing Lead bij DataNorth bevindt Jorick zich op het snijvlak van merkautoriteit en technische innovatie. Hij is gespecialiseerd in het vertalen van complexe AI-architecturen naar concrete bedrijfsstrategieën, waarbij hij ervoor zorgt dat AI niet slechts een "tool" is, maar een katalysator voor groei. Met een sterke focus op de EU AI Act en AI-driven growth marketing geeft Jorick vorm aan het narratief van het Nederlandse AI-landschap, waarbij hij organisaties helpt om vertrouwen op te bouwen terwijl ze hun intelligentie verder opschalen.

Meld je aan voor de Nieuwsbrief

8 mei 2026

Zyphra heeft ZAYA1-8B uitgebracht, een mixture-of-experts (MoE) redeneermodel met 8,4 miljard parameters in totaal en slechts 760 miljoen actieve parameters per inferentiebeurt. Het model is volledig getraind op AMD Instinct MI300X-hardware en evenaart of overtreft aanzienlijk grotere open-weight en propriëtaire modellen op wiskunde- en codeerbenchmarks. ZAYA1-8B is beschikbaar onder een Apache 2.0-licentie op Hugging Face en als serverless endpoint op Zyphra Cloud.

Wat is ZAYA1-8B en wat kan het?

ZAYA1-8B is een compact maar krachtig redeneermodel dat gebouwd is op Zyphra’s MoE++-architectuur. Ondanks dat het slechts 760 miljoen parameters per token activeert, scoort het:

  • 89,1 op AIME ’26,
  • 71,6 op HMMT Feb. ’26,
  • 59,3 op IMO-AnswerBench,
  • 65,8 op LiveCodeBench-v6
  • 71,0 op GPQA-Diamond.

Daarmee laat het modellen als Qwen3-4B-Thinking-2507 en Gemma-4-E4B-it achter zich op alle wiskunde- en codeercategorieën.

Wat ZAYA1-8B bijzonder maakt is de efficiëntie. Met 760 miljoen actieve parameters overtreft het Mistral-Small-4-119B (dat 6 miljard actieve parameters gebruikt uit een totaal van 119 miljard) op wiskunde- en codeerbenchmarks:

  • 89,1 tegenover 86,4 op AIME ’26
  • 63,8 tegenover 57,9 op LiveCodeBench-v6.

Mistral-Small-4-119B behoudt wel een voorsprong op kennisintensieve benchmarks zoals GPQA-Diamond (77,2 tegenover 71,0) en MMLU-Pro (81,6 tegenover 74,2), waar breedte zwaarder weegt dan redeneerdiepte.

Architectuur en technische innovaties van ZAYA1-8B

ZAYA1-8B is gebouwd op Zyphra’s MoE++-architectuur, die drie specifieke verbeteringen doorvoert ten opzichte van standaard MoE-ontwerpen. Ten eerste werkt Compressed Convolutional Attention (CCA) in een gecomprimeerde latente ruimte en realiseert een 8x KV-cache-compressie vergeleken met standaard attention, wat het geheugengebruik bij inferentie direct verlaagt. Ten tweede vervangt een MLP-gebaseerde router met PID-controller-biasbalancering de standaard lineaire projectierouter, wat de routeringsstabiliteit verbetert. Ten derde regelt learned residual scaling de groei van residual-normen door diepte heen, met verwaarloosbare kosten in parameters en rekenkracht.

De volledige trainingspipeline draaide op een cluster van 1.024 AMD Instinct MI300X-nodes, verbonden via AMD Pensando Pollara-interconnect, in een op maat gebouwd trainingscluster met IBM. ZAYA1-8B is het eerste MoE-model dat volledig op AMD-hardware is gepretraind, midtrained en supervised fine-tuned.

Markovian RSA: hoe ZAYA1-8B redeneren opschaalt tijdens inferentie

Naast het model introduceert Zyphra Markovian RSA, een nieuwe test-time compute-methode die twee bestaande ideeën op een nieuwe manier combineert. Recursive Self-Aggregation (RSA) genereert meerdere redeneerketens parallel en aggregeert ze recursief over iteraties. Het Markovian thinker-idee voert redeneren uit in stukken van vaste lengte, waarbij alleen het einde van het vorige stuk wordt doorgegeven aan het volgende. Zo blijft het contextvenster begrensd, ongeacht hoe lang het model redeneert.

Met Markovian RSA op een extra hoog test-time compute-budget van 5,5 miljoen tokens per opgave overtreft ZAYA1-8B zowel DeepSeek-V3.2 als GPT-OSS-High op de uitdagende APEX-shortlist wiskundebenchmark met een score van 32,2. Dit laat zien dat zelfs een klein model frontier-niveau prestaties kan benaderen wanneer het voldoende rekenkracht krijgt tijdens inferentie.

Beschikbaarheid, prijzen en licentie van ZAYA1-8B

ZAYA1-8B is direct beschikbaar als gratis serverless endpoint op Zyphra Cloud via cloud.zyphra.com, en de modelgewichten zijn te downloaden van Hugging Face onder een Apache 2.0-licentie. De open-weight release betekent dat ontwikkelaars en onderzoekers het model lokaal kunnen draaien, fine-tunen voor specifieke toepassingen of integreren in bestaande pipelines zonder licentiebeperkingen.

Door het kleine aantal actieve parameters van 760 miljoen is ZAYA1-8B bijzonder geschikt voor deployment op edge-apparaten en in omgevingen met beperkte rekenkracht, waar grotere modellen onpraktisch zouden zijn. Zyphra heeft daarnaast een partnerschap aangekondigd met AMD om Zyphra Cloud voortaan te draaien op AMD Instinct MI355X GPU’s.

Het volledige technische rapport en de modelgewichten van ZAYA1-8B zijn beschikbaar op de website van Zyphra op zyphra.com/post/zaya1-8b en op Hugging Face.