DeepSeek lanceert V4: open-source 1,6T MoE-model met 1 miljoen tokens contextvenster

24-04-2026

DeepSeek-V4 is een open-source MoE-model met 1,6 biljoen parameters en een contextvenster van 1 miljoen tokens dat concurreert met gesloten frontiermodellen tegen een fractie van de kosten.

Geschreven door:

Jorick van Weelie

Jorick van Weelie | Marketing Lead & AI-strateeg bij DataNorth AI Als Marketing Lead bij DataNorth bevindt Jorick zich op het snijvlak van merkautoriteit en technische innovatie. Hij is gespecialiseerd in het vertalen van complexe AI-architecturen naar concrete bedrijfsstrategieën, waarbij hij ervoor zorgt dat AI niet slechts een "tool" is, maar een katalysator voor groei. Met een sterke focus op de EU AI Act en AI-driven growth marketing geeft Jorick vorm aan het narratief van het Nederlandse AI-landschap, waarbij hij organisaties helpt om vertrouwen op te bouwen terwijl ze hun intelligentie verder opschalen.

Meld je aan voor de Nieuwsbrief

Gepubliceerd: 24 april 2026

DeepSeek heeft vandaag DeepSeek-V4 officieel uitgebracht, het nieuwste vlaggenschipmodel van het Chinese AI-lab. Het model verschijnt in twee varianten:

DeepSeek-V4-Pro (1,6 biljoen parameters totaal, 49 miljard actief).
DeepSeek-V4-Flash (284 miljard parameters totaal, 13 miljard actief).

Beide modellen maken gebruik van een Mixture of Experts (MoE)-architectuur, ondersteunen een contextvenster van 1 miljoen tokens en zijn open-source beschikbaar onder de Apache 2.0-licentie. Met deze release concurreert DeepSeek-V4 rechtstreeks met gesloten modellen van OpenAI, Anthropic en Google, tegen een API-prijs die 50 tot 80 procent lager ligt.

Wat kan DeepSeek-V4?

DeepSeek-V4 introduceert een hybride attention-mechanisme dat Compressed Sparse Attention (CSA) combineert met Heavily Compressed Attention (HCA). Dit stelt het model in staat om tot 1 miljoen tokens context in een enkele pass te verwerken. Dat maakt het geschikt voor taken die vragen om analyse van volledige codebases, lange juridische documenten of uitgebreide gespreksgeschiedenissen. Het model ondersteunt twee redeneermodi: een Thinking-modus met drie inspanningsniveaus (high, max en non-think) en een standaard Non-Thinking-modus voor snellere antwoorden.

Beide varianten ondersteunen JSON-output, tool calls en chat prefix completion (momenteel in bèta). Het V4-Pro-model ondersteunt daarnaast FIM (Fill-in-the-Middle) completion in de non-thinking-modus, wat het bijzonder effectief maakt voor code-aanvulling en bewerkingstaken. DeepSeek-V4 is een native multimodaal model dat tekst, afbeeldingen en video kan genereren, hoewel de beeld- en videomogelijkheden naar verwachting gefaseerd worden uitgerold na de initiële tekstgerichte lancering.

DeepSeek-V4 benchmarks en technische specificaties

DeepSeek-V4-Pro levert benchmarkresultaten die het model plaatsen bij de best presterende modellen op dit moment.

Op MMLU-Pro scoort het 87,5, gelijk aan GPT-5.4.
Op LiveCodeBench haalt het 93,5, waarmee het zowel Gemini 3.1 Pro (91,7) als Claude Opus 4.6 (88,8) overtreft.
De Codeforces-rating van 3.206 is hoger dan die van GPT-5.4 (3.168).
Op Apex Shortlist scoort het 90,2, boven Claude Opus 4.6 (85,9) en GPT-5.4 (78,1).

Bij agentische taken scoort DeepSeek-V4-Pro 80,6 op SWE-Verified (vergelijkbaar met Claude Opus 4.6 op 80,8 en Gemini 3.1 Pro op 80,6) en 67,9 op Terminal Bench 2.0 (boven Claude Opus 4.6 op 65,4).

Op Humanity’s Last Exam (HLE) blijft het achter bij de koplopers met een score van 37,7, vergeleken met Gemini 3.1 Pro op 44,4 en Claude Opus 4.6 op 40,0.

De V4-Flash-variant scoort doorgaans 1 tot 3 procentpunten lager dan V4-Pro, met grotere verschillen bij feitelijke recall en complexe tool-use-benchmarks.

DeepSeek-V4 prijzen en beschikbaarheid

DeepSeek-V4-Flash kost $0,14 per miljoen input-tokens (cache miss) en $0,28 per miljoen output-tokens, met gecachte input-tokens voor slechts $0,028 per miljoen. DeepSeek-V4-Pro kost $1,74 per miljoen input-tokens (cache miss) en $3,48 per miljoen output-tokens, met gecachte input voor $0,145 per miljoen. Ter vergelijking: GPT-5.4 kost $2,50 per miljoen input-tokens en $15 per miljoen output-tokens, terwijl Claude Opus 4.6 $5 per miljoen input en $25 per miljoen output kost. Beide varianten ondersteunen een maximale outputlengte van 384.000 tokens.

De modellen zijn direct beschikbaar via de DeepSeek API. De open-source weights staan op Hugging Face onder de Apache 2.0-licentie. DeepSeek heeft aangekondigd dat de legacy deepseek-chat en deepseek-reasoner API-endpoints op 24 juli 2026 worden uitgefaseerd. In de tussentijd verwijzen deze endpoints naar deepseek-v4-flash.

Hoe verhoudt DeepSeek-V4 zich tot GPT-5.4 en Claude Opus 4.6?

DeepSeek-V4-Pro evenaart of overtreft GPT-5.4 en Claude Opus 4.6 op de meeste code- en redeneerbenchmarks, terwijl het een fractie van de prijs kost. Bij code generatie taken zoals LiveCodeBench en Codeforces is V4-Pro de koploper. Bij kennisintensieve benchmarks zoals SimpleQA-Verified en HLE blijft het achter, wat suggereert dat de kracht van DeepSeek-V4 meer ligt bij gestructureerd redeneren en code dan bij feitelijke recall. De V4-Flash-variant, met zijn aanzienlijk kleinere actieve parametercount (13 miljard versus 49 miljard voor Pro), biedt een aantrekkelijke optie voor toepassingen met hoge volumes waarbij kosten zwaarder wegen dan piekcapaciteit.

Het open-source karakter van beide modellen is een belangrijk onderscheidend kenmerk. Anders dan GPT-5.4, Claude Opus 4.6 en Gemini 3.1 Pro kan DeepSeek-V4 zelf worden gehost, gefinetuned en geïnspecteerd. Voor organisaties met eisen rond datasoevereiniteit of die op maat gemaakte AI-oplossingen willen bouwen, blijft dit een wezenlijk voordeel ten opzichte van de gesloten alternatieven.

DeepSeek-V4 architectuur: wat is er veranderd ten opzichte van V3?

DeepSeek-V4-Pro is getraind op 33 biljoen tokens, meer dan het trainingsvolume van V3, terwijl V4-Flash is getraind op 32 biljoen tokens. De belangrijkste architecturale vernieuwing is het hybride CSA/HCA attention-mechanisme, dat efficiënte verwerking van zeer lange reeksen mogelijk maakt zonder de kwadratische schaling die standaard transformer-attention beperkt. De MoE-aanpak zorgt ervoor dat slechts een subset van de parameters per token wordt geactiveerd (49 miljard van de 1,6 biljoen voor Pro en 13 miljard van de 284 miljard voor Flash), waardoor de inferentiekosten beheersbaar blijven ondanks het grote totale parametercount.

De SWE-bench Verified-prestatie steeg van 69% bij DeepSeek-V3 naar 80,6% bij V4-Pro, een verbetering van 12 procentpunten die zowel de architectuurupgrades als de uitgebreide trainingsdata weerspiegelt. Het contextvenster van 1 miljoen tokens, mogelijk gemaakt door DeepSeek Sparse Attention (DSA) en tokengewijze compressie, is vier keer de contextlengte van V3.

DeepSeek-V4 is nu beschikbaar via de DeepSeek API en op Hugging Face. Het volledige technische rapport en de modelweights zijn te vinden op de officiële website van DeepSeek op deepseek.com.