2 juni 2026
MiniMax, het in Shanghai gevestigde AI-lab, heeft op 1 juni 2026 zijn vlaggenschipmodel MiniMax M3 uitgebracht. MiniMax M3 is het eerste open-weight model dat frontier-niveau codeerperformance, een contextvenster van 1 miljoen tokens en native multimodale mogelijkheden (beeld- en videobegrip) combineert in één architectuur. Het model scoort 59,0% op SWE-Bench Pro en overtreft daarmee zowel OpenAI GPT-5.5 als Google Gemini 3.1 Pro op deze veelgebruikte benchmark voor software-engineering.
Wat kan MiniMax M3?
MiniMax M3 is gebouwd voor langdurige, complexe codeer- en agentische taken. Het model verwerkt tot 1 miljoen tokens context in één keer, vijf keer meer dan zijn voorganger MiniMax M2.7. Hierdoor kan M3 werken met volledige codebases, onderzoekspipelines met meerdere documenten en langlopende agentsessies zonder eerder verstrekte informatie te verliezen.
Naast coderen begrijpt MiniMax M3 ook native afbeeldingen en video, waardoor het een multimodaal model is in plaats van een puur tekstsysteem. MiniMax demonstreerde bij de lancering drie langdurige taken: de autonome reproductie van een ICLR 2025-onderzoekspaper in 12 uur (met 18 commits en 23 figuren), een 24-uurs CUDA-kerneloptimalisatie die FP8-hardwarebenutting verhoogde van 7,6% naar 71,3% (een 9,4x versnelling over 147 benchmarkinzendingen), en een modeltrainingstaak waarbij M3 een score van 0,37 behaalde op PostTrainBench door een ander model volledig zelfstandig te trainen.
MiniMax M3 benchmarks en technische specificaties
MiniMax M3 scoort 59,0% op SWE-Bench Pro, een benchmark die real-world software-engineering fixes meet. Dit resultaat plaatst M3 boven OpenAI GPT-5.5 en Google Gemini 3.1 Pro, en komt in de buurt van Anthropic Claude Opus 4.7 op dezelfde test. Op Terminal-Bench 2.1 (command-line agenttaken) scoort M3 66,0%. Op MCP Atlas, een tool-use benchmark, behaalt het 74,2%. Op BrowseComp, een benchmark voor websearch en browsen, scoort MiniMax M3 83,5, waarmee het de score van Claude Opus 4.7 (79,3) overtreft.
De belangrijkste architectuurinnovatie in MiniMax M3 is MiniMax Sparse Attention (MSA). Dit ontwerp gebruikt een lichtgewicht indexbranch om inkomende tokens te scannen en te selecteren welke blokken van eerdere tokens aandacht nodig hebben, waarna alleen op die relevante blokken aandacht wordt uitgevoerd. Bij een contextlengte van 1 miljoen tokens reduceert MSA de per-token compute tot een twintigste van de vorige generatie, levert het meer dan 9x snellere prefill (verwerking van de input) en meer dan 15x snellere decoding (genereren van output). De outputsnelheid ligt rond de 100 tokens per seconde, ongeveer 3x sneller dan Claude Opus. MiniMax heeft het totale parameteraantal van M3 niet bekendgemaakt.
Belangrijk om op te merken is dat verschillende benchmarkresultaten zijn verkregen op MiniMax’ eigen infrastructuur met behulp van agent scaffolding zoals Claude Code en Mini-SWE-Agent. Onafhankelijke verificatie door derden is nog niet beschikbaar en M3 is nog niet verschenen op het DeepSWE-scorebord voor langdurige softwaretaken.
Hoe verhoudt MiniMax M3 zich tot GPT-5.5, Claude Opus 4.7 en Gemini 3.1 Pro?
Op SWE-Bench Pro overtreft MiniMax M3 (59,0%) OpenAI GPT-5.5 en Google Gemini 3.1 Pro, al blijft het met een kleine marge achter op Anthropic Claude Opus 4.7.
Op de BrowseComp-websearchbenchmark scoort M3 (83,5) hoger dan Claude Opus 4.7 (79,3).
Het prijsverschil is aanzienlijk: MiniMax M3 API-inputprijzen beginnen bij ongeveer $0,30 per miljoen tokens, terwijl Claude Opus 4.7 $5,00 per miljoen inputtokens en $25,00 per miljoen outputtokens kost. Dat maakt M3 meer dan 15x goedkoper op input.
Binnen het Chinese open-weight modelecosysteem concurreert MiniMax M3 direct met DeepSeek V4 en Alibaba Qwen3.7-Max. Alle drie richten ze zich op vergelijkbare agentische codeergebruiksscenario’s en bieden ze open weights. Het onderscheidende kenmerk van MiniMax is de combinatie van frontier-codering, 1M-token context en native multimodaliteit in één model. De MSA-architectuur is wat het contextvenster van 1 miljoen tokens praktisch bruikbaar maakt voor productiewerklasten in plaats van slechts een specificatie op papier, door de inferentiekosten terug te brengen tot een fractie van wat full-attention modellen op die schaal vereisen.
Beschikbaarheid en prijzen van MiniMax M3
MiniMax M3 is nu beschikbaar via de MiniMax API, MiniMax Code (het agentproduct van het bedrijf) en maandelijkse tokenplanabonnementen. De API-prijs is vastgesteld op ongeveer $0,60 per miljoen inputtokens en $2,40 per miljoen outputtokens tegen standaardtarieven, met 50% lanceringskorting voor de eerste week ($0,30 input / $1,20 output). Met cache-optimalisatie daalt de gemiddelde kostprijs tot circa $0,06 per miljoen tokens. Maandelijkse tokenplannen zijn beschikbaar voor $20 (Plus, circa 1,7 miljard tokens), $50 (Max, circa 5,1 miljard tokens) en $120 (Ultra, circa 9,8 miljard tokens).
Open weights en een volledig technisch rapport worden verwacht op Hugging Face en GitHub, naar verwachting binnen ongeveer tien dagen na de lancering. De licentievoorwaarden zijn nog niet gepubliceerd. Het vorige model van MiniMax, M2.7, werd uitgebracht onder een licentie die commercieel gebruik beperkte zonder voorafgaande schriftelijke toestemming, dus M3 volgt mogelijk een vergelijkbare aanpak. MiniMax is sinds januari 2026 beursgenoteerd aan de Hong Kong Stock Exchange en bereidt een tweede notering voor aan de Star Market in Shanghai.
Wat betekent MiniMax M3 voor het AI-modellandschap?
MiniMax M3 markeert een verschuiving op twee gebieden. Ten eerste toont het aan dat sparse attention op productieschaal kan werken voor long-context modellen. MiniMax zelf had sparse attention laten vallen tijdens de gehele M2-generatie ten gunste van full attention en noemde de infrastructuur destijds “nog niet volwassen”. De terugkeer naar sparse attention met MSA en de realisatie van een versnelling met een orde van grootte suggereren dat de technologie inmiddels volwassen is. Anthropic, Google DeepMind en OpenAI werken allen aan efficient-attention onderzoek, maar geen van hen heeft een vlaggenschipmodel uitgebracht met vergelijkbare publieke efficiëntie beloften bij 1M-token context.
Ten tweede vergroot M3 het kostenverschil tussen Chinese open-weight modellen en Westerse proprietary alternatieven verder. Na de prijsdruk van DeepSeek en Qwen biedt MiniMax nu frontier-competitieve codeerprestaties tegen een fractie van de kosten van Claude Opus of GPT-5.5. Voor ontwikkelaars die codeeragenten en long-context werklasten evalueren, is M3 het direct testen waard via de API, met een meer definitieve beoordeling zodra onafhankelijke benchmarks en de open weights beschikbaar komen.
Voor alle details over MiniMax M3, inclusief het architectuur overzicht en de benchmark methodologie, zie de officiële aankondiging op de MiniMax blog.