Bi Asteren Ondoren: 22 Eredu Berri eta Hiruko 200/200 MIR 2026an

2026ko otsailaren 5ean argitaratu genuen "199/200: IAk Bakarra Huts Egiten du MIR 2026an". Orduan, 199/200 sabai arrazoizkoa zirudien: jada gizaki historiko oro baino hobea zen, eta azterketak (200 galdera baliozko) ez du ia tarterik uzten.

Hamabost egun geroago, sabai hori ez da existitzen.

2026ko otsailaren 5etik 2026ko otsailaren 20ra, 22 eredu berri gehitu ditugu benchmarkera, eta 22ak jada ebaluatuta daude MIR 2026-en eta global metatua ranking-ean.

Argazkia bi arrazoirengatik aldatzen da:

Errendimendua 200/200era iristen da (nota perfektua).
Nota perfektua dagoenean, arazoa ez da "nork asmatzen du gehiago", baizik eta "nola alderatzen dituzu berdinketan daudenak".

1. Hamabostaldia Irudi Batean

Custom (ALMA/MIRI)

Frontier

Espezializatua

Isats luzea

2026ko otsailaren 5etik aurrera gehitutako ereduak. Eskuineko etiketa: MIR 2026ko posizioa.

Grafiko hau da laburpenik onena: hamabostaldiko 22 gehikuntza release-nota baten antza izan dezake, baina "sabaia duen" benchmark batean (200 galdera) beste zerbait da: rankingaren esanahia aldatzen duen bultzada.

Garrantzitsua ez da soilik "eredu gehiago" egotea, baizik eta batzuk zuzenean goiko zonara sartzea. Zehazki:

MIR 2026-ko Top 3-a hiruko 200/200 bihurtu da: ALMA, MIRI eta Gemini 3.1 Pro Preview.
22tik 5 eredu berri urteko Top 20an sartzen dira.
Open-weights blokean, hierarkia aldatzen duen hautagaia agertzen da: Qwen3.5 397B A17B.

Post hau hamabostaldi horren kontakizuna da: zer ikusi dugun, zer ikasi dugun eta, batez ere, zergatik aldatzen den rankingaren izaera tarterik gabe geratzen denean.

2. Berdinketa Perfektua eta Denborazko Desberdinketa Berria

Gaur, MIR 2026-ko goiko aldeak honela ematen du:

ALMA — 200/200
MIRI — 200/200
Gemini 3.1 Pro Preview — 200/200

Aldea desberdinketan dago. Hainbat ereduk 200/200 egiten dutenean, lortze-uneagatik ordenatzen dira (sinkronizazio timestamp-a): lehenengo lortu duenak aurretik, geroago lortzen dutenak atzetik.

Horrela saihesten da alborapen agerikoa: aste batzuk geroago kaleratutako eredu batek abantaila teknologikoa du lehenago ebaluatutako baten aldean. Atzerapen hori penalizatzen ez baduzu, rankingak "berandu iristea" saritzen du.

Eguneratze honetan, denborazko ordenak Gemini 3.1 Pro Preview ALMA eta MIRIren atzetik uzten du, %100era iristen bada ere.

Ez dugu ALMA/MIRI sakon landuko hemen, euren analisi propioa dutelako "ALMA eta MIRI: RAG Agêntico" artikuluan; baina garrantzitsua zen hemen kokatzea, egungo sabaiaren erreferentzia erreal gisa.

3. Gemini: 3.1 Pro-ren Jauzia eta Flash vs Pro Paradoxa

MIR 2024

MIR 2025

MIR 2026

3 urteko stack-a Gemini 3 Flash, Gemini 3 Pro eta Gemini 3.1 Pro ereduen ranking global metatua alderatzeko.

Lehenik global metatuari begiratzen badiogu (MIR 2024, 2025 eta 2026ren batura), hiru Gemini ereduen konparazioa honakoa da:

Gemini 3 Flash: #3 global, 586,667 garbi.
Gemini 3.1 Pro: #4 global, 584 garbi.
Gemini 3 Pro: #9 global, 580 garbi.

Irakurketa interesgarriagoa da dirudiena baino. "Global metatuan" ez duzu argazki bat saritzen, ibilbide bat baizik: hiru azterketetan zeharreko koherentzia. Eta hor, oraingoz, Flash aurretik doa.

Orain: MIR 2026-en, hamabostaldi honetako datu nagusia da Gemini 3.1 Pro Preview-k 200/200 lortzen duela. Hau da: eredu berri batek, definizioz, ez du non "igo" azterketa honetan.

Gemini 3 Flash Preview: 199/200, kostua 0,341766 €.
Gemini 3 Pro Preview: 198/200, kostua 5,746186 €.
Gemini 3.1 Pro Preview: 200/200, kostua 4,326056 €.

Paradoxa operatiboa: MIR 2026an, Flash-ek Pro baino asmatze/kostu erlazio hobea mantentzen du, eta MedGemma urrun geratzen da osasuneko bertikala izan arren.

Hemen bi istorio daude aldi berean:

Sabaia: 3.1 Pro-k 200/200 lortzen du. Gehienekoa lortzean, rankingak ez du bereizmenik "hobekuntza txikiak" bereizteko. Horregatik, denborazko desberdinketa beharrezkoa da.
Eraginkortasuna: Flash-ek berriro irabazten du Flash vs Pro duelua benchmark honetan, kostuaren zati txiki batekin. Eta ez da kasualitatea: Gemini 3 Flash esplizituki aurkeztu zen "fronte eraginkorra" (kalitatea latentzian/kostuan) bultzatzeko, ez "txikiagoa" izateagatik galtzera kondenatutako bertsio gisa.^[1]

Beste geruza bat: Googlek 3.1 Pro arrazoiketan eta zeregin luzeetan (coding/agentic barne) egindako jauzi gisa aurkezten du. Apustu horren zati bat, gainera, GitHub Copilot bezalako garapen-tresnetan ere agertu da preview gisa.^[2]

Eta denborazko tartea laburra da: Googleko erregistro publikoetan, Gemini 3 Pro Preview 2025eko azaroan agertzen da, eta Gemini 3.1 Pro 2026ko otsailaren 19an iragartzen da.^[9]

4. Qwen3.5 397B A17B: Hierarkia Aldaketa Open-Data-n

Qwen

5. MedGemma: Zintzoak Izatera Behartzen duen Kasua

IA medikoan tentazio errepikakorra dago: "bertikala" = "hobea" pentsatzea. Horregatik, narratibaz interes handiena pizten zuen eredua MedGemma zen.

Emaitza eguneratuak:

Ez da emaitza txarra absolutuan: 172/200 nota duina da oraindik. Baina bai, argi eta garbi, baxua da MIR benchmark batean bere izenak iradokitzen duenarekin alderatuta.

Eta hemen dago lezio deserosoa: adierazitako espezializazioa ez da neurtutako espezializazioa. Eredu bat biomediarako entrenatua egon daiteke eta, hala ere, MIR moduko azterketa batean okerrago aritu, MIR ez delako "medikuntza hutsa". Gaztelaniaz da, MCQ formatuan, azterketa-estiloko tranpekin eta gai banaketa oso zehatzarekin.

Kanpoko testuingurua: MedGemma osasunera orientatutako eredu-familia gisa aurkeztu zen, Gemma-ren gainean eraikia eta zeregin mediko espezifikoetan entrenatu/ebaluatua (testua eta, bertsioaren arabera, multimodala). Proposamen estrategiko hori garrantzitsua da: tokian bertan exekutatu daitekeen eredu mediko bat "irekitzea" urrats handia da ikerketarako eta hedapen sentikorretarako.^[5]

Baina benchmarkak epai zorrotza ematen du: MIRen lehen argazki lehiakor honetan, MedGemma SOTA frontearekiko urrun geratzen da.

6. Claude Opus 4.6: Hobekuntza Globalean, Geldialdia MIR 2026an

Opus familiaren nota globalaren konparaketa: 4.6k 4.5 apur bat hobetzen du eta 4.1ekiko aldea handitzen du.

Aste hauetako elkarrizketa publikoa jarraitu baduzu, erraza da pentsatzea "kode ereduak" direla SOTA unibertsala. Arazoa da MIR-ek ez duela SWE-bench-ek saritzen duena saritzen.

Claude Opus 4.6 gehitzeak ondorio ñabartu bat uzten du:

global ranking-ean, nota apur bat igotzen da: Opus 4.1 (556,333 garbi) → Opus 4.5 (568 garbi) → Opus 4.6 (570,667 garbi).
Posizio globalean, Opus 4.6 #27ra igotzen da, #33 (4.5) eta #57 (4.1) posizioen aurretik.
MIR 2026-en, Opus 4.6 #20 (197/200) da, eta Opus 4.5-rekin berdinduta dago asmatzeetan.
MIR 2026ko kostuan, Opus 4.6 4.5 baino zertxobait garestiagoa da (4,888935 € vs 4,620485 €).

Hau merkatuan ikusten dugunarekin bat dator: Opus 4.6 kode eta agentibitate zeregin konplexuetarako kokatuta dago, ez MCQ medikoetarako.^[6] Argudio osoa nahi baduzu, hemen garatzen dugu: "The Swiss Army Knife and the Scalpel".

Eta hemen dator puntu kritikoa: GPT-5.3-Codex oraindik ez dago benchmarkean, API publiko bidez eskuragarri ez dagoelako baldintza konparagarrietan. OpenAI-k coding-eko puntako gisa aurkezten du, baina bere komunikazioak sarbidea produktuetan kokatzen du eta API sarbidea "pendiente" gisa uzten du.^[7] API changelog publikoan, eskuragarri dagoen eredua gpt-5.2-codex da, ez 5.3.^[8]

Kritika sinplea da: API sarbide konparagarririk gabe, ez dago konparazio justurik. Eta konparazio justurik gabe, ez dago ebidentziarik, marketina besterik ez.

7. Bi Astean Ikasitakoa

Hamabostaldi hau profil desberdinetarako (klinikoa, teknikoa, produktua) laburtu beharko banu, sei ikaskuntza hartuko nituzke:

Benchmarkak ez du jada incrementu txikien fasea: muga-jauzien fasean dago, astez aste.
%100era iristean, rankingak arau berriak behar ditu: denborazko desberdinketa ez da aukerakoa.
Eraginkortasuna vs tamaina paradoxak (Flash vs Pro) ez du desagertzen; 3.1 Pro-ren jauziarekin batera bizi da.
Qwen3.5 open-weights gutxik sartu diren zonara sartzen da: benetako top 15 globalera.
Osasun eredua ez da "hobea" etiketagatik: espezializazioa ingurune zehatzean neurtu behar da.
"Kode gerra" ebaluatzeko lepo-botila bera da: API sarbide homogeneoa.

Ondorio nagusia ez da aldatzen, baina orain sendoagoa da: benchmarkaren 2026ko bilakaera asteetan gertatzen ari da, ez hiruhilekoetan. Eta horrek "eguneratze" bakoitza mini aro-aldaketa gisa tratatzera behartzen du.

Kurba malda honetan jarraitzen badu, hurrengo mozketa podiuma berriro mugitu dezake.

Notas y Referencias

Gemini Flash-i buruzko testuinguru ofiziala eta kanpokoa (efizientzia estrategia gisa, ez soilik 'eredu txikia'): Google Developers Blog (Gemini 3 Flash, 2025eko abenduaren 17a) developers.googleblog.com eta coverage teknikoa techcrunch.com.
Gemini 3.1 Pro Preview (2026ko otsailaren 19a) eta garapen tooling-era iristea: 9to5Google 9to5google.com eta GitHub Copilot changelog github.blog.
Qwen3.5 397B A17B: model card ofiziala (arkitektura, gaitasunak, posizionamendua). huggingface.co/Qwen/Qwen3.5-397B-A17B.
Qwen3.5 abiaraztearen testuingurua eta agentic/open-weights fokua: Economic Times (2026ko otsailaren 16a) economictimes.indiatimes.com.
MedGemma: model card ofiziala (Google Developers) developers.google.com eta Hugging Face fitxa (adibidea) huggingface.co/google/medgemma-27b-text-it.
Anthropic: Claude Opus 4.6 iragarpena eta dokumentazioa anthropic.com eta produktu orria anthropic.com/claude/opus.
OpenAI: GPT-5.3-Codex abiaraztea eta eskuragarritasun/API oharra (2026ko otsailaren 5a) openai.com.
OpenAI API changelog (2026ko urtarrilaren 14a): gpt-5.2-codex APIan eskuragarri eta 5.3-ri buruzko erreferentziarik ez changelog publikoan. platform.openai.com.
Google Gemini API changelog (katalogo/daten erreferentzia publikoa): ai.google.dev.