MedicalBenchmark
Blogera itzuli

Bi Asteren Ondoren: 22 Eredu Berri eta Hiruko 200/200 MIR 2026an

2026ko otsailaren 5etik 20ra 22 eredu berri gehitu ditugu benchmarkera. 15 egunetan %99,5etik %100era egin dugu jauzi: Gemini 3.1 Pro Preview-k 200/200 lortzen du, Qwen3.5 397B A17B-k open-weights sabaiari pitzadura egiten dio ranking globalean, eta MedGemma-k osasuneko "espezializazioa" zer den benetan erakusten duen lezio deserosoa uzten du.

Storytelling teknikoa grafiko berriekin: berdinketa perfektua, denborazko desberdinketa eta benchmark bat sabairik gabe geratzen denean nola aldatzen den.

Equipo MedBench2026(e)ko otsailaren 20(a)9 min irakurketa
MIR 2026BenchmarkGemini 3.1Qwen3.5Claude Opus 4.6Eguneratzea

2026ko otsailaren 5ean argitaratu genuen "199/200: IAk Bakarra Huts Egiten du MIR 2026an". Orduan, 199/200 sabai arrazoizkoa zirudien: jada gizaki historiko oro baino hobea zen, eta azterketak (200 galdera baliozko) ez du ia tarterik uzten.

Hamabost egun geroago, sabai hori ez da existitzen.

2026ko otsailaren 5etik 2026ko otsailaren 20ra, 22 eredu berri gehitu ditugu benchmarkera, eta 22ak jada ebaluatuta daude MIR 2026-en eta global metatua ranking-ean.

Argazkia bi arrazoirengatik aldatzen da:

  1. Errendimendua 200/200era iristen da (nota perfektua).
  2. Nota perfektua dagoenean, arazoa ez da "nork asmatzen du gehiago", baizik eta "nola alderatzen dituzu berdinketan daudenak".

1. Hamabostaldia Irudi Batean

Custom (ALMA/MIRI)
Frontier
Espezializatua
Isats luzea

2026ko otsailaren 5etik aurrera gehitutako ereduak. Eskuineko etiketa: MIR 2026ko posizioa.

Grafiko hau da laburpenik onena: hamabostaldiko 22 gehikuntza release-nota baten antza izan dezake, baina "sabaia duen" benchmark batean (200 galdera) beste zerbait da: rankingaren esanahia aldatzen duen bultzada.

Garrantzitsua ez da soilik "eredu gehiago" egotea, baizik eta batzuk zuzenean goiko zonara sartzea. Zehazki:

Post hau hamabostaldi horren kontakizuna da: zer ikusi dugun, zer ikasi dugun eta, batez ere, zergatik aldatzen den rankingaren izaera tarterik gabe geratzen denean.


2. Berdinketa Perfektua eta Denborazko Desberdinketa Berria

Gaur, MIR 2026-ko goiko aldeak honela ematen du:

  1. ALMA200/200
  2. MIRI200/200
  3. Gemini 3.1 Pro Preview200/200

Aldea desberdinketan dago. Hainbat ereduk 200/200 egiten dutenean, lortze-uneagatik ordenatzen dira (sinkronizazio timestamp-a): lehenengo lortu duenak aurretik, geroago lortzen dutenak atzetik.

Horrela saihesten da alborapen agerikoa: aste batzuk geroago kaleratutako eredu batek abantaila teknologikoa du lehenago ebaluatutako baten aldean. Atzerapen hori penalizatzen ez baduzu, rankingak "berandu iristea" saritzen du.

Eguneratze honetan, denborazko ordenak Gemini 3.1 Pro Preview ALMA eta MIRIren atzetik uzten du, %100era iristen bada ere.

Ez dugu ALMA/MIRI sakon landuko hemen, euren analisi propioa dutelako "ALMA eta MIRI: RAG Agêntico" artikuluan; baina garrantzitsua zen hemen kokatzea, egungo sabaiaren erreferentzia erreal gisa.


3. Gemini: 3.1 Pro-ren Jauzia eta Flash vs Pro Paradoxa

MIR 2024
MIR 2025
MIR 2026

3 urteko stack-a Gemini 3 Flash, Gemini 3 Pro eta Gemini 3.1 Pro ereduen ranking global metatua alderatzeko.

Lehenik global metatuari begiratzen badiogu (MIR 2024, 2025 eta 2026ren batura), hiru Gemini ereduen konparazioa honakoa da:

Irakurketa interesgarriagoa da dirudiena baino. "Global metatuan" ez duzu argazki bat saritzen, ibilbide bat baizik: hiru azterketetan zeharreko koherentzia. Eta hor, oraingoz, Flash aurretik doa.

Orain: MIR 2026-en, hamabostaldi honetako datu nagusia da Gemini 3.1 Pro Preview-k 200/200 lortzen duela. Hau da: eredu berri batek, definizioz, ez du non "igo" azterketa honetan.

Paradoxa operatiboa: MIR 2026an, Flash-ek Pro baino asmatze/kostu erlazio hobea mantentzen du, eta MedGemma urrun geratzen da osasuneko bertikala izan arren.

Hemen bi istorio daude aldi berean:

  1. Sabaia: 3.1 Pro-k 200/200 lortzen du. Gehienekoa lortzean, rankingak ez du bereizmenik "hobekuntza txikiak" bereizteko. Horregatik, denborazko desberdinketa beharrezkoa da.
  2. Eraginkortasuna: Flash-ek berriro irabazten du Flash vs Pro duelua benchmark honetan, kostuaren zati txiki batekin. Eta ez da kasualitatea: Gemini 3 Flash esplizituki aurkeztu zen "fronte eraginkorra" (kalitatea latentzian/kostuan) bultzatzeko, ez "txikiagoa" izateagatik galtzera kondenatutako bertsio gisa.[1]

Beste geruza bat: Googlek 3.1 Pro arrazoiketan eta zeregin luzeetan (coding/agentic barne) egindako jauzi gisa aurkezten du. Apustu horren zati bat, gainera, GitHub Copilot bezalako garapen-tresnetan ere agertu da preview gisa.[2]

Eta denborazko tartea laburra da: Googleko erregistro publikoetan, Gemini 3 Pro Preview 2025eko azaroan agertzen da, eta Gemini 3.1 Pro 2026ko otsailaren 19an iragartzen da.[9]


4. Qwen3.5 397B A17B: Hierarkia Aldaketa Open-Data-n

Qwen
Meta
DeepSeek
Z.ai

Top open-data ranking globalean. Qwen3.5 397B A17B-k bloke hau #15 posizioan lideratzen du.

Custom ereduak (ALMA/MIRI) kendu eta open-data/open-weights blokean begiratzen badugu, hamabostaldi honetako mugimendurik handiena hau da:

Jauzi hau ez da kosmetikoa. Seinale bat da Qwen3.5 familiak open-weights-en fase berri bat bultzatzen duela: ez bakarrik "euro bakoitzeko oso ona", baizik eta goiko zonan metatutako zehaztasunean lehiatzeko gai. Historikoki, hori "katedralen" lurraldea zen.

Jabeduna
Open Weights
Open Source (OSI)
Eguneratze-leihoa (2026 ots 5-20)

MIR 2026an ebaluatutako 303 ereduak kaleratzeko dataren arabera. Puntu bakoitza eredu bat da; gorria = jabeduna, urdina = open weights, berdea = open source (OSI). Eredu berrienek nota hobeak lortzeko joera dute, baina jabedun ereduek goiko muga mantentzen dute.

Zerrenda bertikala (2026ko otsailaren 5etik 20ra) post honetako hamabostaldia da. Hemen ikusten da gakoa: ez da "eredu isolatu bat igotzen"; gehikuntzen banda bat da, kolpean, lehen punturik gutxi zegoen zonara erortzen dena.

Eta ez da eredu bakarra. Qwen3.5 Plus ere sendo sartzen da (#52 global), eta aurreko Qwen ereduak top open-aren parte izaten jarraitzen dute.[3]

Bi ohar, testuingurua emateko:

  • Qwen3.5 agentic AI-ra orientatutako familia gisa aurkezten da, eta bere eredu handienean testuinguru luzea (262k tokens) eta "thinking mode" lehenetsia bezalako datuak argitaratzen ditu; joera hori hainbat familia punteratan errepikatzen ari da.[3]
  • Estrategikoki, kaleratzea laborategi txinatarren mugimendu zabalagoan kokatzen da: open-weights "plataforma" gisa, pisuak irekiz ekosistema azkartzeko, entrenamendua abantaila lehiakor gisa mantenduz.[4]

5. MedGemma: Zintzoak Izatera Behartzen duen Kasua

IA medikoan tentazio errepikakorra dago: "bertikala" = "hobea" pentsatzea. Horregatik, narratibaz interes handiena pizten zuen eredua MedGemma zen.

Emaitza eguneratuak:

Ez da emaitza txarra absolutuan: 172/200 nota duina da oraindik. Baina bai, argi eta garbi, baxua da MIR benchmark batean bere izenak iradokitzen duenarekin alderatuta.

Eta hemen dago lezio deserosoa: adierazitako espezializazioa ez da neurtutako espezializazioa. Eredu bat biomediarako entrenatua egon daiteke eta, hala ere, MIR moduko azterketa batean okerrago aritu, MIR ez delako "medikuntza hutsa". Gaztelaniaz da, MCQ formatuan, azterketa-estiloko tranpekin eta gai banaketa oso zehatzarekin.

Kanpoko testuingurua: MedGemma osasunera orientatutako eredu-familia gisa aurkeztu zen, Gemma-ren gainean eraikia eta zeregin mediko espezifikoetan entrenatu/ebaluatua (testua eta, bertsioaren arabera, multimodala). Proposamen estrategiko hori garrantzitsua da: tokian bertan exekutatu daitekeen eredu mediko bat "irekitzea" urrats handia da ikerketarako eta hedapen sentikorretarako.[5]

Baina benchmarkak epai zorrotza ematen du: MIRen lehen argazki lehiakor honetan, MedGemma SOTA frontearekiko urrun geratzen da.


6. Claude Opus 4.6: Hobekuntza Globalean, Geldialdia MIR 2026an

Opus familiaren nota globalaren konparaketa: 4.6k 4.5 apur bat hobetzen du eta 4.1ekiko aldea handitzen du.

Aste hauetako elkarrizketa publikoa jarraitu baduzu, erraza da pentsatzea "kode ereduak" direla SOTA unibertsala. Arazoa da MIR-ek ez duela SWE-bench-ek saritzen duena saritzen.

Claude Opus 4.6 gehitzeak ondorio ñabartu bat uzten du:

  • global ranking-ean, nota apur bat igotzen da: Opus 4.1 (556,333 garbi) → Opus 4.5 (568 garbi) → Opus 4.6 (570,667 garbi).
  • Posizio globalean, Opus 4.6 #27ra igotzen da, #33 (4.5) eta #57 (4.1) posizioen aurretik.
  • MIR 2026-en, Opus 4.6 #20 (197/200) da, eta Opus 4.5-rekin berdinduta dago asmatzeetan.
  • MIR 2026ko kostuan, Opus 4.6 4.5 baino zertxobait garestiagoa da (4,888935 € vs 4,620485 €).

Hau merkatuan ikusten dugunarekin bat dator: Opus 4.6 kode eta agentibitate zeregin konplexuetarako kokatuta dago, ez MCQ medikoetarako.[6] Argudio osoa nahi baduzu, hemen garatzen dugu: "The Swiss Army Knife and the Scalpel".

Eta hemen dator puntu kritikoa: GPT-5.3-Codex oraindik ez dago benchmarkean, API publiko bidez eskuragarri ez dagoelako baldintza konparagarrietan. OpenAI-k coding-eko puntako gisa aurkezten du, baina bere komunikazioak sarbidea produktuetan kokatzen du eta API sarbidea "pendiente" gisa uzten du.[7] API changelog publikoan, eskuragarri dagoen eredua gpt-5.2-codex da, ez 5.3.[8]

Kritika sinplea da: API sarbide konparagarririk gabe, ez dago konparazio justurik. Eta konparazio justurik gabe, ez dago ebidentziarik, marketina besterik ez.


7. Bi Astean Ikasitakoa

Hamabostaldi hau profil desberdinetarako (klinikoa, teknikoa, produktua) laburtu beharko banu, sei ikaskuntza hartuko nituzke:

  1. Benchmarkak ez du jada incrementu txikien fasea: muga-jauzien fasean dago, astez aste.
  2. %100era iristean, rankingak arau berriak behar ditu: denborazko desberdinketa ez da aukerakoa.
  3. Eraginkortasuna vs tamaina paradoxak (Flash vs Pro) ez du desagertzen; 3.1 Pro-ren jauziarekin batera bizi da.
  4. Qwen3.5 open-weights gutxik sartu diren zonara sartzen da: benetako top 15 globalera.
  5. Osasun eredua ez da "hobea" etiketagatik: espezializazioa ingurune zehatzean neurtu behar da.
  6. "Kode gerra" ebaluatzeko lepo-botila bera da: API sarbide homogeneoa.

Ondorio nagusia ez da aldatzen, baina orain sendoagoa da: benchmarkaren 2026ko bilakaera asteetan gertatzen ari da, ez hiruhilekoetan. Eta horrek "eguneratze" bakoitza mini aro-aldaketa gisa tratatzera behartzen du.

Kurba malda honetan jarraitzen badu, hurrengo mozketa podiuma berriro mugitu dezake.


Notas y Referencias

  1. Gemini Flash-i buruzko testuinguru ofiziala eta kanpokoa (efizientzia estrategia gisa, ez soilik 'eredu txikia'): Google Developers Blog (Gemini 3 Flash, 2025eko abenduaren 17a) developers.googleblog.com eta coverage teknikoa techcrunch.com.
  2. Gemini 3.1 Pro Preview (2026ko otsailaren 19a) eta garapen tooling-era iristea: 9to5Google 9to5google.com eta GitHub Copilot changelog github.blog.
  3. Qwen3.5 397B A17B: model card ofiziala (arkitektura, gaitasunak, posizionamendua). huggingface.co/Qwen/Qwen3.5-397B-A17B.
  4. Qwen3.5 abiaraztearen testuingurua eta agentic/open-weights fokua: Economic Times (2026ko otsailaren 16a) economictimes.indiatimes.com.
  5. MedGemma: model card ofiziala (Google Developers) developers.google.com eta Hugging Face fitxa (adibidea) huggingface.co/google/medgemma-27b-text-it.
  6. Anthropic: Claude Opus 4.6 iragarpena eta dokumentazioa anthropic.com eta produktu orria anthropic.com/claude/opus.
  7. OpenAI: GPT-5.3-Codex abiaraztea eta eskuragarritasun/API oharra (2026ko otsailaren 5a) openai.com.
  8. OpenAI API changelog (2026ko urtarrilaren 14a): gpt-5.2-codex APIan eskuragarri eta 5.3-ri buruzko erreferentziarik ez changelog publikoan. platform.openai.com.
  9. Google Gemini API changelog (katalogo/daten erreferentzia publikoa): ai.google.dev.