
199/200: IAk Bakarra Huts Egiten du MIR 2026an
Gaztelaniazko IA medikoaren benchmark handiaren emaitza behinbetikoak. Hiru ereduk 199 asmatu dituzte 200 galdera baliozkoetatik. 'Flash' eredu batek hirugarren urtez jarraian lidertzen du. 290 ereduren azterketa sakona, kostu, abiadura, token eta zehaztasunaren datuekin.
2026ko urtarrilaren 24an, 12.000 aspirante baino gehiagok azken hamarkadako MIR eztabaidatuenari aurre egin zioten. Baina komunitate medikoak anulazioei, baremoei eta kaos administratiboari buruz eztabaidatzen zuen bitartean, Medical Benchmark-en aurrekaririk gabeko zerbait exekutatzen ari ginen: 290 adimen artifizialeko ereduk azterketaren 210 galderak denbora errealean erantzuten, inork erantzun zuzenak ezagutu baino lehen.
Emaitza behinbetikoak, besterik gabe, suntsitzaileak dira.
Hiru IA ereduk MIR 2026ko 200 galdera baliozkotatik 199 asmatu dituzte. Akats bakarra. %99,5eko zehaztasuna. Giza izaki batek ere ez du inoiz MIRen historiako puntuazio parekorik lortu.[1]
1. Podio Ezinezkoa: Hiruko Berdinketa 199/200rekin
MedBench-en hiru urteko historiako lehenengo aldiz, hiru IA ereduk puntuazio garbi bera lortu dute: 198,67 garbi (199 asmatu, 1 akats, 0 galdera zurian).
Gemini 3 Flash
Googleo3
OpenAIGPT-5
OpenAIHiru ko-irabazleek bi erraldoi teknologiko ordezkatzen dituzte, filosofia arras ezberdinekin:
-
Google Gemini 3 Flash Preview
: Azkarra eta ekonomikoa izateko diseinatutako eredua. Azterketa osoaren kostu totala: 0,33 € (hogeita hiru euroko zentimo). Batez besteko denbora galdera bakoitzeko: 4,2 segundo. Arrazonamendu token espliziturik gabe. Ereduak arrazonamendurako token aurrekontua ezartzea ahalbidetzen badu ere, benchmark honetan 0 arrazonamendu tokenekin exekutatzea erabaki genuen. -
OpenAI o3
: OpenAI-ren arrazonamendu aurreratuko eredua. Kostua: 1,86 €. 71.000 barne arrazonamendu token sortzen ditu erantzun aurretik. Denbora: 7,3 segundo galdera bakoitzeko. -
OpenAI GPT-5
: OpenAI-ren itsasontzi nagusia. Kostua: 1,97 €. Arrazonamenduan intentsiboenak, 135.000 token dedikaturekin. Baina hiruretatik motelenak ere bai: 18 segundo galdera bakoitzeko.
Nola desberdindu berdinketa?
MedBench-en, puntuazio garbiko berdinketaren aurrean, desberdintzeko irizpidea azterketaren kostu totala da (kostu txikiagoak irabazten du). Irizpide honek errealitate praktiko erabakigarri bat islatzen du: bi ereduk zehaztasun bera badute, modu eraginkorrean lortzen duenak objektiboki hobea da hedapen klinikoaren ikuspuntutik.
Irizpide honekin, Gemini 3 Flash Preview da MIR 2026aren irabazle ofiziala, o3 baino 5,7 aldiz kostu txikiagoarekin eta GPT-5 baino 6 aldiz txikiagoarekin.
2. Sailkapen Osoa: 15 Hoberenak
MIR 2026ko IA eredu onenak 15, puntuazio garbiaren arabera (behin betiko emaitzak)
Goi-eremuko puntuazioen kontzentrazioa apartekoa da. Lehenengo 10 ereduak 1,33 garbiko tarte batean mugitzen dira (198,67tik 197,33ra). Honek gaur egungo ereduen kalitatea eta MIR 2026aren "erraztasun" erlatiboa islatzen du IA sistementzat, gure aurreko artikuluan sakonki aztertu dugun fenomenoa, MIR 2026aren ekaitz perfektuari buruzkoa.
Sailkapeneko datu giltzarriak:
- 3 eredu 199/200rekin (%99,5eko zehaztasuna)
- 9 eredu 198/200rekin (%99,0)
- 8 eredu 197/200rekin (%98,5)
- Top 20 guztiek %98ko zehaztasuna gainditzen dute (196/200 edo gehiago)
- 58 ereduk %95eko zehaztasuna gainditzen dute
- 119 ereduk %90a gainditzen dute
Testuinguruan jartzeko: MIR 2025eko giza emaitza ezagunena 174 asmatu eta 25 akats izan zen (%87ko zehaztasuna, 165,67 garbi).[2] Aurtengo hiru irabazleek %99,5 dute.
3. David Goliaten Aurka: Flash Paradoxa
Hau agian benchmark osoaren ondoriorik kontraintuizioena eta lilugarriena da: "Flash" eredu bat — abiadurarako eta kostu baxurako diseinatua, ez inteligentzia maximorako — hiru urte jarraian izan da onena edo lehen posizioan berdinketa egiten duena Espainiako azterketa mediko zorrotzenean.
*Sonar Deep Research-ek web bilaketarako sarbidea du, argitaratutako azterketa erantzunak kontsultatzeko aukera emanez
Gemini Flash-en historiala:
| Deialdia | Flash Posizioa | Garbiak | Kostua | Irabazle ofiziala | Oharra |
|---|---|---|---|---|---|
| MIR 2024 | #2 (garbietako berdinketa #3-#5ekin) | 193,33 | 0,32 € | Sonar Deep Research (193,67) | Sonar-ek web sarbidea du |
| MIR 2025 | #1 | 190,67 | 0,34 € | Gemini 3 Flash | Irabazle eztabaidaezina |
| MIR 2026 | #1 (berdinketa o3 eta GPT-5ekin) | 198,67 | 0,33 € | Gemini 3 Flash (kostuagatik) | Hiruko berdinketa |
MIR 2024ko kasua aipamen berezia merezi du. Irabazle nominala Perplexity Sonar Deep Research izan zen, 193,67 garbirekin Flash-en 193,33ren aurrean. Hala ere, Sonar Deep Research denbora errealeko web bilaketan sarbidea duen eredua da. MIReko erantzunak akademien eta foro medikoen webgune anitzetan argitaratzen direnez azterketa osteko egun gutxiren buruan[3], ezin da baztertu Sonar-ek iturri horiek zuzenean kontsultatu zituela. Web sarbidedun ereduak baztertuz gero, Gemini Flash-ek hiru urte jarraian izan da efektiboki eredurik onena.
Zergatik gainditzen du eredu "arinak" garestienak?
Emaitza honek "handiagoa = hobea" intuizioa erronkan jartzen du. Hipotesi osagarri batzuk daude:
-
Eraginkortasun arkitektonikoa tamaina gordinaren gainetik. Google-k inbertsio handia egin du destilazio eta tokenen eraginkortasunaren optimizazioetan.[4] Gemini 3 Flash-ek erantzun zehatzagoak eta zuzenagoak sortzen ditu: proba independenteetan, Pro eredu baliokideek baino %26 token gutxiagorekin burutu zituen zereginak.[5]
-
MIR ezagutza faktualaren test gisa, ez arrazonamendu sakonaren gisa. MIR 2026ko galdera gehienek patroi klinikoen zuzeneko ezagutza behar zuten, ez arrazonamendu kate konplexuak. Erantzuna zuzenean "dakien" eredu batek ez du 135.000 token "pentsatu" behar bertara iristeko.
-
Arrazonamendu token gutxiago = akats egiteko aukera gutxiago. Arrazonamendu kate luzeak (chain-of-thought) dituzten ereduek erantzun okerretara "konbentzitu" ditzakete beren buruak, barne arrazonamendu elaboratu baina okerren bidez. Flash-ek, 0 arrazonamendu tokenekin, besterik gabe "dakiena" erantzuten du.
-
"Adimenduagoa, ez handiagoa" paradigma. Barclays-ek bere 2026rako IA ikuspegien txostenean adierazten duenez[6], industria parametroen eskalamendu hutsetik optimizazio adimentsurako aldatzen ari da. Gemini 3 Flash joera honen adibide perfektua da.
Oinarrizko hausnarketa: Azterketa bakoitzeko 0,33 € kostatzen den eredu bat 200tik 199 galdera asmatzen gai bada, zer balio erantsi errealak ematen dute 100 edo 660 aldiz gehiago kostatzen diren eta berdina edo gutxiago asmatu duten ereduek?
4. Akats Bakarraren Anatomia
Hiru irabazleetako bakoitzak zehazki galdera ezberdin bat huts egin zuen. Akatsik ez da beraien artean errepikatzen, eta horrek iradokitzen du akats estokastikoak direla, ez ezagutza-hutsune sistematikoak:
| Eredua | Huts egindako galdera | Erantzuna | Zuzena | Espezialitatea |
|---|---|---|---|---|
| Gemini 3 Flash | 118. Galdera | C | B | Dermatologia |
| o3 | 157. Galdera | C | D | Farmakologia |
| GPT-5 | 77. Galdera | C | A | Barne Medikuntza |
Bitxia bada ere, hiru ereduek "C" erantzun zuten beren akats bakarrean. Anekdotatik haratago, garrantzitsuena da hiru ereduen erantzunak gehiengoaren botazio sistema bat erabiliz konbinatuz gero, emaitza 200/200 perfektua izango litzatekeela: batek huts egiten duen galdera bakoitza, beste biek asmatu dute.
Honek IA medikoko ensemble sistemei buruzko hausnarketa lilugarria irekitzen du: hiru eredu osagarriz osatutako batzorde batek zehaztasun perfektua lor lezake azterketa honetan.
5. Plot Twist-a: Plantilla Behin-behinekoa eta ChatGPT-ren Itzala
Emaitza behinbetikoak argitaratu baino lehen (7 galdera anulatuekin), Ministerioaren plantilla behin-behinekoak soilik 4 anulazio jasotzen zituen (13, 50, 64 eta 161. galderak). Plantilla horrekin, sailkapena nabarmen ezberdina zen.
Plantilla behinbetikoan anulatutako hiru galdera gehigarriak 139 (lupus eta anemia), 142 (tiroiditisa) eta 208 (zirrosia) izan ziren. Anulazio hauen eragina asimetrikoa izan zen:
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Anulatuetan 0/3 zuzen dituzten ereduak | +1,00 garbi | Onura maximoa. Galdera horiek huts egiteagatiko penalizazioak desagertzen dira. Adibidea: Gemini 3 Flash. |
| 1/3 zuzen dituzten ereduak | -0,33 garbi | Eragin negatibo arina. Asmatu 1 galtzen dute baina 2 penalizazio ezabatzen dituzte. Adibidea: o3. |
| 2/3 zuzen dituzten ereduak | -1,67 garbi | Eragin moderatua. 2 asmatu galtzen dituzte eta penalizazio bakarra ezabatzen dute. Adibidea: GPT-5. |
| 3/3 zuzen dituzten ereduak | -3,00 garbi | Kalte maximoa. 3 asmatu galtzen dituzte konpentsaziorik gabe. Adibidea: o1. |
3 anulazio gehigarrien (G139, G142, G208) eragina puntuazio garbian aurreko asmatu kopuruaren arabera
Nork lidertzen zuen plantilla behin-behinekoarekin?
4 galdera anulatuekin soilik, GPT-5 eta o1 ko-lidertzen zuten gutxi gorabehera 193,33 garbiko puntuazioarekin (geroago anulatuko ziren 3 galderak asmatuz). Gemini 3 Flash, hirurak huts egin zituenak, posizio atzeratuago batean zegoen.
Hiru galdera hauen anulazioak benchmark-eko mugimendurik handiena eragin zuen: Gemini Flash 9 posizio igo zen (#11tik #2ra), eta bitartean o1 7 posizio erori zen (ko-lidergotik #8ra).
Hipotesi deserosoa
Baztertu ezin dugun xehetasun bat dago. Opositzaileen komunitatean eta foro espezializatuetan zurrumurruak zabaldu dira — espresuki ez konfirmatu eta ustezkoak bezala kalifikatu behar ditugunak — MIR 2026ko galdera batzuk guztiz edo partzialki ChatGPT bezalako IA sortzaileko tresnen laguntzarekin elaboratu izan zitezkeen aukera.[7]
Zurrumurru hauek egiazkoak izango balira (eta berriro ere nabarmentzen dugu ez dugula hori baieztatzen duen ebidentziarik), gure datuetan ikusgai den patroi bat azalduko luke: GPT/OpenAI familiako ereduek errendimendu bereziki altua lortu zuten plantilla behin-behinekoan, zehazki gero anbiguotasunak edo akatsak izateagatik anulatutako galderetan. IA eredu batek antzeko IA batek sortutako galderak "asmatzen" ditu, idazketa-joerak eta formulazio-patroiak partekatzen baitituzte.
Oharra editoriala: Hipotesi hau espekulatiboa da eta ez du baieztapen kategoriko edo errealitatearen deskribapen bat izan nahi. Galderen anulazioa MIReko prozesu errutinarioa da, faktore legitimoengatik gerta daitekeena, anbiguotasun klinikoa, gida medikoen eguneratzea eta idazketa akatsak barne.
6. Kutsadurarik Gabe: Metodologia Blindatua
Gure benchmark-ari kredibilitate gorena ematen dion alderdi erabakigarria ebaluazioen kronologia da:
- MIR azterketaren data: 2026ko urtarrilaren 24a
- Eredu guztien exekuzio data: 2026ko urtarrilaren 25a
- Plantilla behin-behinekoa argitaratzea: 2026ko urtarrilaren 26a
Ebaluazio guztiak erantzun zuzenak argitaratu AURRETIK exekutatu ziren. Eredu batek ere ezin izan zuen MIR 2026ko erantzunekin entrenatu, doitu edo kutsatu izan, ebaluazioak exekutatu zirenean oraindik ez baitziren existitzen.
Honek MedBench munduko IA medikoko benchmark gutxietako bat bihurtzen du, non datuen kutsadura fisikoki ezinezkoa den.[8] Ereduek aurretik zuten ezagutza medikoarekin erantzun zuten, giza opositzaile batek bezalaxe.
Gainera, eredu guztiek sistema-prompt bera jaso zuten, azterketaren urteari buruzko pistarik gabe edo erantzunak alboratu zitzakeen informazio gehigarririk gabe.
7. Metriken Analisi Sakona
Puntuazio garbitik haratago, MedBench-ek galdera bakoitzean eredu bakoitzaren metrika xehatuak erregistratzen ditu: kostua, tokenak, erantzun-denbora eta konfiantza. Datu hauek patroi lilugarriak agerian uzten dituzte.
7.1. Kostua: 0,33 €-tik 217 €-ra
Azterketa osoaren kostu totala (210 galdera). Gemini 3 Flash-ek 0,33 €-rekin lideatzen du o1-pro-ren 217 €-ren aurrean, zehaztasun berdin edo handiagoarekin
Kostuen sakabanatzea izugarria da:
-
Gemini 3 Flash
: 0,33 € azterketa osorako (210 galdera). Hau da, 0,0016 € galdera bakoitzeko. -
o1-pro
: 217 € azterketako. 1,08 € galdera bakoitzeko. Eta emaitza okerragoa lortzen du (%98,5 vs %99,5). -
o3 Deep Research
: 167,82 €. 3,6 minutu galdera bakoitzeko behar ditu eta 6,6 milioi token kontsumitzen ditu.
Gemini Flash-en kostu-onura erlazioa, objektiboki, gaindiezina da. Puntuazio maximoa 0,33 €-rekin lortzeak edozein gastu altuagoa erdieste berdin edo apalagoko ereduetan eragingabe bihurtzen du.
7.2. Erantzun-abiadura
Top 15 ereduen galdera bakoitzeko batez besteko denbora. o3 Deep Research-ek 218 segundo behar ditu galdera bakoitzeko (3,6 minutu), GPT-5.1 Chat-ek 3,2 segundotan erantzuten duen bitartean
Abiadurak garrantzia du benetako testuinguru klinikoetan. Erantzuteko 3 minutu behar dituen diagnostiko-laguntza sistema batek utilitate oso ezberdina du 3 segundotan erantzuten duen batekin alderatuz.
Top 15eko eredurik azkarrenak:
-
GPT-5.1 Chat
: 3,2 segundo/galdera -
GPT-5 Codex
: 3,9 segundo/galdera -
Gemini 3 Flash
: 4,2 segundo/galdera
Motelenak:
-
o3 Deep Research
: 218 segundo/galdera (3 min 38 seg) -
GPT-5.2 Pro
: 31,8 segundo/galdera -
Gemini 2.5 Pro Preview 05-06
: 24,2 segundo/galdera
7.3. Tokenak: Gehiago Pentsatzeak Laguntzen al du?
Token banaketa motaren arabera. o3 Deep Research-ek 6,6M token kontsumitzen ditu azterketa bakoitzeko (eskalatik kanpo). Gemini 3 Flash: 210K token guztira arrazonamendu espliziturik gabe
Gure datuek agerian uzten duten galderarik interesgarrienetako bat: arrazonamendu tokenek emaitza hobetzen al dute?
Gemini 3 Flash
ereduaren kasuan, 0 balioa gure erabaki metodologiko bati dagokio: arrazonamendu aurrekontua onartzen badu ere, nahita ebaluatu genuen arrazonamendu tokenik gabe.
| Eredua | Arrazonamendu tokenak | Zehaztasuna | Garbiak |
|---|---|---|---|
| Gemini 3 Flash | 0 | %99,5 | 198,67 |
| o3 | 71K | %99,5 | 198,67 |
| GPT-5 | 135K | %99,5 | 198,67 |
| GPT-5.1 Chat | 6K | %99,0 | 197,33 |
| o1 | 146K | %99,0 | 197,33 |
| o3 Deep Research | 1.741K | %99,0 | 197,33 |
Erantzuna argia da: ez, gutxienez azterketa honetan ez. 0 arrazonamendu token dituen ereduak 135.000 dituenaren emaitza bera lortzen du, eta 1,7 milioi dituenaren emaitza hobea. Honek iradokitzen du MIR 2026 lehenik eta behin patroi-ezagutza eta ezagutza faktualeko azterketa dela, non "pentsamendu sakonak" ez duen balio marjinal erantsirik gehitzen.
7.4. Konfiantza: Guztiak Seguru, Guztiak Asmatu
Top 10eko ereduek adierazitako batez besteko konfiantza sistematikoki %100aren ingurukoa da. Honek adierazten du eredu modernoek ez dutela soilik asmatu egiten, baizik eta badakite asmatu egiten dutela. Konfiantza-kalibrazioa adierazle erabakigarria da aplikazio klinikoetarako: "% 100 seguru naiz" esaten duen eta %99,5eko zehaztasuna duen eredua ezin fidagarriagoa da.
8. IA vs. Gizakiak: Arrailadura Zabaltzen Ari da
IA puntuazio onenaren eta gizaki emaitza ezagunaren arteko konparazioa deialdi bakoitzeko. MIR 2026: gizaki emaitza argitaratze ofizialaren zain
Bilakera historikoa eztabaidaezina da:
- MIR 2024: IArik onenak giza onena 7 garbiz gainditu zuen (193,67 vs 186,67). IAk %3,7ko abantaila zuen.
- MIR 2025: Arraila 25 garbira igo zen (190,67 vs 165,67). IAk %15,1eko abantaila zuen.
- MIR 2026: 198,67 garbirekin eta giza emaitza oraindik argitaratu gabe[9], arrailadura are handiagoa izatea proiektatzen dugu.
Kasu hipotetikoan ere MIR 2026ko giza onena 190 asmatu egitunen errekord historikoa berdinduko balu (MIR 2024), bere puntuazio garbia akats kopuruaren araberakoa izango litzateke. 190 asmatu eta 10 akatseko errendimendu optimoa hartuz (186,67 garbi), IArekiko arraila 12 garbikoa izango litzateke.
Galdera jada ez da IAk gizakiak baino hobea ote den MIRen. Galdera zenbat hobea den da.
9. Bilakera Historikoa: Benchmark-eko Hiru Urte
IAren zehaztasunaren bilakaera vs. gizaki onena MIRean (2024-2026). MIR 2026: gizaki emaitza argitaratze ofizialaren zain
MIR 2025, aztertutako hiru urtetatik zailena (enuntziatu luzeak, "testamentu" galderak, karga kognitibo altua), eredu guztien zehaztasunean beherakada iragankorra eragin zuen. Hala ere, joera orokorra argia da:
| Metrika | MIR 2024 | MIR 2025 | MIR 2026 |
|---|---|---|---|
| Zehaztasun onena | %97,5 | %96,5 | %99,5 |
| Top 5eko batez bestekoa | %97,5 | %96,0 | %99,3 |
| Top 10eko batez bestekoa | %97,5 | %95,8 | %99,2 |
| Ereduak >%95 | 18 | 11 | 58 |
| Ereduak >%90 | 68 | 52 | 119 |
| Ebaluatutako ereduak | 291 | 290 | 290 |
MIR 2026ko jauzia bi faktoreren konbergentziarekin azaltzen da: ereduen etengabeko hobekuntza (bereziki GPT-5.x eta Gemini 3 belaunaldiak) eta azterketaren zailtasun erlatiboaren murrizketa.
10. Indarraren Mapa: Nork Nagusitzen du Benchmark-ean?
Hornitzaileen banaketa MIR 2026 benchmark-aren Top 20an
OpenAI zenbakiz nagusitzen da Top 20an 11 eredurekin, barianteen ugalketa estrategia islatuz (GPT-5, GPT-5.1, GPT-5.2, Chat bertsioak, Codex, Pro, Image, etab.).
Google-k 6 eredu kokatzen ditu estrategia kontrako batekin: bariante gutxiago baina diferentziatuagoak (Flash vs Pro, Gemini 2.5 eta 3ren bertsio ezberdinak).
Anthropic-ek 3 eredu kokatzen ditu Top 20an (Claude Opus 4.5 #14an, Claude Opus 4.6 #15ean eta Claude Opus 4.1 #18an), hirugarren aktore garrantzitsu gisa bere posizioa bermatuz.
Hala ere, kantitatean baino kalitatea Google-ri aldekoa zaio: Top 20an 6 eredurekin, #1a kokatzen du (Gemini Flash) eta lau eredu lehenengo 15aren artean. OpenAI-k 11 eredu behar ditu zenbakizko nagusitasuna lortzeko.
11. Azken Hausnarketak: Zer Esan Nahi du Honek Guztiak?
Komunitate medikorako
MIR 2026k inflexio-puntua markatzen du. Herrialdeko medikurik onenak hautatzeko diseinatutako azterketa batean %99,5 asmatzen duen IA sistema ez da bitxikeria teknologiko bat: paradigma-aldaketa bat da.
Honek ez du esan nahi IAk medikuak ordezkatu behar dituenik. MIRek ezagutza teorikoa ebaluatzen du test formatuan, ez gaitasun klinikoak hala nola enpatia, pazientearekiko komunikazioa, esplorazio fisikoa edo ziurgabetasun muturreko egoeretan erabakiak hartzea. Baina frogatzen du IAk aliatu bikaina izan daitekeela diagnostiko-laguntza sistema gisa eta prestakuntza tresna gisa.
IA komunitaterako
Flash eredu batek 660 aldiz gehiago kostatzen diren frontier ereduak gainditzeak oinarrizko usteak berrikustera behartzen du:
- Parametroen eskalamendu gordinak errendimendu beherakorrak ditu ezagutza faktualeko domeinu ondo definituetan.
- Arkitekturaren eraginkortasuna tamainak baino garrantzitsuagoa da testuinguru errealetan.
- Gaur egungo benchmark medikoek beren sabaia jotzen ari dira IA gaitasunaren neurri gisa. Hiru eredu %100era hurbiltzen direnean, azterketak diskriminatzeko gaitasuna galtzen du.
MedBench-en etorkizunerako
Perfekziora hain hurbil dauden emaitzen aurrean, gure benchmark-ak eboluzionatu beharko du. Honako hauetan lanean ari gara:
- Ebaluazio multimodalak irudi kliniko eta proba irudiekin
- Arrazonamenduaren kalitate-metrikak, ez soilik azken emaitza zuzena
- Kasu kliniko konplexuen benchmark-ak, hainbat urratsetan zehar informazioaren integrazioa eskatzen dutenak
- Haluzinazioen eta kalibratutako konfiantzaren ebaluazioa ziurgabetasun-testuinguruetan
Medical Benchmark-en adimen artifizialaren bilakaera medikuntzan dokumentatzen eta aztertzen jarraituko dugu zorroztasunez, gardentasunez eta independentziarekin. Datu guztiak gure sailkapen-plataforman eskuragarri daude.
Notas y Referencias
- MIReko historia hurbileko giza emaitzarik onena 190 asmatu eta 10 akats da (MIR 2024), 186,67 garbiren baliokidea. IAren 199 asmatuek errekord hori 12 garbiz gainditzen dute.
- MIR 2025eko giza emaitzarik onenaren datuak Osasun Ministerioko argitalpen ofizialetakoak.
- MIR akademiek beraien behin-behineko zuzenketak argitaratzen dituzte azterketaren osteko orduetan. Sonar Deep Research bezalako web sarbidedun ereduek erantzun hauetara sarbidea izan dezakete ebaluazioan zehar.
- Google Blog: Gemini 3 Flash: frontier intelligence built for speed (2025eko abendua)
- Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (2025eko abendua)
- Barclays Private Bank: AI in 2026: Smarter, not bigger
- MIR opositzaileen sare sozial eta foroetan zabaldutako zurrumurruak. Ez dago ebidentzia publiko konfirmaturik Osasun Ministerioak IA sortzaileko tresnak erabili zituenik MIR 2026 azterketaren galderak prestatzeko.
- Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
- Deialdiaren arabera, Osasun Ministerioak 2026ko otsailaren 24ra arteko epea du emaitza behinbetikoak ordena-zenbakiekin argitaratzeko. Deialdiaren gorabehera administratiboen testuinguruan, litekeena da epea agortzea.