MedicalBenchmark
199/200: IAk Bakarra Huts Egiten du MIR 2026an

199/200: IAk Bakarra Huts Egiten du MIR 2026an

Gaztelaniazko IA medikoaren benchmark handiaren emaitza behinbetikoak. Hiru ereduk 199 asmatu dituzte 200 galdera baliozkoetatik. 'Flash' eredu batek hirugarren urtez jarraian lidertzen du. 290 ereduren azterketa sakona, kostu, abiadura, token eta zehaztasunaren datuekin.

Equipo MedBench2026(e)ko otsailaren 5(a)16 min irakurketa
MIR 2026BenchmarkGemini FlashGPT-5Emaitza Behinbetikoak

2026ko urtarrilaren 24an, 12.000 aspirante baino gehiagok azken hamarkadako MIR eztabaidatuenari aurre egin zioten. Baina komunitate medikoak anulazioei, baremoei eta kaos administratiboari buruz eztabaidatzen zuen bitartean, Medical Benchmark-en aurrekaririk gabeko zerbait exekutatzen ari ginen: 290 adimen artifizialeko ereduk azterketaren 210 galderak denbora errealean erantzuten, inork erantzun zuzenak ezagutu baino lehen.

Emaitza behinbetikoak, besterik gabe, suntsitzaileak dira.

Hiru IA ereduk MIR 2026ko 200 galdera baliozkotatik 199 asmatu dituzte. Akats bakarra. %99,5eko zehaztasuna. Giza izaki batek ere ez du inoiz MIRen historiako puntuazio parekorik lortu.[1]


1. Podio Ezinezkoa: Hiruko Berdinketa 199/200rekin

MedBench-en hiru urteko historiako lehenengo aldiz, hiru IA ereduk puntuazio garbi bera lortu dute: 198,67 garbi (199 asmatu, 1 akats, 0 galdera zurian).

Gemini 3 Flash

Google
Merkeena
199/200
Garbiak198.67
Kostu totala0.33 €
Denbora/galdera4.2s
Token guztira210K
Arrazonatze tokenak0
Batez besteko konfiantza100%
Akats bakarraP118
EspezialitateaDermatologia

o3

OpenAI
Orekatua
199/200
Garbiak198.67
Kostu totala1.86 €
Denbora/galdera7.3s
Token guztira311K
Arrazonatze tokenak71K
Batez besteko konfiantza100%
Akats bakarraP157
EspezialitateaFarmakologia

GPT-5

OpenAI
Arrazonatze gehien
199/200
Garbiak198.67
Kostu totala1.97 €
Denbora/galdera18s
Token guztira420K
Arrazonatze tokenak135K
Batez besteko konfiantza100%
Akats bakarraP77
EspezialitateaBarne Medikuntza

Hiru ko-irabazleek bi erraldoi teknologiko ordezkatzen dituzte, filosofia arras ezberdinekin:

  • Google Gemini 3 Flash Preview

    : Azkarra eta ekonomikoa izateko diseinatutako eredua. Azterketa osoaren kostu totala: 0,33 € (hogeita hiru euroko zentimo). Batez besteko denbora galdera bakoitzeko: 4,2 segundo. Arrazonamendu token espliziturik gabe. Ereduak arrazonamendurako token aurrekontua ezartzea ahalbidetzen badu ere, benchmark honetan 0 arrazonamendu tokenekin exekutatzea erabaki genuen.
  • OpenAI o3

    : OpenAI-ren arrazonamendu aurreratuko eredua. Kostua: 1,86 €. 71.000 barne arrazonamendu token sortzen ditu erantzun aurretik. Denbora: 7,3 segundo galdera bakoitzeko.
  • OpenAI GPT-5

    : OpenAI-ren itsasontzi nagusia. Kostua: 1,97 €. Arrazonamenduan intentsiboenak, 135.000 token dedikaturekin. Baina hiruretatik motelenak ere bai: 18 segundo galdera bakoitzeko.

Nola desberdindu berdinketa?

MedBench-en, puntuazio garbiko berdinketaren aurrean, desberdintzeko irizpidea azterketaren kostu totala da (kostu txikiagoak irabazten du). Irizpide honek errealitate praktiko erabakigarri bat islatzen du: bi ereduk zehaztasun bera badute, modu eraginkorrean lortzen duenak objektiboki hobea da hedapen klinikoaren ikuspuntutik.

Irizpide honekin, Gemini 3 Flash Preview da MIR 2026aren irabazle ofiziala, o3 baino 5,7 aldiz kostu txikiagoarekin eta GPT-5 baino 6 aldiz txikiagoarekin.


2. Sailkapen Osoa: 15 Hoberenak

Google
OpenAI
Anthropic

MIR 2026ko IA eredu onenak 15, puntuazio garbiaren arabera (behin betiko emaitzak)

Goi-eremuko puntuazioen kontzentrazioa apartekoa da. Lehenengo 10 ereduak 1,33 garbiko tarte batean mugitzen dira (198,67tik 197,33ra). Honek gaur egungo ereduen kalitatea eta MIR 2026aren "erraztasun" erlatiboa islatzen du IA sistementzat, gure aurreko artikuluan sakonki aztertu dugun fenomenoa, MIR 2026aren ekaitz perfektuari buruzkoa.

Sailkapeneko datu giltzarriak:

  • 3 eredu 199/200rekin (%99,5eko zehaztasuna)
  • 9 eredu 198/200rekin (%99,0)
  • 8 eredu 197/200rekin (%98,5)
  • Top 20 guztiek %98ko zehaztasuna gainditzen dute (196/200 edo gehiago)
  • 58 ereduk %95eko zehaztasuna gainditzen dute
  • 119 ereduk %90a gainditzen dute

Testuinguruan jartzeko: MIR 2025eko giza emaitza ezagunena 174 asmatu eta 25 akats izan zen (%87ko zehaztasuna, 165,67 garbi).[2] Aurtengo hiru irabazleek %99,5 dute.


3. David Goliaten Aurka: Flash Paradoxa

Hau agian benchmark osoaren ondoriorik kontraintuizioena eta lilugarriena da: "Flash" eredu bat — abiadurarako eta kostu baxurako diseinatua, ez inteligentzia maximorako — hiru urte jarraian izan da onena edo lehen posizioan berdinketa egiten duena Espainiako azterketa mediko zorrotzenean.

*Sonar Deep Research-ek web bilaketarako sarbidea du, argitaratutako azterketa erantzunak kontsultatzeko aukera emanez

Gemini Flash-en historiala:

DeialdiaFlash PosizioaGarbiakKostuaIrabazle ofizialaOharra
MIR 2024#2 (garbietako berdinketa #3-#5ekin)193,330,32 €Sonar Deep Research (193,67)Sonar-ek web sarbidea du
MIR 2025#1190,670,34 €Gemini 3 FlashIrabazle eztabaidaezina
MIR 2026#1 (berdinketa o3 eta GPT-5ekin)198,670,33 €Gemini 3 Flash (kostuagatik)Hiruko berdinketa

MIR 2024ko kasua aipamen berezia merezi du. Irabazle nominala Perplexity Sonar Deep Research izan zen, 193,67 garbirekin Flash-en 193,33ren aurrean. Hala ere, Sonar Deep Research denbora errealeko web bilaketan sarbidea duen eredua da. MIReko erantzunak akademien eta foro medikoen webgune anitzetan argitaratzen direnez azterketa osteko egun gutxiren buruan[3], ezin da baztertu Sonar-ek iturri horiek zuzenean kontsultatu zituela. Web sarbidedun ereduak baztertuz gero, Gemini Flash-ek hiru urte jarraian izan da efektiboki eredurik onena.

Zergatik gainditzen du eredu "arinak" garestienak?

Emaitza honek "handiagoa = hobea" intuizioa erronkan jartzen du. Hipotesi osagarri batzuk daude:

  1. Eraginkortasun arkitektonikoa tamaina gordinaren gainetik. Google-k inbertsio handia egin du destilazio eta tokenen eraginkortasunaren optimizazioetan.[4] Gemini 3 Flash-ek erantzun zehatzagoak eta zuzenagoak sortzen ditu: proba independenteetan, Pro eredu baliokideek baino %26 token gutxiagorekin burutu zituen zereginak.[5]

  2. MIR ezagutza faktualaren test gisa, ez arrazonamendu sakonaren gisa. MIR 2026ko galdera gehienek patroi klinikoen zuzeneko ezagutza behar zuten, ez arrazonamendu kate konplexuak. Erantzuna zuzenean "dakien" eredu batek ez du 135.000 token "pentsatu" behar bertara iristeko.

  3. Arrazonamendu token gutxiago = akats egiteko aukera gutxiago. Arrazonamendu kate luzeak (chain-of-thought) dituzten ereduek erantzun okerretara "konbentzitu" ditzakete beren buruak, barne arrazonamendu elaboratu baina okerren bidez. Flash-ek, 0 arrazonamendu tokenekin, besterik gabe "dakiena" erantzuten du.

  4. "Adimenduagoa, ez handiagoa" paradigma. Barclays-ek bere 2026rako IA ikuspegien txostenean adierazten duenez[6], industria parametroen eskalamendu hutsetik optimizazio adimentsurako aldatzen ari da. Gemini 3 Flash joera honen adibide perfektua da.

Oinarrizko hausnarketa: Azterketa bakoitzeko 0,33 € kostatzen den eredu bat 200tik 199 galdera asmatzen gai bada, zer balio erantsi errealak ematen dute 100 edo 660 aldiz gehiago kostatzen diren eta berdina edo gutxiago asmatu duten ereduek?


4. Akats Bakarraren Anatomia

Hiru irabazleetako bakoitzak zehazki galdera ezberdin bat huts egin zuen. Akatsik ez da beraien artean errepikatzen, eta horrek iradokitzen du akats estokastikoak direla, ez ezagutza-hutsune sistematikoak:

EreduaHuts egindako galderaErantzunaZuzenaEspezialitatea
Gemini 3 Flash118. GalderaCBDermatologia
o3157. GalderaCDFarmakologia
GPT-577. GalderaCABarne Medikuntza

Bitxia bada ere, hiru ereduek "C" erantzun zuten beren akats bakarrean. Anekdotatik haratago, garrantzitsuena da hiru ereduen erantzunak gehiengoaren botazio sistema bat erabiliz konbinatuz gero, emaitza 200/200 perfektua izango litzatekeela: batek huts egiten duen galdera bakoitza, beste biek asmatu dute.

Honek IA medikoko ensemble sistemei buruzko hausnarketa lilugarria irekitzen du: hiru eredu osagarriz osatutako batzorde batek zehaztasun perfektua lor lezake azterketa honetan.


5. Plot Twist-a: Plantilla Behin-behinekoa eta ChatGPT-ren Itzala

Emaitza behinbetikoak argitaratu baino lehen (7 galdera anulatuekin), Ministerioaren plantilla behin-behinekoak soilik 4 anulazio jasotzen zituen (13, 50, 64 eta 161. galderak). Plantilla horrekin, sailkapena nabarmen ezberdina zen.

Plantilla behinbetikoan anulatutako hiru galdera gehigarriak 139 (lupus eta anemia), 142 (tiroiditisa) eta 208 (zirrosia) izan ziren. Anulazio hauen eragina asimetrikoa izan zen:

ParámetroTendencia MIR 2026Implicación
Anulatuetan 0/3 zuzen dituzten ereduak+1,00 garbiOnura maximoa. Galdera horiek huts egiteagatiko penalizazioak desagertzen dira. Adibidea: Gemini 3 Flash.
1/3 zuzen dituzten ereduak-0,33 garbiEragin negatibo arina. Asmatu 1 galtzen dute baina 2 penalizazio ezabatzen dituzte. Adibidea: o3.
2/3 zuzen dituzten ereduak-1,67 garbiEragin moderatua. 2 asmatu galtzen dituzte eta penalizazio bakarra ezabatzen dute. Adibidea: GPT-5.
3/3 zuzen dituzten ereduak-3,00 garbiKalte maximoa. 3 asmatu galtzen dituzte konpentsaziorik gabe. Adibidea: o1.

3 anulazio gehigarrien (G139, G142, G208) eragina puntuazio garbian aurreko asmatu kopuruaren arabera

Nork lidertzen zuen plantilla behin-behinekoarekin?

4 galdera anulatuekin soilik, GPT-5 eta o1 ko-lidertzen zuten gutxi gorabehera 193,33 garbiko puntuazioarekin (geroago anulatuko ziren 3 galderak asmatuz). Gemini 3 Flash, hirurak huts egin zituenak, posizio atzeratuago batean zegoen.

Hiru galdera hauen anulazioak benchmark-eko mugimendurik handiena eragin zuen: Gemini Flash 9 posizio igo zen (#11tik #2ra), eta bitartean o1 7 posizio erori zen (ko-lidergotik #8ra).

Hipotesi deserosoa

Baztertu ezin dugun xehetasun bat dago. Opositzaileen komunitatean eta foro espezializatuetan zurrumurruak zabaldu dira — espresuki ez konfirmatu eta ustezkoak bezala kalifikatu behar ditugunak — MIR 2026ko galdera batzuk guztiz edo partzialki ChatGPT bezalako IA sortzaileko tresnen laguntzarekin elaboratu izan zitezkeen aukera.[7]

Zurrumurru hauek egiazkoak izango balira (eta berriro ere nabarmentzen dugu ez dugula hori baieztatzen duen ebidentziarik), gure datuetan ikusgai den patroi bat azalduko luke: GPT/OpenAI familiako ereduek errendimendu bereziki altua lortu zuten plantilla behin-behinekoan, zehazki gero anbiguotasunak edo akatsak izateagatik anulatutako galderetan. IA eredu batek antzeko IA batek sortutako galderak "asmatzen" ditu, idazketa-joerak eta formulazio-patroiak partekatzen baitituzte.

Oharra editoriala: Hipotesi hau espekulatiboa da eta ez du baieztapen kategoriko edo errealitatearen deskribapen bat izan nahi. Galderen anulazioa MIReko prozesu errutinarioa da, faktore legitimoengatik gerta daitekeena, anbiguotasun klinikoa, gida medikoen eguneratzea eta idazketa akatsak barne.


6. Kutsadurarik Gabe: Metodologia Blindatua

Gure benchmark-ari kredibilitate gorena ematen dion alderdi erabakigarria ebaluazioen kronologia da:

  • MIR azterketaren data: 2026ko urtarrilaren 24a
  • Eredu guztien exekuzio data: 2026ko urtarrilaren 25a
  • Plantilla behin-behinekoa argitaratzea: 2026ko urtarrilaren 26a

Ebaluazio guztiak erantzun zuzenak argitaratu AURRETIK exekutatu ziren. Eredu batek ere ezin izan zuen MIR 2026ko erantzunekin entrenatu, doitu edo kutsatu izan, ebaluazioak exekutatu zirenean oraindik ez baitziren existitzen.

Honek MedBench munduko IA medikoko benchmark gutxietako bat bihurtzen du, non datuen kutsadura fisikoki ezinezkoa den.[8] Ereduek aurretik zuten ezagutza medikoarekin erantzun zuten, giza opositzaile batek bezalaxe.

Gainera, eredu guztiek sistema-prompt bera jaso zuten, azterketaren urteari buruzko pistarik gabe edo erantzunak alboratu zitzakeen informazio gehigarririk gabe.


7. Metriken Analisi Sakona

Puntuazio garbitik haratago, MedBench-ek galdera bakoitzean eredu bakoitzaren metrika xehatuak erregistratzen ditu: kostua, tokenak, erantzun-denbora eta konfiantza. Datu hauek patroi lilugarriak agerian uzten dituzte.

7.1. Kostua: 0,33 €-tik 217 €-ra

Azterketa osoaren kostu totala (210 galdera). Gemini 3 Flash-ek 0,33 €-rekin lideatzen du o1-pro-ren 217 €-ren aurrean, zehaztasun berdin edo handiagoarekin

Kostuen sakabanatzea izugarria da:

  • Gemini 3 Flash

    : 0,33 € azterketa osorako (210 galdera). Hau da, 0,0016 € galdera bakoitzeko.
  • o1-pro

    : 217 € azterketako. 1,08 € galdera bakoitzeko. Eta emaitza okerragoa lortzen du (%98,5 vs %99,5).
  • o3 Deep Research

    : 167,82 €. 3,6 minutu galdera bakoitzeko behar ditu eta 6,6 milioi token kontsumitzen ditu.

Gemini Flash-en kostu-onura erlazioa, objektiboki, gaindiezina da. Puntuazio maximoa 0,33 €-rekin lortzeak edozein gastu altuagoa erdieste berdin edo apalagoko ereduetan eragingabe bihurtzen du.

7.2. Erantzun-abiadura

Google
OpenAI
Anthropic

Top 15 ereduen galdera bakoitzeko batez besteko denbora. o3 Deep Research-ek 218 segundo behar ditu galdera bakoitzeko (3,6 minutu), GPT-5.1 Chat-ek 3,2 segundotan erantzuten duen bitartean

Abiadurak garrantzia du benetako testuinguru klinikoetan. Erantzuteko 3 minutu behar dituen diagnostiko-laguntza sistema batek utilitate oso ezberdina du 3 segundotan erantzuten duen batekin alderatuz.

Top 15eko eredurik azkarrenak:

  1. GPT-5.1 Chat

    : 3,2 segundo/galdera
  2. GPT-5 Codex

    : 3,9 segundo/galdera
  3. Gemini 3 Flash

    : 4,2 segundo/galdera

Motelenak:

7.3. Tokenak: Gehiago Pentsatzeak Laguntzen al du?

Token banaketa motaren arabera. o3 Deep Research-ek 6,6M token kontsumitzen ditu azterketa bakoitzeko (eskalatik kanpo). Gemini 3 Flash: 210K token guztira arrazonamendu espliziturik gabe

Gure datuek agerian uzten duten galderarik interesgarrienetako bat: arrazonamendu tokenek emaitza hobetzen al dute?

Gemini 3 Flash

ereduaren kasuan, 0 balioa gure erabaki metodologiko bati dagokio: arrazonamendu aurrekontua onartzen badu ere, nahita ebaluatu genuen arrazonamendu tokenik gabe.

EreduaArrazonamendu tokenakZehaztasunaGarbiak
Gemini 3 Flash0%99,5198,67
o371K%99,5198,67
GPT-5135K%99,5198,67
GPT-5.1 Chat6K%99,0197,33
o1146K%99,0197,33
o3 Deep Research1.741K%99,0197,33

Erantzuna argia da: ez, gutxienez azterketa honetan ez. 0 arrazonamendu token dituen ereduak 135.000 dituenaren emaitza bera lortzen du, eta 1,7 milioi dituenaren emaitza hobea. Honek iradokitzen du MIR 2026 lehenik eta behin patroi-ezagutza eta ezagutza faktualeko azterketa dela, non "pentsamendu sakonak" ez duen balio marjinal erantsirik gehitzen.

7.4. Konfiantza: Guztiak Seguru, Guztiak Asmatu

Top 10eko ereduek adierazitako batez besteko konfiantza sistematikoki %100aren ingurukoa da. Honek adierazten du eredu modernoek ez dutela soilik asmatu egiten, baizik eta badakite asmatu egiten dutela. Konfiantza-kalibrazioa adierazle erabakigarria da aplikazio klinikoetarako: "% 100 seguru naiz" esaten duen eta %99,5eko zehaztasuna duen eredua ezin fidagarriagoa da.


8. IA vs. Gizakiak: Arrailadura Zabaltzen Ari da

IA puntuazio onenaren eta gizaki emaitza ezagunaren arteko konparazioa deialdi bakoitzeko. MIR 2026: gizaki emaitza argitaratze ofizialaren zain

Bilakera historikoa eztabaidaezina da:

  • MIR 2024: IArik onenak giza onena 7 garbiz gainditu zuen (193,67 vs 186,67). IAk %3,7ko abantaila zuen.
  • MIR 2025: Arraila 25 garbira igo zen (190,67 vs 165,67). IAk %15,1eko abantaila zuen.
  • MIR 2026: 198,67 garbirekin eta giza emaitza oraindik argitaratu gabe[9], arrailadura are handiagoa izatea proiektatzen dugu.

Kasu hipotetikoan ere MIR 2026ko giza onena 190 asmatu egitunen errekord historikoa berdinduko balu (MIR 2024), bere puntuazio garbia akats kopuruaren araberakoa izango litzateke. 190 asmatu eta 10 akatseko errendimendu optimoa hartuz (186,67 garbi), IArekiko arraila 12 garbikoa izango litzateke.

Galdera jada ez da IAk gizakiak baino hobea ote den MIRen. Galdera zenbat hobea den da.


9. Bilakera Historikoa: Benchmark-eko Hiru Urte

IA onena
Gizaki onena
Top 5 batez bestekoa
Top 10 batez bestekoa

IAren zehaztasunaren bilakaera vs. gizaki onena MIRean (2024-2026). MIR 2026: gizaki emaitza argitaratze ofizialaren zain

MIR 2025, aztertutako hiru urtetatik zailena (enuntziatu luzeak, "testamentu" galderak, karga kognitibo altua), eredu guztien zehaztasunean beherakada iragankorra eragin zuen. Hala ere, joera orokorra argia da:

MetrikaMIR 2024MIR 2025MIR 2026
Zehaztasun onena%97,5%96,5%99,5
Top 5eko batez bestekoa%97,5%96,0%99,3
Top 10eko batez bestekoa%97,5%95,8%99,2
Ereduak >%95181158
Ereduak >%906852119
Ebaluatutako ereduak291290290

MIR 2026ko jauzia bi faktoreren konbergentziarekin azaltzen da: ereduen etengabeko hobekuntza (bereziki GPT-5.x eta Gemini 3 belaunaldiak) eta azterketaren zailtasun erlatiboaren murrizketa.


10. Indarraren Mapa: Nork Nagusitzen du Benchmark-ean?

Hornitzaileen banaketa MIR 2026 benchmark-aren Top 20an

OpenAI zenbakiz nagusitzen da Top 20an 11 eredurekin, barianteen ugalketa estrategia islatuz (GPT-5, GPT-5.1, GPT-5.2, Chat bertsioak, Codex, Pro, Image, etab.).

Google-k 6 eredu kokatzen ditu estrategia kontrako batekin: bariante gutxiago baina diferentziatuagoak (Flash vs Pro, Gemini 2.5 eta 3ren bertsio ezberdinak).

Anthropic-ek 3 eredu kokatzen ditu Top 20an (Claude Opus 4.5 #14an, Claude Opus 4.6 #15ean eta Claude Opus 4.1 #18an), hirugarren aktore garrantzitsu gisa bere posizioa bermatuz.

Hala ere, kantitatean baino kalitatea Google-ri aldekoa zaio: Top 20an 6 eredurekin, #1a kokatzen du (Gemini Flash) eta lau eredu lehenengo 15aren artean. OpenAI-k 11 eredu behar ditu zenbakizko nagusitasuna lortzeko.


11. Azken Hausnarketak: Zer Esan Nahi du Honek Guztiak?

Komunitate medikorako

MIR 2026k inflexio-puntua markatzen du. Herrialdeko medikurik onenak hautatzeko diseinatutako azterketa batean %99,5 asmatzen duen IA sistema ez da bitxikeria teknologiko bat: paradigma-aldaketa bat da.

Honek ez du esan nahi IAk medikuak ordezkatu behar dituenik. MIRek ezagutza teorikoa ebaluatzen du test formatuan, ez gaitasun klinikoak hala nola enpatia, pazientearekiko komunikazioa, esplorazio fisikoa edo ziurgabetasun muturreko egoeretan erabakiak hartzea. Baina frogatzen du IAk aliatu bikaina izan daitekeela diagnostiko-laguntza sistema gisa eta prestakuntza tresna gisa.

IA komunitaterako

Flash eredu batek 660 aldiz gehiago kostatzen diren frontier ereduak gainditzeak oinarrizko usteak berrikustera behartzen du:

  • Parametroen eskalamendu gordinak errendimendu beherakorrak ditu ezagutza faktualeko domeinu ondo definituetan.
  • Arkitekturaren eraginkortasuna tamainak baino garrantzitsuagoa da testuinguru errealetan.
  • Gaur egungo benchmark medikoek beren sabaia jotzen ari dira IA gaitasunaren neurri gisa. Hiru eredu %100era hurbiltzen direnean, azterketak diskriminatzeko gaitasuna galtzen du.

MedBench-en etorkizunerako

Perfekziora hain hurbil dauden emaitzen aurrean, gure benchmark-ak eboluzionatu beharko du. Honako hauetan lanean ari gara:

  • Ebaluazio multimodalak irudi kliniko eta proba irudiekin
  • Arrazonamenduaren kalitate-metrikak, ez soilik azken emaitza zuzena
  • Kasu kliniko konplexuen benchmark-ak, hainbat urratsetan zehar informazioaren integrazioa eskatzen dutenak
  • Haluzinazioen eta kalibratutako konfiantzaren ebaluazioa ziurgabetasun-testuinguruetan

Medical Benchmark-en adimen artifizialaren bilakaera medikuntzan dokumentatzen eta aztertzen jarraituko dugu zorroztasunez, gardentasunez eta independentziarekin. Datu guztiak gure sailkapen-plataforman eskuragarri daude.

Notas y Referencias

  1. MIReko historia hurbileko giza emaitzarik onena 190 asmatu eta 10 akats da (MIR 2024), 186,67 garbiren baliokidea. IAren 199 asmatuek errekord hori 12 garbiz gainditzen dute.
  2. MIR 2025eko giza emaitzarik onenaren datuak Osasun Ministerioko argitalpen ofizialetakoak.
  3. MIR akademiek beraien behin-behineko zuzenketak argitaratzen dituzte azterketaren osteko orduetan. Sonar Deep Research bezalako web sarbidedun ereduek erantzun hauetara sarbidea izan dezakete ebaluazioan zehar.
  4. Google Blog: Gemini 3 Flash: frontier intelligence built for speed (2025eko abendua)
  5. Engadget: Google's Gemini 3 Flash model outperforms GPT-5.2 in some benchmarks (2025eko abendua)
  6. Barclays Private Bank: AI in 2026: Smarter, not bigger
  7. MIR opositzaileen sare sozial eta foroetan zabaldutako zurrumurruak. Ez dago ebidentzia publiko konfirmaturik Osasun Ministerioak IA sortzaileko tresnak erabili zituenik MIR 2026 azterketaren galderak prestatzeko.
  8. Luengo Vera, Ferro Picon, et al.: Evaluating LLMs on the Spanish MIR Exam: A Comparative Analysis 2024/2025 (arXiv, 2025)
  9. Deialdiaren arabera, Osasun Ministerioak 2026ko otsailaren 24ra arteko epea du emaitza behinbetikoak ordena-zenbakiekin argitaratzeko. Deialdiaren gorabehera administratiboen testuinguruan, litekeena da epea agortzea.