MedicalBenchmark

IA Medikoaren etorkizuna ebaluatzen

Espainiako MIR azterketetan hizkuntza-modeloentzako ebaluazio-plataforma behinbetikoa (2024-2026). Kliniko eta ikertzaileen konfiantzarekin.

Gure Metodologia

Nola ebaluatzen ditugun adimen artifizialeko modeloak eremu medikoan MIR azterketa erreferentzia gisa erabiliz.

MIR Galdera Ofizialak

Espainiako MIR azterketako benetako galderak erabiltzen ditugu, maila profesionalean ezagutza medikoak ebaluatzeko estandarra. Galdera bakoitza egiaztatuta eta espezialitatearen arabera sailkatuta dago.

Ebaluazio Zorrotza

Modelo bakoitza baldintza kontrolatu berdinetan ebaluatzen da, kanpoko informaziorik gabe. Zehaztasuna, arrazonamendu klinikoa eta erantzunen koherentzia neurtzen ditugu.

Azterketa Zehatza

Metrika granularrak eskaintzen ditugu espezialitate medikoaren, galdera motaren eta zailtasun-mailaren arabera. Honek modelo bakoitzaren indarguneak eta hobekuntza-arloak identifikatzea ahalbidetzen du.

Espezialistek katalogatutako galderak

MIR azterketako galderen banaketa irakasgaiaren eta motaren arabera edizio bakoitzean.

Azterketa Integrala

Gure benchmark-ak IA modeloen errendimenduaren ebaluazio sakona eskaintzen du eremu medikoan.

Ebaluazio Etengabea

Errendimenduaren jarraipena denboran zehar hobekuntzak eta atzerakadak identifikatzeko.

Metrika Zehatzak

Azterketa granularra irakasgaiaren eta galdera kliniko motaren arabera.

Helburu Argiak

Espainiako MIR azterketa ofizialean oinarritutako benchmark estandarizatuak.

Gardentasun Osoa

Metodologia irekia eta erreproduzigarria ebaluazio-irizpideetarako sarbide osoarekin.

Eguneratze Etengabea

Modelo berriak eta MIR azterketaren edizio berriak aldiro gehitzen dira.

Zuzeneko Konparazioa

Rankingak eta estatistikak modeloen arteko errendimendua erraz konparatzeko.

Datu Egiaztatuak

Osasun Ministerioko galdera ofizialak erantzun balioztatuekin.

Galderak Motaren Arabera

Galderen banaketa motaren arabera

Anatomia3 galdera
Arriskua17 galdera
Biostatistika3 galdera
Diagnostikoa86 galdera
Epidemiologia10 galdera
Etika6 galdera
Farmakologia16 galdera
Fisiopatologia26 galdera
Interpretazioa41 galdera
Legala9 galdera
Prebentzioa17 galdera
Probak36 galdera
Pronostikoa5 galdera
Tratamendua74 galdera

Galderak Irakasgaiaren Arabera

Galderen banaketa irakasgaiaren arabera

Alergologia1 galdera
Anestesiologia eta Bizkortzea7 galdera
Dermatologia11 galdera
Endokrinologia eta Nutrizioa16 galdera
Epidemiologia8 galdera
Erradiologia-Larrialdiak13 galdera
Erreumatologia12 galdera
Estatistika3 galdera
Farmakologia12 galdera
Gaixotasun Infekziosoak14 galdera
Gastroenterologia32 galdera
Genetika11 galdera
Geriatria14 galdera
Ginekologia eta Obstetrizia13 galdera
Hematologia11 galdera
Immunologia6 galdera
Kardiologia25 galdera
Medikuntza Legala eta Bioetika11 galdera
Nefrologia10 galdera
Neurologia15 galdera
Oftalmologia6 galdera
Onkologia Medikoa25 galdera
ORL8 galdera
Osasun Plangintza eta Kudeaketa10 galdera
Pediatria22 galdera
Pneumologia17 galdera
Psikiatria8 galdera
Traumatologia11 galdera
Urologia8 galdera
Zainketa Aringarriak6 galdera

Azken artikuluak

Artikuluak, berriak eta analisiak medikuntzan IA-ri buruz

188 Neta: Bianca Ciobanu-k MIR-eko Errekorra Apurtzen du — Baina IAk Jada 200etik Doa
2026 mar. 2(a)9 min irakurketa

188 Neta: Bianca Ciobanu-k MIR-eko Errekorra Apurtzen du — Baina IAk Jada 200etik Doa

Bianca Ciobanu Selaru-k historian sartu da 188 netarekin, MIR-en inoiz erregistratutako giza emaitzarik onena. 41 urte, jatorri errumaniarra, iraunkortasunak moldeak hausten dituela frogatzea. Baina giza errekorra une singular batean iristen da: hiru IA ereduk jada azterketa osoa ebatzi dute — 200etik 200 — eta hamabostek 194 netatik gora gainditzen dute. Bikoitz mugarri honek zer esan nahi duen aztertzen dugu datuekin, grafikoekin eta testuinguruarekin.

Gehiago irakurri
Bi Asteren Ondoren: 22 Eredu Berri eta Hiruko 200/200 MIR 2026an
2026 ots. 20(a)9 min irakurketa

Bi Asteren Ondoren: 22 Eredu Berri eta Hiruko 200/200 MIR 2026an

2026ko otsailaren 5etik 20ra 22 eredu berri gehitu ditugu benchmarkera. 15 egunetan %99,5etik %100era egin dugu jauzi: Gemini 3.1 Pro Preview-k 200/200 lortzen du, Qwen3.5 397B A17B-k open-weights sabaiari pitzadura egiten dio ranking globalean, eta MedGemma-k osasuneko "espezializazioa" zer den benetan erakusten duen lezio deserosoa uzten du. Storytelling teknikoa grafiko berriekin: berdinketa perfektua, denborazko desberdinketa eta benchmark bat sabairik gabe geratzen denean nola aldatzen den.

Gehiago irakurri
ALMA eta MIRI-k MIR 2026 azterketan lor daitekeen notarik altuena lortzen dute %100eko asmatze-tasarekin
2026 ots. 11(a)23 min irakurketa

ALMA eta MIRI-k MIR 2026 azterketan lor daitekeen notarik altuena lortzen dute %100eko asmatze-tasarekin

Espainian garatutako bi AA mediko modelok aurrekaririk gabeko emaitzak lortu dituzte. ALMAk azken hiru MIR-etako 600 galderak asmatu ditu akats bakar bat ere gabe — beste eredu inork lortu ez duen %100 absolutua. MIRIk %99,3 lortu du 13 aldiz kostu txikiagoarekin eta askoz azkarrago erantzunez. Ez dira eredu orokorrak: aditu espezializatuekin RAG Agentiko arkitekturak dira, BinPar eta Editorial Medica Panamericana-k eraikitakoak, AA medikoaren etorkizuna ez dagoela eredu handiagoengan, baizik eta adimendunagoetan frogatzen dutenak.

Gehiago irakurri
Katedrala eta Bazarra: Open Source vs Jabetza MIR 2026an
2026 ots. 9(a)15 min irakurketa

Katedrala eta Bazarra: Open Source vs Jabetza MIR 2026an

MIR 2026ko rankingeko lehen 33 postuak jabetza-eredu guztiak dira. Eredu ireki onena 34. postuan geratzen da. Eredu irekien eta itxien arteko aldea aztertzen dugu, IAko open source-aren benetako taxonomia — non ireki aldarrikatzen diren eredu asko ateak erdi-irekita dituzten katedralak diren — eta zergatik RAGek fine-tuning-a gainditzen duen IA medikoa pertsonalizatzeko zure datuen kontrola galdu gabe.

Gehiago irakurri
Suitzako Labana eta Bisturria: Zergatik Huts Egiten duten Kode Eredu Onenek MIRen
2026 ots. 6(a)13 min irakurketa

Suitzako Labana eta Bisturria: Zergatik Huts Egiten duten Kode Eredu Onenek MIRen

Claude Opus 4.6 eta GPT-5.2-Codex programatzeko IA eredu aurreratuenak dira, agente-taldeak koordinatzeko eta partzialki beren burua eraikitzeko gai direnak. Baina MIR 2026an, 0,34 EUR-ko Flash eredu batek umiliatzen ditu. Programaziorako labana suitzarra ezin du ebakitzeko diseinatutako bisturiarekin lehiatu. Paradoxa agentikoaren analisia 290 ereduren datuekin, espezializazioak potentzia gordina zergatik gainditzen duen eremu medikoan erakusten duena.

Gehiago irakurri
199/200: IAk Bakarra Huts Egiten du MIR 2026an
2026 ots. 5(a)16 min irakurketa

199/200: IAk Bakarra Huts Egiten du MIR 2026an

Gaztelaniazko IA medikoaren benchmark handiaren emaitza behinbetikoak. Hiru ereduk 199 asmatu dituzte 200 galdera baliozkoetatik — %99,5eko zehaztasuna, gizaki inork MIRen historian inoiz lortu ez duena. 'Flash' eredu batek hirugarren urtez jarraian lidertzen du, garestiagoa ez dela hobea erakutsiz. 290 ereduren azterketa sakona, kostu, abiadura, token eta zehaztasunaren datuekin, IA medikoa eraldatzen ari diren joerak agerian jartzen dituena.

Gehiago irakurri