Argitalpen zientifikoak eta gardentasun akademikoa

Ikerketa Artikuluak

IA modeloak eremu medikoan ebaluatzeko gure lana pare-parekoek berrikusitako argitalpen zientifikoez babestuta dago, gure emaitzen gardentasuna eta erreproduzigarritasuna bermatuz.

Paper 2026

Hurrengoa

Prestatzen

MIR 2026 emaitzen analisi osoa barne hartuko duen ikerketa artikulu berri batean lanean ari gara, datu eguneratuekin eta ebaluatutako modelo berriekin.

Barne hartuko du:

MIR 2026 emaitzen analisi osoa
Azken belaunaldiko modeloen ebaluazioa
2024-2026 urtez urteko konparaketa
Ebaluazio multimodaleko metrika berriak

Paper 2025

Eskuragarri

Argitaratua

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Egileak

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Ikerketa honek 22 hizkuntza modelo handiren (LLM) ebaluazio konparatiboa aurkezten du 2024 eta 2025eko Espainiako MIR azterketetan.

Emaitza nabarmenak

Ikerketaren metrika nagusiak

Modelo ebaluatuak

420

Galdera analizatuak

210

Galdera zikloko

2024-2025

MIR zikloak

Ikerketaren aurkikuntza nagusiak

Ikerketaren helburua

Espainiako MIR azterketetan helburu orokorreko eta medikuntzan espezializatutako hizkuntza modeloen ebaluazio konparatiboa.

22 hizkuntza modelo (LLM) ebaluatuta
Espainiako MIR azterketa ofizialak 2024 eta 2025
Arrazonamendu klinikoko gaitasunen analisia
Modelo orokorren eta espezializatuen arteko konparaketa

Metodologia

Ebaluazio-esparru zorrotza MIR azterketako galdera ofizialetan oinarritua, puntuazio-sistema estandarrarekin.

210 aukera anitzeko galdera ofizial zikloko
MIR puntuazio-sistema estandarra (+3/-1/0)
Zero-shot ebaluazioa aurretiko adibiderik gabe
Irudi medikoen prozesamendu multimodala

Ebaluatutako modeloak

Modelo hautatze zabala, bai sistema orokorrak bai eremu medikoan espezializatuak barne.

OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
Anthropic: Claude 3 (Opus, Sonnet, Haiku)
Google: Gemini Pro, Gemini Ultra
Sistema espezializatuak: Miri Pro

Ikerketaren irismena

Ebaluazio integrala ezagutza medikoaren eta gaitasun klinikoen dimentsio anitzak hartzen dituena.

MIReko espezialitate mediko guztien estaldura
Irudi-euskarriarekin eta gabe galderak
Arrazonamendu diagnostiko eta terapeutikoaren ebaluazioa
Azterketa-zikloen arteko koherentzia-analisia

Aurkikuntza nagusiak

Emaitza esanguratsuak ebaluatutako modelo mota desberdinen arteko desberdintasun garrantzitsuak agerian uzten dituztenak.

Modelo espezializatuek orokorrak gainditzen dituzte
Zehaztasun handiagoa arrazonamendu kliniko konplexuan
Aldakortasuna irudi medikoen interpretazioan
Errendimenduaren jaitsiera 2024-2025 zikloen artean

Ondorioak

Inplikazio garrantzitsuak medikuntzako IAren eta hezkuntza medikoaren etorkizunerako.

Domeinuko fine-tuning espezifikoaren potentziala
Gaitasun multimodalen garrantzia kritikoa
Urtero eguneratutako benchmarken beharra
Aplikazio potentzialak hezkuntza medikoan

Loading chart...

Aurkikuntza nabarmena

Errendimenduaren beherakada txiki bat ikusi zen 2024-2025 zikloen artean, memorizazioa murrizteko galderen diseinuaren aldaketei egotzia.

Ikusi artikulu osoa arXiv-en

Arakatu gure emaitzak

Kontsultatu IA modeloen ranking eguneratuak edo proposatu zure modeloa ebaluaziorako.

Ikusi Rankingak Modeloa Proposatu