Ikerketa Artikuluak
Paper 2026
HurrengoaPrestatzen
MIR 2026 emaitzen analisi osoa barne hartuko duen ikerketa artikulu berri batean lanean ari gara, datu eguneratuekin eta ebaluatutako modelo berriekin.
Barne hartuko du:
- MIR 2026 emaitzen analisi osoa
- Azken belaunaldiko modeloen ebaluazioa
- 2024-2026 urtez urteko konparaketa
- Ebaluazio multimodaleko metrika berriak
Paper 2025
EskuragarriArgitaratua
Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application
Egileak
Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo
Ikerketa honek 22 hizkuntza modelo handiren (LLM) ebaluazio konparatiboa aurkezten du 2024 eta 2025eko Espainiako MIR azterketetan.
Emaitza nabarmenak
Ikerketaren metrika nagusiak
Ikerketaren aurkikuntza nagusiak
Ikerketaren helburua
Espainiako MIR azterketetan helburu orokorreko eta medikuntzan espezializatutako hizkuntza modeloen ebaluazio konparatiboa.
- 22 hizkuntza modelo (LLM) ebaluatuta
- Espainiako MIR azterketa ofizialak 2024 eta 2025
- Arrazonamendu klinikoko gaitasunen analisia
- Modelo orokorren eta espezializatuen arteko konparaketa
Metodologia
Ebaluazio-esparru zorrotza MIR azterketako galdera ofizialetan oinarritua, puntuazio-sistema estandarrarekin.
- 210 aukera anitzeko galdera ofizial zikloko
- MIR puntuazio-sistema estandarra (+3/-1/0)
- Zero-shot ebaluazioa aurretiko adibiderik gabe
- Irudi medikoen prozesamendu multimodala
Ebaluatutako modeloak
Modelo hautatze zabala, bai sistema orokorrak bai eremu medikoan espezializatuak barne.
- OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
- Anthropic: Claude 3 (Opus, Sonnet, Haiku)
- Google: Gemini Pro, Gemini Ultra
- Sistema espezializatuak: Miri Pro
Ikerketaren irismena
Ebaluazio integrala ezagutza medikoaren eta gaitasun klinikoen dimentsio anitzak hartzen dituena.
- MIReko espezialitate mediko guztien estaldura
- Irudi-euskarriarekin eta gabe galderak
- Arrazonamendu diagnostiko eta terapeutikoaren ebaluazioa
- Azterketa-zikloen arteko koherentzia-analisia
Aurkikuntza nagusiak
Emaitza esanguratsuak ebaluatutako modelo mota desberdinen arteko desberdintasun garrantzitsuak agerian uzten dituztenak.
- Modelo espezializatuek orokorrak gainditzen dituzte
- Zehaztasun handiagoa arrazonamendu kliniko konplexuan
- Aldakortasuna irudi medikoen interpretazioan
- Errendimenduaren jaitsiera 2024-2025 zikloen artean
Ondorioak
Inplikazio garrantzitsuak medikuntzako IAren eta hezkuntza medikoaren etorkizunerako.
- Domeinuko fine-tuning espezifikoaren potentziala
- Gaitasun multimodalen garrantzia kritikoa
- Urtero eguneratutako benchmarken beharra
- Aplikazio potentzialak hezkuntza medikoan
Aurkikuntza nabarmena
Errendimenduaren beherakada txiki bat ikusi zen 2024-2025 zikloen artean, memorizazioa murrizteko galderen diseinuaren aldaketei egotzia.
Arakatu gure emaitzak
Kontsultatu IA modeloen ranking eguneratuak edo proposatu zure modeloa ebaluaziorako.