MedicalBenchmark

Argitalpen zientifikoak eta gardentasun akademikoa

Ikerketa Artikuluak

IA modeloak eremu medikoan ebaluatzeko gure lana pare-parekoek berrikusitako argitalpen zientifikoez babestuta dago, gure emaitzen gardentasuna eta erreproduzigarritasuna bermatuz.

Paper 2026

Hurrengoa

Prestatzen

MIR 2026 emaitzen analisi osoa barne hartuko duen ikerketa artikulu berri batean lanean ari gara, datu eguneratuekin eta ebaluatutako modelo berriekin.

Barne hartuko du:

  • MIR 2026 emaitzen analisi osoa
  • Azken belaunaldiko modeloen ebaluazioa
  • 2024-2026 urtez urteko konparaketa
  • Ebaluazio multimodaleko metrika berriak

Paper 2025

Eskuragarri

Argitaratua

Evaluating Large Language Models on the Spanish Medical Intern Resident (MIR) Examination 2024/2025: A Comparative Analysis of Clinical Reasoning and Knowledge Application

Egileak

Carlos Luengo Vera, Ignacio Ferro Picón, M. Teresa del Val Núñez, José Andrés Gómez Gandía, Antonio de Lucas Ancillo, Víctor Ramos Arroyo, Carlos Milán Figueredo

Ikerketa honek 22 hizkuntza modelo handiren (LLM) ebaluazio konparatiboa aurkezten du 2024 eta 2025eko Espainiako MIR azterketetan.

Emaitza nabarmenak

Ikerketaren metrika nagusiak

22
Modelo ebaluatuak
420
Galdera analizatuak
210
Galdera zikloko
2024-2025
MIR zikloak

Ikerketaren aurkikuntza nagusiak

Ikerketaren helburua

Espainiako MIR azterketetan helburu orokorreko eta medikuntzan espezializatutako hizkuntza modeloen ebaluazio konparatiboa.

  • 22 hizkuntza modelo (LLM) ebaluatuta
  • Espainiako MIR azterketa ofizialak 2024 eta 2025
  • Arrazonamendu klinikoko gaitasunen analisia
  • Modelo orokorren eta espezializatuen arteko konparaketa

Metodologia

Ebaluazio-esparru zorrotza MIR azterketako galdera ofizialetan oinarritua, puntuazio-sistema estandarrarekin.

  • 210 aukera anitzeko galdera ofizial zikloko
  • MIR puntuazio-sistema estandarra (+3/-1/0)
  • Zero-shot ebaluazioa aurretiko adibiderik gabe
  • Irudi medikoen prozesamendu multimodala

Ebaluatutako modeloak

Modelo hautatze zabala, bai sistema orokorrak bai eremu medikoan espezializatuak barne.

  • OpenAI: GPT-4, GPT-4 Turbo, GPT-4o
  • Anthropic: Claude 3 (Opus, Sonnet, Haiku)
  • Google: Gemini Pro, Gemini Ultra
  • Sistema espezializatuak: Miri Pro

Ikerketaren irismena

Ebaluazio integrala ezagutza medikoaren eta gaitasun klinikoen dimentsio anitzak hartzen dituena.

  • MIReko espezialitate mediko guztien estaldura
  • Irudi-euskarriarekin eta gabe galderak
  • Arrazonamendu diagnostiko eta terapeutikoaren ebaluazioa
  • Azterketa-zikloen arteko koherentzia-analisia

Aurkikuntza nagusiak

Emaitza esanguratsuak ebaluatutako modelo mota desberdinen arteko desberdintasun garrantzitsuak agerian uzten dituztenak.

  • Modelo espezializatuek orokorrak gainditzen dituzte
  • Zehaztasun handiagoa arrazonamendu kliniko konplexuan
  • Aldakortasuna irudi medikoen interpretazioan
  • Errendimenduaren jaitsiera 2024-2025 zikloen artean

Ondorioak

Inplikazio garrantzitsuak medikuntzako IAren eta hezkuntza medikoaren etorkizunerako.

  • Domeinuko fine-tuning espezifikoaren potentziala
  • Gaitasun multimodalen garrantzia kritikoa
  • Urtero eguneratutako benchmarken beharra
  • Aplikazio potentzialak hezkuntza medikoan
Loading chart...

Aurkikuntza nabarmena

Errendimenduaren beherakada txiki bat ikusi zen 2024-2025 zikloen artean, memorizazioa murrizteko galderen diseinuaren aldaketei egotzia.

Arakatu gure emaitzak

Kontsultatu IA modeloen ranking eguneratuak edo proposatu zure modeloa ebaluaziorako.