MedicalBenchmark
Benvinguts a MedBench: El major benchmark mèdic en espanyol

Benvinguts a MedBench: El major benchmark mèdic en espanyol

Presentem MedBench, una plataforma per a avaluar models de llenguatge en l'àmbit mèdic utilitzant preguntes de l'examen MIR.

Equipo MedBenchJanuary 23, 20242 min de lectura
anuncibenchmarkMIRIA mèdica

Introducció

Ens complau presentar MedBench, la major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de l'examen MIR (Metge Intern Resident) d'Espanya.

Per què MedBench?

L'avaluació de models de llenguatge en l'àmbit mèdic presenta reptes únics:

  • Precisió crítica: En medicina, els errors poden tindre conseqüències greus
  • Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
  • Raonament clínic: No és suficient memoritzar, cal saber aplicar el coneixement

Característiques principals

Preguntes del MIR

Utilitzem preguntes oficials de l'examen MIR, la qual cosa garanteix:

  1. Qualitat i rellevància clínica
  2. Cobertura de totes les especialitats mèdiques
  3. Diferents nivells de dificultat
  4. Actualització constant amb noves convocatòries

Mètriques detallades

Avaluem cada model en múltiples dimensions:

  • Precisió global: Percentatge de respostes correctes
  • Puntuació neta: Considerant penalització per errors
  • Desglossament per especialitat: Rendiment en cada àrea mèdica
  • Nivell de confiança: Certesa del model en les seues respostes

Pròxims passos

Estem treballant en:

  • Ampliar el conjunt de preguntes
  • Afegir més models al rànquing
  • Implementar anàlisis comparatives
  • Desenvolupar ferramentes per a investigadors

Uneix-te a la comunitat

Si eres investigador, desenvolupador o professional mèdic interessat en la IA aplicada a la salut, et convidem a:

Gràcies pel teu interés en MedBench!