MedicalBenchmark
Benvinguts a MedBench: El major benchmark mèdic en espanyol

Benvinguts a MedBench: El major benchmark mèdic en espanyol

Presentem MedBench, una plataforma per avaluar models de llenguatge en l'àmbit mèdic utilitzant preguntes de l'examen MIR.

Equipo MedBench23 de gener del 20242 min de lectura
anuncibenchmarkMIRIA mèdica

Introducció

Ens complau presentar MedBench, la major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de l'examen MIR (Metge Intern Resident) d'Espanya.

Per què MedBench?

L'avaluació de models de llenguatge en l'àmbit mèdic presenta reptes únics:

  • Precisió crítica: En medicina, els errors poden tenir conseqüències greus
  • Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
  • Raonament clínic: No n'hi ha prou amb memoritzar, cal saber aplicar el coneixement

Característiques principals

Preguntes del MIR

Utilitzem preguntes oficials de l'examen MIR, cosa que garanteix:

  1. Qualitat i rellevància clínica
  2. Cobertura de totes les especialitats mèdiques
  3. Diferents nivells de dificultat
  4. Actualització constant amb noves convocatòries

Mètriques detallades

Avaluem cada model en múltiples dimensions:

  • Precisió global: Percentatge de respostes correctes
  • Puntuació neta: Considerant penalització per errors
  • Desglossament per especialitat: Rendiment en cada àrea mèdica
  • Nivell de confiança: Certesa del model en les seves respostes

Propers passos

Estem treballant en:

  • Ampliar el conjunt de preguntes
  • Afegir més models al rànquing
  • Implementar anàlisis comparatives
  • Desenvolupar eines per a investigadors

Uneix-te a la comunitat

Si ets investigador, desenvolupador o professional mèdic interessat en la IA aplicada a la salut, et convidem a:

Gràcies pel teu interès en MedBench!