
Benvinguts a MedBench: El major benchmark mèdic en espanyol
Presentem MedBench, una plataforma per avaluar models de llenguatge en l'àmbit mèdic utilitzant preguntes de l'examen MIR.
Equipo MedBench23 de gener del 20242 min de lectura
anuncibenchmarkMIRIA mèdica
Introducció
Ens complau presentar MedBench, la major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de l'examen MIR (Metge Intern Resident) d'Espanya.
Per què MedBench?
L'avaluació de models de llenguatge en l'àmbit mèdic presenta reptes únics:
- Precisió crítica: En medicina, els errors poden tenir conseqüències greus
- Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
- Raonament clínic: No n'hi ha prou amb memoritzar, cal saber aplicar el coneixement
Característiques principals
Preguntes del MIR
Utilitzem preguntes oficials de l'examen MIR, cosa que garanteix:
- Qualitat i rellevància clínica
- Cobertura de totes les especialitats mèdiques
- Diferents nivells de dificultat
- Actualització constant amb noves convocatòries
Mètriques detallades
Avaluem cada model en múltiples dimensions:
- Precisió global: Percentatge de respostes correctes
- Puntuació neta: Considerant penalització per errors
- Desglossament per especialitat: Rendiment en cada àrea mèdica
- Nivell de confiança: Certesa del model en les seves respostes
Propers passos
Estem treballant en:
- Ampliar el conjunt de preguntes
- Afegir més models al rànquing
- Implementar anàlisis comparatives
- Desenvolupar eines per a investigadors
Uneix-te a la comunitat
Si ets investigador, desenvolupador o professional mèdic interessat en la IA aplicada a la salut, et convidem a:
- Explorar els nostres rànquings
- Consultar la metodologia
- Contactar-nos per a col·laboracions
Gràcies pel teu interès en MedBench!