
Benvinguts a MedBench: El major benchmark mèdic en espanyol
Presentem MedBench, una plataforma per a avaluar models de llenguatge en l'àmbit mèdic utilitzant preguntes de l'examen MIR.
Equipo MedBenchJanuary 23, 20242 min de lectura
anuncibenchmarkMIRIA mèdica
Introducció
Ens complau presentar MedBench, la major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de l'examen MIR (Metge Intern Resident) d'Espanya.
Per què MedBench?
L'avaluació de models de llenguatge en l'àmbit mèdic presenta reptes únics:
- Precisió crítica: En medicina, els errors poden tindre conseqüències greus
- Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
- Raonament clínic: No és suficient memoritzar, cal saber aplicar el coneixement
Característiques principals
Preguntes del MIR
Utilitzem preguntes oficials de l'examen MIR, la qual cosa garanteix:
- Qualitat i rellevància clínica
- Cobertura de totes les especialitats mèdiques
- Diferents nivells de dificultat
- Actualització constant amb noves convocatòries
Mètriques detallades
Avaluem cada model en múltiples dimensions:
- Precisió global: Percentatge de respostes correctes
- Puntuació neta: Considerant penalització per errors
- Desglossament per especialitat: Rendiment en cada àrea mèdica
- Nivell de confiança: Certesa del model en les seues respostes
Pròxims passos
Estem treballant en:
- Ampliar el conjunt de preguntes
- Afegir més models al rànquing
- Implementar anàlisis comparatives
- Desenvolupar ferramentes per a investigadors
Uneix-te a la comunitat
Si eres investigador, desenvolupador o professional mèdic interessat en la IA aplicada a la salut, et convidem a:
- Explorar els nostres rànquings
- Consultar la metodologia
- Contactar-nos per a col·laboracions
Gràcies pel teu interés en MedBench!