Introducció
Ens complau presentar MedBench, la major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de l'examen MIR (Metge Intern Resident) d'Espanya.
Per què MedBench?
L'avaluació de models de llenguatge en l'àmbit mèdic presenta reptes únics:
- Precisió crítica: En medicina, els errors poden tindre conseqüències greus
- Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
- Raonament clínic: No és suficient memoritzar, cal saber aplicar el coneixement
Característiques principals
Preguntes del MIR
Utilitzem preguntes oficials de l'examen MIR, la qual cosa garanteix:
- Qualitat i rellevància clínica
- Cobertura de totes les especialitats mèdiques
- Diferents nivells de dificultat
- Actualització constant amb noves convocatòries
Mètriques detallades
Avaluem cada model en múltiples dimensions:
- Precisió global: Percentatge de respostes correctes
- Puntuació neta: Considerant penalització per errors
- Desglossament per especialitat: Rendiment en cada àrea mèdica
- Nivell de confiança: Certesa del model en les seues respostes
Pròxims passos
Estem treballant en:
- Ampliar el conjunt de preguntes
- Afegir més models al rànquing
- Implementar anàlisis comparatives
- Desenvolupar ferramentes per a investigadors
Uneix-te a la comunitat
Si eres investigador, desenvolupador o professional mèdic interessat en la IA aplicada a la salut, et convidem a:
- Explorar els nostres rànquings
- Consultar la metodologia
- Contactar-nos per a col·laboracions
Gràcies pel teu interés en MedBench!