Introducció
Mos complau presentar MedBench, sa major plataforma de benchmark mèdic enfocada a avaluar models d'intel·ligència artificial utilitzant preguntes reals de s'examen MIR (Metge Intern Resident) d'Espanya.
Per què MedBench?
S'avaluació de models de llenguatge en s'àmbit mèdic presenta reptes únics:
- Precisió crítica: En medicina, es errors poden tenir conseqüències greus
- Coneixement especialitzat: Es requereix comprensió profunda de múltiples especialitats
- Raonament clínic: No basta amb memoritzar, s'ha de saber aplicar es coneixement
Característiques principals
Preguntes des MIR
Utilitzam preguntes oficials de s'examen MIR, cosa que garanteix:
- Qualitat i rellevància clínica
- Cobertura de totes ses especialitats mèdiques
- Diferents nivells de dificultat
- Actualització constant amb noves convocatòries
Mètriques detallades
Avaluam cada model en múltiples dimensions:
- Precisió global: Percentatge de respostes correctes
- Puntuació neta: Considerant penalització per errors
- Desglossament per especialitat: Rendiment en cada àrea mèdica
- Nivell de confiança: Certesa des model en ses seves respostes
Propers passos
Estam treballant en:
- Ampliar es conjunt de preguntes
- Afegir més models an es rànquing
- Implementar anàlisis comparatives
- Desenvolupar eines per a investigadors
Uneix-te a sa comunitat
Si ets investigador, desenvolupador o professional mèdic interessat en sa IA aplicada a sa salut, et convidam a:
- Explorar es nostres rànquings
- Consultar sa metodologia
- Contactar-mos per a col·laboracions
Gràcies pes teu interès en MedBench!