MedicalBenchmark
Bem-vindos ao MedBench: O maior benchmark médico em espanhol

Bem-vindos ao MedBench: O maior benchmark médico em espanhol

Apresentamos o MedBench, uma plataforma para avaliar modelos de linguagem no âmbito médico utilizando questões do exame MIR.

Equipo MedBench23 de janeiro de 20242 min de leitura
anúnciobenchmarkMIRIA médica

Introdução

Temos o prazer de apresentar o MedBench, a maior plataforma de benchmark médico focada em avaliar modelos de inteligência artificial utilizando questões reais do exame MIR (Médico Interno Residente) de Espanha.

Por que MedBench?

A avaliação de modelos de linguagem no âmbito médico apresenta desafios únicos:

  • Precisão crítica: Em medicina, os erros podem ter consequências graves
  • Conhecimento especializado: É necessária compreensão profunda de múltiplas especialidades
  • Raciocínio clínico: Não basta memorizar, é preciso saber aplicar o conhecimento

Características principais

Questões do MIR

Utilizamos questões oficiais do exame MIR, o que garante:

  1. Qualidade e relevância clínica
  2. Cobertura de todas as especialidades médicas
  3. Diferentes níveis de dificuldade
  4. Atualização constante com novas edições

Métricas detalhadas

Avaliamos cada modelo em múltiplas dimensões:

  • Precisão global: Percentagem de respostas corretas
  • Pontuação líquida: Considerando penalização por erros
  • Desagregação por especialidade: Desempenho em cada área médica
  • Nível de confiança: Certeza do modelo nas suas respostas

Próximos passos

Estamos a trabalhar em:

  • Ampliar o conjunto de questões
  • Adicionar mais modelos ao ranking
  • Implementar análises comparativas
  • Desenvolver ferramentas para investigadores

Junta-te à comunidade

Se és investigador, desenvolvedor ou profissional médico interessado em IA aplicada à saúde, convidamos-te a:

Obrigado pelo teu interesse no MedBench!