Metodoloxia de Avaliacion
Que e o exame MIR?
O MIR (Medico Interno Residente) e a proba nacional que deben superar os graduados en Medicina para acceder a formacion sanitaria especializada en Espana. E o estandar de ouro para avaliar conecementos medicos a nivel profesional.
200 preguntas oficiais
Mais 10 preguntas de reserva por se algunha e anulada
4 opcions por pregunta
Unha soa resposta correcta, tres distractores
Proba nacional unificada
Identica para todos os candidatos en toda Espana
Elaborada por expertos
Comision de especialistas do Ministerio de Sanidade
MIR 2026: Un Benchmark Virxe
O exame MIR 2026 representa unha oportunidade unica na avaliacion de modelos de IA: foi publicado DESPOIS da data de corte de adestramento de todos os modelos avaliados.
Isto significa que ningun modelo puido ter visto estas preguntas durante o seu adestramento, garantindo unha avaliacion zero-shot real.
Sen contaminacion de adestramento
As preguntas do MIR 2026 non existian cando os modelos foron adestrados
Avaliacion zero-shot real
Os modelos responden sen ter visto nunca as preguntas previamente
Comparacion xusta entre modelos
Todos os modelos parten das mesmas condicions iniciais
Sistema de Puntuacion Oficial
Utilizamos o sistema de puntuacion oficial do exame MIR, desenado para penalizar as respostas incorrectas e desincentivar as respostas ao chou.
Resposta correcta
+3 puntos
Resposta incorrecta
-1 punto
Resposta en branco
0 puntos
Netas = Acertos - (Fallos / 3)
A formula de 'netas' equilibra o risco de responder incorrectamente. Por cada 3 fallos, perdese o equivalente a 1 acerto.
Puntuacion = 3 x Netas
As preguntas anuladas oficialmente non se contabilizan na puntuacion.
Protocolo de Avaliacion
Seguimos un protocolo estandarizado para garantir a reproducibilidade e comparabilidade dos resultados.
Preparacion do Prompt
Cada pregunta contextualizada cun prompt especifico que situa o modelo no rol de medico residente espanol realizando o exame MIR.
Envio da Pregunta
A pregunta enviase en formato XML estruturado, incluindo o enunciado, as opcions de resposta e imaxes se as hai.
Procesamento de Resposta
O modelo xera a sua resposta con razoamento clinico completo e selecciona unha opcion.
Extraccion Estandarizada
Un sistema automatizado extrae a opcion elixida do texto de resposta, manexando diferentes formatos.
Calculo de Puntuacion
Aplicase o sistema de puntuacion oficial MIR e rexistranse todas as metricas.
Deseno do Prompt
O prompt esta desenado para contextualizar o modelo no sistema sanitario espanol e na situacion especifica do exame MIR.
Es un medico residente espanol realizando o exame MIR.
Analiza a seguinte pregunta e proporciona a tua resposta.
<pregunta>
{enunciado}
</pregunta>
<opcions>
A) {opcion_a}
B) {opcion_b}
C) {opcion_c}
D) {opcion_d}
</opcions>
Razona a tua resposta e ao final indica claramente a tua eleccion
co formato: "A mina resposta e: [letra]"Razoamento do deseno:
- Contexto espanol: referencia explicita ao sistema sanitario espanol
- Rol definido: o modelo actua como medico residente realizando o exame
- Instruccions claras: formato de resposta especificado para facilitar a extraccion
- Sen pistas adicionais: o modelo so recibe a informacion da pregunta
Extraccion de Respostas
Utilizamos un sistema robusto de extraccion para identificar a opcion elixida por cada modelo, independentemente das variacions no formato de resposta.
Modelo secundario de parsing
Un modelo especializado analiza a resposta e extrae a opcion elixida
Patrons de busca
Expresions regulares buscan frases clave como 'A mina resposta e:', 'A opcion correcta e:', etc.
Sistema de reintentos
Se a extraccion falla, solicitase ao modelo que clarifique a sua resposta
Nivel de confianza
Rexistrase a confianza na extraccion para cada resposta
Soporte Multimodal
O exame MIR inclue preguntas con imaxes medicas (radiografias, ECGs, cortes histoloxicos, etc.). O noso sistema detecta e xestiona automaticamente estas preguntas.
Deteccion automatica
O sistema identifica que modelos tenen capacidade de vision
Envio de imaxes
As imaxes medicas envianse xunto co texto da pregunta
Modelos so-texto
Para modelos sen vision, indicase que a pregunta conten unha imaxe non disponible
Metricas separadas
Rexistranse metricas especificas para preguntas con e sen imaxes
Metricas Capturadas
Rexistramos multiples metricas para cada resposta, permitindo unha analise detallada do rendemento de cada modelo.
Tempo de resposta
Latencia total dende o envio ata a resposta completa (ms)
Tokens de entrada
Numero de tokens no prompt enviado ao modelo
Tokens de saida
Numero de tokens xerados na resposta
Tokens de razoamento
Tokens utilizados no proceso de razoamento (se aplica)
Custo por consulta
Custo estimado en USD baseado nos prezos da API
Nivel de confianza
Confianza do modelo na sua resposta (se esta disponible)
Transparencia e Reproducibilidade
Comprometemonos coa transparencia total na nosa metodoloxia. Calquera investigador pode verificar e reproducir os nosos resultados.
Metodoloxia documentada
Todos os detalles do proceso de avaliacion estan documentados publicamente
Datos de entrada publicos
As preguntas do MIR son documentos publicos do Ministerio
Respostas verificables
As respostas dos modelos almacenanse para verificacion posterior
Codigo aberto
O codigo de avaliacion estara disponible para inspeccion e reproduccion
Explora os Resultados
Consulta o rendemento detallado de cada modelo nas preguntas do MIR 2026.