MedicalBenchmark

Avaliando o futuro da IA Médica

A plataforma definitiva de avaliación para modelos de linguaxe nos exames MIR de España (2024-2026). Coa confianza de clínicos e investigadores.

A Nosa Metodoloxía

Como avaliamos os modelos de intelixencia artificial no ámbito médico utilizando o exame MIR como referencia.

Preguntas MIR Oficiais

Utilizamos preguntas reais do exame MIR de España, o estándar para avaliar coñecementos médicos a nivel profesional. Cada pregunta é verificada e categorizada por especialidade.

Avaliación Rigorosa

Cada modelo é avaliado baixo as mesmas condicións controladas, sen acceso a información externa. Medimos precisión, razoamento clínico e consistencia nas respostas.

Análise Detallada

Proporcionamos métricas granulares por especialidade médica, tipo de pregunta e nivel de dificultade. Isto permite identificar fortalezas e áreas de mellora de cada modelo.

Preguntas catalogadas por especialistas

Distribución das preguntas do exame MIR por materia e tipo en cada edición.

Análise Integral

O noso benchmark proporciona unha avaliación exhaustiva do rendemento de modelos de IA no ámbito médico.

Avaliación Continua

Seguimento do rendemento ao longo do tempo para identificar melloras e regresións.

Métricas Detalladas

Análise granular por materia e tipo de pregunta clínica.

Obxectivos Claros

Benchmarks estandarizados baseados no exame MIR oficial de España.

Transparencia Total

Metodoloxía aberta e reproducible con acceso completo aos criterios de avaliación.

Actualización Constante

Incorporación de novos modelos e edicións do exame MIR de forma periódica.

Comparación Directa

Rankings e estatísticas que permiten comparar o rendemento entre modelos facilmente.

Datos Verificados

Preguntas oficiais do Ministerio de Sanidade con respostas validadas.

Preguntas por Tipo

Distribución de preguntas por tipo

Anatomía3 preguntas
Bioestatística3 preguntas
Diagnóstico86 preguntas
Epidemioloxía10 preguntas
Ética6 preguntas
Farmacoloxía16 preguntas
Fisiopatoloxía26 preguntas
Interpretación41 preguntas
Legal9 preguntas
Prevención17 preguntas
Probas36 preguntas
Prognóstico5 preguntas
Risco17 preguntas
Tratamento74 preguntas

Preguntas por Materia

Distribución de preguntas por materia

Alerxoloxía1 preguntas
Anestesioloxía e Reanimación7 preguntas
Cardioloxía25 preguntas
Coidados Paliativos6 preguntas
Dermatoloxía11 preguntas
Endocrinoloxía e Nutrición16 preguntas
Enfermidades Infecciosas14 preguntas
Epidemioloxía8 preguntas
Estatística3 preguntas
Farmacoloxía12 preguntas
Gastroenteroloxía32 preguntas
Hematoloxía11 preguntas
Inmunoloxía6 preguntas
Medicina Legal e Bioética11 preguntas
Nefroloxía10 preguntas
Neuroloxía15 preguntas
Oftalmoloxía6 preguntas
Oncoloxía Médica25 preguntas
ORL8 preguntas
Pediatría22 preguntas
Planificación e Xestión Sanitaria10 preguntas
Pneumoloxía17 preguntas
Psiquiatría8 preguntas
Radioloxía-Urxencias13 preguntas
Reumatoloxía12 preguntas
Traumatoloxía11 preguntas
Uroloxía8 preguntas
Xenética11 preguntas
Xeriatría14 preguntas
Xinecoloxía e Obstetricia13 preguntas

Últimos artigos

Artigos, novidades e análises sobre IA en medicina

188 Netas: Bianca Ciobanu Bate o Récord do MIR — Pero a IA Xa Vai por 200
2 de mar. de 202611 min de lectura

188 Netas: Bianca Ciobanu Bate o Récord do MIR — Pero a IA Xa Vai por 200

Bianca Ciobanu Selaru entra na historia con 188 netas, o mellor resultado humano xamais rexistrado no MIR. 41 anos, orixe romanesa, a proba de que a constancia rompe moldes. Pero o récord humano chega nun momento singular: tres modelos de IA xa resolveron o exame completo — 200 de 200 — e quince superan as 194 netas. Analizamos que significa este dobre fito con datos, gráficas e contexto.

Ler máis
Dúas Semanas Despois: 22 Modelos Novos e Triplo 200/200 no MIR 2026
20 de feb. de 202610 min de lectura

Dúas Semanas Despois: 22 Modelos Novos e Triplo 200/200 no MIR 2026

Do 5 ao 20 de febreiro de 2026 incorporamos 22 modelos novos ao benchmark. En só 15 días pasamos do 99,5% ao 100%: Gemini 3.1 Pro Preview entra con 200/200, Qwen3.5 397B A17B rompe o teito open-weights no ránquing global e MedGemma deixa unha lección incómoda sobre o que significa realmente a especialización en saúde. Storytelling técnico con novas gráficas sobre o empate perfecto, o desempate temporal e como cambia un benchmark cando se queda sen teito.

Ler máis
ALMA e MIRI obteñen a nota máxima posible no exame MIR 2026 cun 100% de acerto
11 de feb. de 202626 min de lectura

ALMA e MIRI obteñen a nota máxima posible no exame MIR 2026 cun 100% de acerto

Dous modelos de IA medica desenvolvidos en Espana logran resultados sen precedentes. ALMA acerta as 600 preguntas dos tres ultimos MIR sen un so erro — un 100% absoluto que ningun outro modelo logrou. MIRI acada un 99,3% cun custo 13 veces inferior e respondendo moito mais rapido. Non son modelos xeneralistas: son arquitecturas RAG Axenticas con expertos especializados, construidas por BinPar e Editorial Medica Panamericana, que demostran que o futuro da IA medica non esta en modelos mais grandes, senon en modelos mais intelixentes.

Ler máis
A Catedral e o Bazar: Open Source vs Propietario no MIR 2026
9 de feb. de 202618 min de lectura

A Catedral e o Bazar: Open Source vs Propietario no MIR 2026

Os 33 primeiros postos do ranking MIR 2026 son todos modelos propietarios. O mellor modelo aberto queda no posto 34. Analizamos o gap entre modelos abertos e pechados, a taxonomía real do open source en IA — onde moitos modelos que se proclaman abertos son catedrais coas portas entreabertas — e por que RAG supera ao fine-tuning para personalizar IA médica sen perder o control dos teus datos.

Ler máis
A Navalla Suíza e o Bisturí: Por Que os Mellores Modelos de Código Fracasan no MIR
6 de feb. de 202616 min de lectura

A Navalla Suíza e o Bisturí: Por Que os Mellores Modelos de Código Fracasan no MIR

Claude Opus 4.6 e GPT-5.2-Codex son os modelos de IA mais avanzados para programar, capaces de coordinar equipos de axentes e construirse parcialmente a si mesmos. Pero no MIR 2026, un modelo Flash de 0,34 EUR humillaos. A navalla suiza da programacion non pode competir co bisturí deseñado para cortar. Analise da paradoxa axentica con datos de 290 modelos que demostra por que a especializacion supera a potencia bruta no ambito medico.

Ler máis
199 de 200: A IA Só Falla Unha no MIR 2026
5 de feb. de 202619 min de lectura

199 de 200: A IA Só Falla Unha no MIR 2026

Resultados definitivos do maior benchmark de IA médica en español. Tres modelos empatan con 199 acertos sobre 200 preguntas válidas — un 99,5% de precisión que ningún ser humano acadou xamais na historia do MIR. Un modelo 'Flash' lidera por terceiro ano consecutivo, demostrando que mais caro non significa mellor. Análise exhaustiva de 290 modelos avaliados con datos de custo, velocidade, tokens e precisión que revela as tendencias que están a transformar a intelixencia artificial médica.

Ler máis