MedicalBenchmark

Avaluant es futur de s'IA Mèdica

Sa plataforma definitiva d'avaluació per a models de llenguatge en sos exàmens MIR d'Espanya (2024-2026). Amb sa confiança de clínics i investigadors.

Sa Nostra Metodologia

Com avaluam sos models d'intel·ligència artificial en s'àmbit mèdic utilitzant s'examen MIR com a referència.

Preguntes MIR Oficials

Utilitzam preguntes reals de s'examen MIR d'Espanya, s'estàndard per avaluar coneixements mèdics a nivell professional. Cada pregunta és verificada i categoritzada per especialitat.

Avaluació Rigorosa

Cada model és avaluat baix ses mateixes condicions controlades, sense accés a informació externa. Mesuram precisió, raonament clínic i consistència en ses respostes.

Anàlisi Detallada

Proporcionam mètriques granulars per especialitat mèdica, tipus de pregunta i nivell de dificultat. Això permet identificar fortaleses i àrees de millora de cada model.

Preguntes catalogades per especialistes

Distribució de ses preguntes de s'examen MIR per assignatura i tipus en cada edició.

Anàlisi Integral

Es nostre benchmark proporciona una avaluació exhaustiva des rendiment de models d'IA en s'àmbit mèdic.

Avaluació Contínua

Seguiment des rendiment al llarg des temps per identificar millores i regressions.

Mètriques Detallades

Anàlisi granular per assignatura i tipus de pregunta clínica.

Objectius Clars

Benchmarks estandarditzats basats en s'examen MIR oficial d'Espanya.

Transparència Total

Metodologia oberta i reproduïble amb accés complet an sos criteris d'avaluació.

Actualització Constant

Incorporació de nous models i edicions de s'examen MIR de forma periòdica.

Comparació Directa

Rànquings i estadístiques que permeten comparar es rendiment entre models fàcilment.

Dades Verificades

Preguntes oficials des Ministeri de Sanitat amb respostes validades.

Preguntes per Tipus

Distribució de preguntes per tipus

Anatomia3 preguntes
Bioestadística3 preguntes
Diagnòstic86 preguntes
Epidemiologia10 preguntes
Ètica6 preguntes
Farmacologia16 preguntes
Fisiopatologia26 preguntes
Interpretació41 preguntes
Legal9 preguntes
Prevenció17 preguntes
Pronòstic5 preguntes
Proves36 preguntes
Risc17 preguntes
Tractament74 preguntes

Preguntes per Assignatura

Distribució de preguntes per assignatura

Al·lergologia1 preguntes
Anestesiologia i Reanimació7 preguntes
Cardiologia25 preguntes
Cures Pal·liatives6 preguntes
Dermatologia11 preguntes
Endocrinologia i Nutrició16 preguntes
Epidemiologia8 preguntes
Estadística3 preguntes
Farmacologia12 preguntes
Gastroenterologia32 preguntes
Genètica11 preguntes
Geriatria14 preguntes
Ginecologia i Obstetrícia13 preguntes
Hematologia11 preguntes
Immunologia6 preguntes
Malalties Infeccioses14 preguntes
Medicina Legal i Bioètica11 preguntes
Nefrologia10 preguntes
Neurologia15 preguntes
Oftalmologia6 preguntes
Oncologia Mèdica25 preguntes
ORL8 preguntes
Pediatria22 preguntes
Planificació i Gestió Sanitària10 preguntes
Pneumologia17 preguntes
Psiquiatria8 preguntes
Radiologia-Urgències13 preguntes
Reumatologia12 preguntes
Traumatologia11 preguntes
Urologia8 preguntes

Darrers articles

Articles, novetats i anàlisis sobre IA en medicina

188 Netes: Bianca Ciobanu Bat es Rècord des MIR — Però sa IA Ja Va per 200
Mar 2, 202611 min de lectura

188 Netes: Bianca Ciobanu Bat es Rècord des MIR — Però sa IA Ja Va per 200

Bianca Ciobanu Selaru entra en sa història amb 188 netes, es millor resultat humà mai registrat en es MIR. 41 anys, origen romanès, sa prova que sa constància trenca motles. Però es rècord humà arriba en un moment singular: tres models d'IA ja han resolt s'examen complet — 200 de 200 — i quinze superen ses 194 netes. Analitzam què significa aquest doble fita amb dades, gràfiques i context.

Llegir més
Dues Setmanes Després: 22 Models Nous i Triple 200/200 al MIR 2026
Feb 20, 202611 min de lectura

Dues Setmanes Després: 22 Models Nous i Triple 200/200 al MIR 2026

Del 5 al 20 de febrer de 2026 vam incorporar 22 models nous al benchmark. En només 15 dies vam passar del 99,5% al 100%: Gemini 3.1 Pro Preview entra amb 200/200, Qwen3.5 397B A17B trenca el sostre open-weights al rànquing global i MedGemma deixa una lliçó incòmoda sobre què vol dir realment especialització en salut. Storytelling tècnic amb noves gràfiques sobre l'empat perfecte, el desempat temporal i com canvia un benchmark quan es queda sense sostre.

Llegir més
ALMA i MIRI obtenen sa nota màxima possible a s'examen MIR 2026 amb un 100% d'encert
Feb 11, 202627 min de lectura

ALMA i MIRI obtenen sa nota màxima possible a s'examen MIR 2026 amb un 100% d'encert

Dos models d'IA medica desenvolupats a Espanya aconsegueixen resultats sense precedents. ALMA encerta ses 600 preguntes des tres darrers MIR sense un sol error — un 100% absolut que cap altre model ha aconseguit. MIRI assoleix un 99,3% amb un cost 13 vegades inferior i responent molt mes rapid. No son models generalistes: son arquitectures RAG Agentiques amb experts especialitzats, construides per BinPar i Editorial Medica Panamericana, que demostren que es futur de sa IA medica no esta en models mes grans, sino en models mes intel·ligents.

Llegir més
Sa Catedral i es Bazar: Open Source vs Propietari en es MIR 2026
Feb 9, 202618 min de lectura

Sa Catedral i es Bazar: Open Source vs Propietari en es MIR 2026

Ses 33 primeres posicions des rànquing MIR 2026 són totes models propietaris. Es millor model obert queda en sa posició 34. Analitzam es gap entre models oberts i tancats, sa taxonomia real de s'open source en IA — on molts models que es proclamen oberts són catedrals amb ses portes entreobertes — i per què RAG supera es fine-tuning per personalitzar IA mèdica sense perdre es control de ses teves dades.

Llegir més
Es Ganivet Suís i es Bisturí: Per Què ets Millors Models de Codi Fracassen en es MIR
Feb 6, 202616 min de lectura

Es Ganivet Suís i es Bisturí: Per Què ets Millors Models de Codi Fracassen en es MIR

Claude Opus 4.6 i GPT-5.2-Codex son ets models d'IA mes avancats per programar, capacos de coordinar equips d'agents i construir-se parcialment a si mateixos. Pero en es MIR 2026, un model Flash de 0,34 EUR ets humilia. Es ganivet suís de sa programacio no pot competir amb es bisturí dissenyat per tallar. Analisi de sa paradoxa agentica amb dades de 290 models que demostra per que s'especialitzacio supera sa potencia bruta en s'ambit medic.

Llegir més
199 de 200: S'IA Només Falla Una en es MIR 2026
Feb 5, 202619 min de lectura

199 de 200: S'IA Només Falla Una en es MIR 2026

Resultats definitius des major benchmark d'IA mèdica en espanyol. Tres models empaten amb 199 encerts sobre 200 preguntes vàlides — un 99,5% de precisió que cap ésser humà ha aconseguit mai en sa història des MIR. Un model 'Flash' lidera per tercer any consecutiu, demostrant que més car no significa millor. Anàlisi exhaustiva de 290 models avaluats amb dades de cost, velocitat, tokens i precisió que revela ses tendències que estan transformant sa intel·ligència artificial mèdica.

Llegir més