Dues Setmanes Després: 22 Models Nous i Triple 200/200 al MIR 2026

El 5 de febrer de 2026 vam publicar "199 de 200: La IA Només Falla Una al MIR 2026". En aquell moment, 199/200 semblava un sostre raonable: ja era millor que qualsevol humà històric, i l'examen (200 preguntes vàlides) no deixa gaire marge.

Quinze dies després, aquest sostre ja no existeix.

Entre el 5 de febrer de 2026 i el 20 de febrer de 2026 vam incorporar 22 models nous al benchmark, i els 22 ja estan avaluats al MIR 2026 i al rànquing global acumulat.

La foto canvia per dos motius:

El rendiment arriba a 200/200 (nota perfecta).
Quan hi ha nota perfecta, el problema deixa de ser "qui encerta més" i passa a ser "com compares els que empaten".

1. La Quinzena en Una Imatge

Custom (ALMA/MIRI)

Frontier

Especialitzat

Cua llarga

Models afegits després des 5 de febrer de 2026. Etiqueta dreta: posició en MIR 2026.

Aquesta gràfica és el millor resum: una quinzena amb 22 incorporacions pot semblar una nota de release, però en un benchmark "amb sostre" (200 preguntes) és una altra cosa: és una empenta que canvia el significat del rànquing.

El rellevant no és només que hi hagi "més models", sinó que diversos entren directament a la zona alta. En concret:

El Top 3 del MIR 2026 queda en triple 200/200: ALMA, MIRI i Gemini 3.1 Pro Preview.
5 dels 22 models nous entren al Top 20 de l'any.
En open-weights, apareix un candidat que canvia jerarquia: Qwen3.5 397B A17B.

Aquest post és el relat d'aquesta quinzena: què hem vist, què hem après i, sobretot, per què el rànquing canvia de naturalesa quan es queda sense marge.

2. L'Empat Perfecte i el Nou Desempat Temporal

Avui, la part alta del MIR 2026 queda així:

ALMA — 200/200
MIRI — 200/200
Gemini 3.1 Pro Preview — 200/200

La diferència és el desempat. Quan diversos models fan 200/200, s'ordenen per antiguitat d'assoliment (timestamp de sincronització): primer el que hi arriba abans, després els que ho aconsegueixen més tard.

Això evita un biaix obvi: un model llançat setmanes després té avantatge tecnològic sobre un d'avaluat abans. Si no penalitzes aquest retard temporal, el rànquing premia "arribar tard".

En aquesta actualització, aquest ordre temporal deixa Gemini 3.1 Pro Preview per darrere d'ALMA i MIRI, tot i que també arriba al 100%.

No aprofundirem en ALMA/MIRI en aquest post perquè tenen el seu anàlisi específic a "ALMA i MIRI: RAG Agèntic", però era important deixar-los aquí en context com a referència real del sostre actual.

3. Gemini: El Salt de 3.1 Pro i la Paradoxa Flash vs Pro

MIR 2024

MIR 2025

MIR 2026

Stack de 3 anys per comparar es rànquing global acumulat entre Gemini 3 Flash, Gemini 3 Pro i Gemini 3.1 Pro.

Si mirem primer el rànquing global acumulat (suma de MIR 2024, 2025 i 2026), la comparació entre els tres Gemini queda així:

Gemini 3 Flash: #3 global, 586,667 netes.
Gemini 3.1 Pro: #4 global, 584 netes.
Gemini 3 Pro: #9 global, 580 netes.

La lectura és més interessant del que sembla. En "global acumulat" no estàs premiant una foto, sinó una trajectòria: consistència al llarg de tres exàmens. I aquí, per ara, Flash segueix per davant.

Ara bé: al MIR 2026, la dada central d'aquesta quinzena és que Gemini 3.1 Pro Preview entra amb 200/200. És a dir: arriba un model nou que, per definició, ja no pot "pujar" més en aquest examen.

Gemini 3 Flash Preview: 199/200, cost 0,341766 €.
Gemini 3 Pro Preview: 198/200, cost 5,746186 €.
Gemini 3.1 Pro Preview: 200/200, cost 4,326056 €.

Paradoxa operativa: en es MIR 2026, Flash manté millor relació encert/cost que Pro, i MedGemma queda lluny tot i ser vertical de salut.

Aquí hi ha dues històries alhora:

La història del sostre: 3.1 Pro arriba a 200/200. Quan arribes al màxim, el rànquing deixa de tenir resolució per distingir "millores petites". Per això el desempat temporal esdevé necessari.
La història de l'eficiència: Flash torna a guanyar el duel Flash vs Pro en aquest benchmark, amb una fracció del cost. I no és un accident: Gemini 3 Flash es va llançar explícitament com un model pensat per empènyer el "front eficient" (qualitat per latència/cost), no com una versió "menor" que es resigna a perdre.^[1]

I una capa addicional: Google presenta 3.1 Pro com un salt centrat en raonament i tasques més llargues (inclòs coding/agentic). Part d'aquesta aposta, de fet, ja ha arribat com a preview a tooling de desenvolupament com GitHub Copilot.^[2]

A més, el salt temporal és curt: en registres públics de Google, Gemini 3 Pro Preview figura al novembre de 2025 i Gemini 3.1 Pro s'anuncia el 19 de febrer de 2026.^[9]

4. Qwen3.5 397B A17B: El Canvi de Jerarquia en Open-Data

Qwen

5. MedGemma: El Cas que Obliga a Ser Honestos

Hi ha una temptació recurrent en IA mèdica: pensar que "vertical" equival a "millor". Per això, el model que més interès despertava per narrativa era MedGemma.

Resultats actuals:

No és un mal resultat absolut: 172/200 continua sent una nota respectable. Però sí que és clarament baix pel que suggereix el nom en un benchmark MIR.

I aquí hi ha la lliçó incòmoda: especialització declarada no és especialització mesurada. Un model pot estar entrenat per dominis biomèdics i, tot i així, rendir pitjor en un examen tipus MIR, perquè el MIR no és "només medicina". És medicina en castellà, en format MCQ, amb trampes d'estil examen i amb una distribució de temes molt concreta.

Context extern: MedGemma es va presentar com una família de models orientats a salut, construïda sobre Gemma i entrenada/avaluada en tasques mèdiques específiques (text i, segons variants, multimodal). Aquesta proposta estratègica és rellevant: "obrir" un model mèdic utilitzable localment és un pas important per a recerca i per a desplegaments sensibles.^[5]

Però el benchmark fa de jutge implacable: en aquesta primera foto competitiva del MIR, MedGemma queda lluny del front SOTA.

6. Claude Opus 4.6: Millora Global, Estancament al MIR 2026

Comparativa de nota global de sa família Opus: 4.6 millora lleugerament 4.5 i amplia distància davant 4.1.

Si has seguit la conversa pública d'aquestes setmanes, és fàcil pensar que "els models de codi" són el nou SOTA universal. El problema és que el MIR no premia el mateix que SWE-bench.

La incorporació de Claude Opus 4.6 deixa una conclusió matisada:

En rànquing global, la nota puja lleugerament: Opus 4.1 (556,333 netes) → Opus 4.5 (568 netes) → Opus 4.6 (570,667 netes).
En posició global, Opus 4.6 puja al #27, davant #33 (4.5) i #57 (4.1).
Al MIR 2026, Opus 4.6 queda #20 (197/200), empatat en encerts amb Opus 4.5.
En cost MIR 2026, Opus 4.6 queda lleugerament per sobre de 4.5 (4,888935 € vs 4,620485 €).

Això encaixa amb el que veiem al mercat: Opus 4.6 està posicionat per tasques complexes de codi i agentivitat, no per exàmens mèdics tipus MCQ.^[6] Si vols l'argument complet, el desenvolupem amb calma a "El Ganivet Suís i el Bisturí".

I aquí entra el punt crític: continua faltant GPT-5.3-Codex al benchmark perquè no està disponible per API pública en condicions comparables. OpenAI el presenta com la seva punta de llança en coding, però la pròpia comunicació del llançament situa l'accés en productes i deixa l'accés API com a "pendent".^[7] Al changelog públic de l'API, el model disponible és gpt-5.2-codex, no 5.3.^[8]

La crítica és simple: si no hi ha accés API comparable, no hi ha comparació justa. I sense comparació justa, no hi ha evidència, només màrqueting.

7. El Que Hem Après en Només Dues Setmanes

Si hagués de resumir aquesta quinzena per a perfils diferents (clínic, tècnic, producte), em quedaria amb sis aprenentatges:

El benchmark ja no està en fase d'increments petits; està en fase de salts de frontera setmana a setmana.
Quan arribes al 100%, el rànquing necessita regles noves: el desempat temporal deixa de ser opcional.
La paradoxa eficiència vs mida (Flash vs Pro) no desapareix; conviu amb el salt de 3.1 Pro.
Qwen3.5 entra on pocs open-weights havien entrat abans: top 15 global de veritat.
Un model sanitari no és "millor" per etiqueta: l'especialització s'ha de mesurar en l'entorn exacte.
El coll d'ampolla per avaluar la "guerra del codi" continua sent el mateix: accés API homogeni.

La conclusió de fons no canvia, però ara és més contundent: l'evolució del benchmark el 2026 està passant en setmanes, no en trimestres. I això obliga a tractar cada "actualització" com un mini canvi d'era.

Si la corba manté aquesta pendent, el següent tall pot tornar a moure el podi.

Notas y Referencias

Context oficial i extern sobre Gemini Flash com a estratègia d'eficiència (no només 'model petit'): Google Developers Blog (Gemini 3 Flash, 17 des 2025) developers.googleblog.com i cobertura tècnica de llançament techcrunch.com.
Gemini 3.1 Pro Preview (19 feb 2026) i la seva arribada a tooling de desenvolupament: 9to5Google 9to5google.com i changelog de GitHub Copilot github.blog.
Qwen3.5 397B A17B: model card oficial (arquitectura, capacitats i posicionament). huggingface.co/Qwen/Qwen3.5-397B-A17B.
Context de llançament de Qwen3.5 i enfocament agentic/open-weights: Economic Times (16 feb 2026) economictimes.indiatimes.com.
MedGemma: model card oficial (Google Developers) developers.google.com i fitxa a Hugging Face (exemple) huggingface.co/google/medgemma-27b-text-it.
Anthropic: anunci i documentació de Claude Opus 4.6 anthropic.com i pàgina de producte anthropic.com/claude/opus.
OpenAI: llançament de GPT-5.3-Codex i nota sobre disponibilitat/API (5 feb 2026) openai.com.
OpenAI API changelog (14 gen 2026): disponibilitat de gpt-5.2-codex a l'API i absència de referència a 5.3 al changelog públic. platform.openai.com.
Google Gemini API changelog (referència pública de catàleg/dates): ai.google.dev.