Suitzako Labana eta Bisturria: Zergatik Huts Egiten duten Kode Eredu Onenek MIRen

2026ko otsailaren 5ean, adimen artifizialak hamarkadan behin bakarrik gertatzen den egun bat bizi izan zuen. Goizeko 10:00etan (Pazifikoko ordua), Anthropic-ek bere blogean argitalpen bat kaleratu zuen zientzia fikziotik ateratako itxura zuen titularrarekin: "Claude Opus 4.6: IA agente taldeak koordinatzen dituen eredua, eredu indibidual batek ere ebatzi ezingo lituzkeen arazoak konpontzeko".^[1] Berrogei minutu geroago, OpenAI-k kontraerasoa egin zuen: "GPT-5.3-Codex aurkezten dugu, partzialki bere burua eraiki zuen lehen eredua".^[2]

Prentsa teknologikoaren titularrak aurreikusgarriak izan ziren: "IA agenteen gerra", "10 ingeniariko talde bat bezala programatzen duen eredua", "Singularitateak dagoeneko izena du". Terminal-Bench 2.0-n — programazio agentikorako erreferentziazko benchmark-ean — Claude Opus 4.6-k errekord absolutua ezarri zuen %65,4arekin, bere aurrekariaren, Opus 4.5-en, aurreko maximoa (%57,2) txikituz.^[3] SWE-Bench Pro-n, GPT-5.3-Codex-ek ere maximo berria markatu zuen.^[4]

Baina hemen, Medical Benchmark-en, datuek oso istorio ezberdina kontatzen dute.

Mundua historiako kode eredu aurreratuenen etorrera ospatzen zuen bitartean, guk jadanik MIR 2026an ebaluatutako 290 ereduren emaitzak genituen. Eta epaia deserosoa da: kodearen eredu agentiko onenak ertainak dira medikuntzan. 34 zentimoko "Flash" eredu batek denak zapaltzen ditu.

Eta GPT-5.3-Codex-i dagokionez, OpenAI-ren kaleratze distiratsuari: ezin izan dugu ebaluatu. ChatGPT-ren bidez soilik dago eskuragarri (aplikazioa, CLI eta IDE luzapenak). Ez du API publikorik.^[5] MedBench-en ereduak OpenRouter API bidez ebaluatzen ditugu, beraz GPT-5.3-Codex, oraingoz, gure sailkapeneko absente handia da.

1. Kodearen Gladiadoreak

Datuak erakutsi aurretik, komeni da eredu hauek zer diren eta zergatik garrantzitsuak diren ulertzea. Istorio honen hiru protagonistek ezaugarri bat partekatzen dute: kode agente izateko diseinatuak daude — galderak erantzuten ez ezik, programazio zeregin konplexuak modu autonomoan gauzatzen dituzten IA sistemak, tresnak koordinatuz, fitxategiak irakurriz, testak exekutatuz eta akatsak arakatuz.

Claude Opus 4.6 (Anthropic)

Anthropic-en itsasontzi nagusia. 2026ko otsailaren 5ean kaleratua. Milioi bateko token testuinguru-leihoa. Agente espezializatuen taldeak ("agent teams") koordinatzeko gaitasuna. Errekorra Terminal-Bench 2.0-n %65,4arekin. Arrazonamendu moldagarrirako diseinatua — erantzun aurretik zenbat "pentsatu" erabaki dezake.^[1]

Claude Opus 4.5 (Anthropic)

Aurreko itsasontzi nagusia. Hilabeteetan zehar merkatuko kode eredu aurreratuena izan zen. %57,2 Terminal-Bench-en. Oraindik ere aparteki gai da, baina Opus 4.6-k programazio metrika guztietan gainditzen du.

GPT-5.2-Codex (OpenAI)

2025eko abenduan kaleratua OpenAI-ren "kodearen eredu agentiko aurreratuena" gisa. Testuinguru luzeentzat, tool calling fidagarrirako eta urrats anitzeko zereginegatik optimizatua. Top 3 SWE-Bench Verified-en.^[6]

GPT-5.3-Codex (OpenAI) — Absente Handia

Opus 4.6-ren egun berean kaleratua. OpenAI-ren arabera, bere beraren bertsio goiztiarrak arazketarako eta ebaluaziorako erabili ziren entrenamenduan lehen eredua da. Errekordak SWE-Bench Pro-n eta beste kode benchmark batzuetan. Baina ChatGPT bidez soilik dago eskuragarri — ez du API endpoint publikorik, MedBench-en ebaluatzea ezinezkoa eginez.^[5]

Eredu hauek guztiek amankomunean dutena: urrats anitzeko zereginegatik, tresnen erabilerarako eta agenteen koordinaziorako optimizatuta daude. Suitzako labana digitalak dira: moztu, torlojuak estutu, latak ireki eta limatu dezakete. Galdera da: operatu ere egin al dezakete?

2. MIRaren Epaia

Agentikoa / Kodea

Orokorra

Arrazonamendua

Eredu agentiko/kode eta orokorren konparaketa MIR 2026an. Eredu agentikoak (laranja) orokorrak (urdina) baino txarrago aritzen dira, garestiagoak izan arren.

Zenbakiek ez dute interpretaziorik behar. Bakarrik hitz egiten dute:

Eredua	Mota	Posizioa	Asmatuak	Kostua
Gemini 3 Flash	Orokorra	#1	199/200	0,34 €
o3	Arrazonamendua	#2	199/200	1,94 €
GPT-5	Arrazonamendua	#3	199/200	2,05 €
GPT-5.1 Chat	Orokorra	#4	198/200	0,65 €
Claude Opus 4.5	Agentikoa	#13	197/200	4,62 €
Claude Opus 4.6	Agentikoa	#15	197/200	4,89 €
GPT-5.2-Codex	Agentikoa	#26	195/200	1,67 €

Datu suntsitzailea: Claude Opus 4.6-k Gemini Flash baino 14 aldiz gehiago kostatzen da eta 2 galdera gutxiago asmatzen ditu. GPT-5.2-Codex-ek 4 gutxiago asmatzen ditu 5 aldiz gutxiago kostatzen den eredu baten aldean. Opus 4.6 (#15) eta Flash (#1) artean 14 tarteko eredu daude, gehienak kodearen optimizazio berezirik gabeko eredu orokorrak.

3. Programatzea Ez Da Diagnostikatzea

Kode benchmarketan (Terminal-Bench/SWE-Bench) vs. MIR 2026 rankingeko posizioa. Alderantzizketa argia da: kodean onenak (laranja barra laburra) medikuntzan erdipurdikoak dira (barra urdin luzea) eta alderantziz.

Aurreko grafikoak ia alderantziketa perfektua agerian uzten du: programazio benchmark-etan nagusitzen diren ereduak MIRen baztertuta geratzen dira, eta alderantziz.

Claude Opus 4.6: #1 Terminal-Bench-en → #15 MIRen
GPT-5.2-Codex: Top 3 SWE-Bench-en → #26 MIRen
Gemini 3 Flash: Ez du kode benchmark-etan lehiatzen → #1 MIRen
GPT-5.1 Chat: OpenAI-ren eredu "oinarrizkoa" → #4 MIRen

Zergatik gertatzen da alderantziketa hau? Erantzuna MIRaren izaeran dago. Azterketa medikoa funtsean ezagutza faktualeko eta patroi klinikoen ezagutzako testa da. Bere 200 galderetako gehienek ereduak koadro kliniko bat identifikatzea, protokolo bat gogoratzea edo elkarte diagnostiko bat ezagutzea eskatzen dute. Ez du tresnak koordinatzea, kodea idaztea edo urrats anitzeko zereginak gauzatzea eskatzen.

Programazio agentikorako optimizatutako eredu batek bere entrenamenduaren zati esanguratsu bat terminalak erabiltzen, kodea arakatzen eta agenteak koordinatzen ikasteko erabili du. Entrenamendu horrek ez du laguntzen — eta potentzialki kalte egiten du — zeregina besterik gabe "zein da komunitate-pneumoniaren lehen aukerako tratamendua?" erantzutea denean.

4. Opus 4.6-ren Kasua: Atzo Jaio Zen, Gaur Dagoeneko Diagnostikoa Du

Erantzun zuzenak

MIR Rankinga (txikiagoa = hobea)

Claude Opus-en bilakaera MIR 2026an. Opus 4.6-k kodean hobetzen du (Terminal-Bench) baina ez du Opus 4.5 gainditzen medikuntzan: zehaztasun bera, kostu handiagoa eta ranking txarragoa.

Claude Opus familiaren bilakaera MIR 2026an bereziki adierazgarria da:

Eredua	MIR Sailkapena	Zuzenak	Kostua	Denbora/galdera	Terminal-Bench
Opus 4	#44	192/200	10,46 €	28s	42%
Opus 4.1	#20	196/200	11,10 €	30s	52%
Opus 4.5	#13	197/200	4,62 €	13,4s	57%
Opus 4.6	#15	197/200	4,89 €	14,1s	65%

Opus-en bertsio berri bakoitza objektiboki hobea da programazioan: Opus 4 → 4.1 → 4.5 → 4.6-k progresio konstante bat erakusten du Terminal-Bench-en (42% → 52% → 57% → 65%). Baina medikuntzan, Opus 4.6-k ez du 4.5 hobetzen soilik, baizik eta sailkapenean atzeratuta geratzen da (#15 posizioa vs. #13).

Nola da hori posible? Opus 4.6-k Opus 4.5-en 197 galdera berberak asmatzen ditu, baina azterketa bakoitzeko 0,27 € gehiago kostatzen da (4,89 € vs. 4,62 €). MedBench-en, zehaztasunean berdinketa dagoenean, eredu merkeagoak irabazten du — eta Opus 4.6-k berdinketa hori galtzen du.

Paradoxa argia da: Opus 4.6-ren optimizazio agentiko handiagoak ez du onurarik ekartzen aukera anitzeko azterketa mediko batean. Bere milioi bateko token testuinguru-leihoak, agent teams koordinatzeko gaitasunak, bere arrazonamendu moldagarriak — ezer honetaz ez da baliagarria zeregina kardiologiako galdera batean A, B, C edo D artean aukeratzea denean. Tiritatxo bat jartzeko talde kirurgiko oso bat eramatea bezala da.

5. GPT-5.2-Codex-en Erorketa: Azpitxapeldun Izatetik 26. Postura

OpenAI-ren hiru Codex ereduen bilakaera MIR-ean (2024–2026). Barrek asmatutakoak erakusten dituzte; etiketek, rankinga. GPT-5.2-Codex (agentikoena) bere anaia txikiak baino txarrago aritzen da MIR 2026an.

GPT-5.2-Codex-en historia MIReko hiru deialditan zehar hiru ekitaldiko drama bat da:

Deialdia	Posizioa	Asmatuak	Zehaztasuna
MIR 2024	#9	194/200	97,0%
MIR 2025	#2	192/200	96,0%
MIR 2026	#26	195/200	97,5%

Irakur ezazu berriro: MIR 2026an, GPT-5.2-Codex-ek inoiz baino galdera gehiago asmatu zituen (195 vs. 194 2024an) eta hala ere 24 posizio erori zen 2025ekoarekin alderatuz. Nola da posible gehiago asmatuz erortzea?

Gainontzekoek askoz gehiago hobetu zutelako. 2025ean, 192 asmatuek podiuman jartzen zintuzten. 2026an, 50 ereduk %95eko zehaztasuna gaindituz, 195 asmatuek taldean uzten zaituzte.

Eta hona hemen patroi adierazgarriena: Codex ereduen bertsio "gutxiago agentikoak" hobeto dabiltza MIRen.

GPT-5 Codex (gutxiago agentikoa): #5, 198/200
GPT-5.1-Codex-Max: #6, 198/200
GPT-5.2-Codex (agentikoagoa): #26, 195/200

Codex eredu bat kodearen gaitasun agentikoetarako zenbat eta gehiago optimizatu, okerrago dabil ezagutza medikoan. Patroia koherentea eta kezkagarria da.

6. GPT-5.3-Codex: Absente Handia

Claude Opus 4.6-rekin batera otsailaren 5ean bertan kaleratua, GPT-5.3-Codex da, OpenAI-ren arabera, inoiz programaziorako sortu den eredurik aurreratuena. Bere kredentzialak ikusgarriak dira: errekord berriak SWE-Bench Pro-n, auto-arazketarako gaitasuna, eta "partzialki bere burua eraiki zuen lehen eredua" izateko distintzio bitxia.^[2]

Hala ere, GPT-5.3-Codex ez da gure sailkapenean agertzen. Arrazoia sinplea da: OpenAI-k ChatGPT bidez soilik kaleratu du — mahaigaineko aplikazioa, CLI eta IDE luzapenak. Ez du API endpoint publikorik.^[5]

MedBench-en, eredu guztiak OpenRouter API bidez ebaluatzen dira baldintza kontrolatu eta berdinetan: prompt bera, tenperatura bera, erantzun formatu bera. Eredu bat txat interfaze baten bidez ebaluatzeak aldagai kontrolaezinak sartuko lituzke (sistema prompt-a, formatua, interfazearen mugak) konparazioa baliogabetuko luketeenak.

GPT-5.3-Codex-ek API eskuragarria duenean — OpenAI-k esan du "soon" — berehala ebaluatuko dugu. Baina oraingoz, gelako elefantea da: ziurrenik munduko eredu agentiko boteretsuena, eta ezin dugu neurtu.

Airean geratzen den galdera: GPT-5 Codex-ek berak (eredu ez hain aurreratua) MIRen #5 soilik lortzen badu, GPT-5.3-Codex benetan gai izango al litzateke Gemini Flash gainditzeko? Datuek iradokitzen dute ezetz — baina neurtu gabe, espekulazio gisa geratzen da.

7. Zergatik Gertatzen Da Hau? Trade-Off-aren Zientzia

Agentikoa / Kodea

Flash / Arina

Orokorra

Arrazonamendua

Pro / Frontier

MIR 2026ko top 40 ereduak: azterketa-kostu osoa vs. zehaztasuna. Eredu agentikoak (laranja, ertzarekin) ez dira iristen goiko-ezkerreko eremura (merkea eta zehatza), Flash eta orokorrek menperatua. MedBench-eko benetako datuak.

Sakabanatze-grafikoak bisualki berresten du banakako datuek iradokitzen zutena: korrelazio negatiboa dago gaitasun agentikoaren eta zehaztasun medikoaren artean. Kodearen arloan optimizatuago dauden ereduek (eskuineko eremua) MIRen okerrago jotzen dute (beheko eremua).

Zergatik? Lau hipotesi osagarri daude hau azaltzen dutenak:

7.1. Espezializazioaren Trade-Off-a

LLM baten entrenamendua ia batura-zero joko bat da. Tool calling-a, kodearen exekuzioa eta agenteen koordinazioa hobetzera bideratutako RLHF eta fine-tuning zikloek ez dute ezagutza mediko faktuala finkatzera bideratzen.

Analogia zuzena da: eskuko mikrokirurgian espezializatzeko urteak ematen dituen kirurgiak ez da horrengatik neurokirurgiak hobea bihurtzen. Izan ere, gaitasun orokorrak gal ditzake erabilerarik ezagatik. Eredu agentikoak baliokide digitalak dira: beren espezialitatean (kodea) aparteki onak, baina ez nahitaez hobeak — eta batzuetan okerragoak — espezialitatetik kanpo.

7.2. Overthinking-aren Madarikazioa

"Overthinking"-ari buruzko ikerketa berriek arrazonamendu kateetan (chain-of-thought) iradokitzen dute gehiago pentsatzea ez dela beti hobeto pentsatzea.^[7] Eredu agentikoak urrats askotako arrazonamendurako optimizatuta daude, arazo konplexuak deskonposatzeko eta soluzioen gainean iteratzeko. Baina aukera anitzeko galdera zuzenetan, gaitasun hau kontraproduktibea izan daiteke.

Datu adierazgarri bat: Claude Opus 4.6-k 0 arrazonamendu tokenekin 197/200 asmatzen ditu. o3 Deep Research-ek 1,7 milioi arrazonamendu tokenekin 198/200 asmatzen ditu. Galdera bat gehiago 500 aldiz token gehiagogatik. "Pentsamendu sakonaren" etekin marjinala aukera anitzeko galdera medikoetan ia nulua da.

7.3. Tresnetarako Optimizazioak Ezagutza Kutsatzen Du

Tool calling-erako entrenamendua (tresnak, APIak, terminalak erabiltzea) ereduaren probabilitate-banaketa modu sotil baina esanguratsuan aldatzen du. Codex eredu bat intentsiboki kodea sortzeko entrenatu da, ez farmakologia gogoratzeko. Ereduaren barne-errepresentazioak sintaxi patroiak, APIak eta exekuzio-fluxuak lehenesteko berrantolatzen dira — patroi kliniko, protokolo terapeutiko eta elkarte diagnostikoen kostu potentzialarekin.

MIRek ez du tresnarik behar. Ez dago irakurtzeko fitxategirik, exekutatzeko testik ez eta koordinatzeko agenterik. Memoria eta patroi-ezagutza soilik eskatzen du — hain zuzen ere entrenamendu agentikoak higatu ditzakeen gaitasunak.

7.4. "Suitzako Labana" Efektua

Suitzako labana kanpinean tresna apartekoa da. Ogia moztu, latak ireki, kortxoak atera eta torlojuak estutu ditzake. Baina inork ez luke paziente bat harekin operatuko. Operatzeko, bisturri bat behar duzu: tresna sinple, espezializatu eta bere funtzio bakarrean aparteki zehatza dena.

Eredu agentikoak suitzako labana digitalak dira: gauza asko ongi egin ditzakete, baina sakontasuna zabaltasunagatik sakrifikatzen dute. Galdera gehiegi pentsatu gabe erantzuten duen Flash eredu bat — bisturri bat — agente taldeak koordinatzeko diseinatutako eredu bat baino eraginkorragoa da aukera anitzeko azterketa batean.

Parámetro	Tendencia MIR 2026	Implicación
Espezializazioaren Trade-Off-a	Fuerte	Koderako RLHF-ak ezagutza medikoa desplazatzen du. Agentibitate gehiago → zehaztasun faktual gutxiago.
Overthinking-aren Madarikazioa	Moderada	Urrats anitzeko arrazonamendua MCQ zuzenetan kontraproduktibea. 1,7M token → +1 asmatu vs. 0 token.
Tool Calling-aren Kutsadura	Probable	Kodea sortzeko entrenamendua barne-errepresentazioak berrantolatzen ditu, patroi klinikoak higatuz.
Suitzako Labana Efektua	Claro	Gaitasunen zabaltasunak sakontasuna sakrifikatzen du domeinu espezifikoetan. Flash > Opus MCQ medikoetan.

Trade-off agentikoari buruzko lau hipotesien laburpena. Ebidentziak osagarriak direla adierazten du, ez elkarren baztertzaileak.

8. Konplexutasunaren Prezioa

Agentikoa / Kodea

Orokorra

Arrazonamendua

Erantzun zuzen bakoitzeko kostua MIR 2026an. o1-pro-k 641x gehiago kostatzen du erantzun zuzen bakoitzeko Gemini Flash-ekin alderatuta, zehaztasun txikiagoarekin.

Eredu agentikoak medikuntzan zehatzagoak ez badira, gutxienez eraginkorrak al dira? Datuek ezetz diote. Erantzun zuzen bakoitzeko kostuak xahuketaren tamaina agerian uzten du:

Eredua	Kostua/zuzena	vs. Flash	Zuzenak
Gemini 3 Flash	0,0017 €	1x	199/200
GPT-5.1 Chat	0,0033 €	1,9x	198/200
GPT-5.2-Codex	0,0086 €	5x	195/200
Claude Opus 4.6	0,0248 €	14,6x	197/200
o1	0,112 €	65,9x	198/200
o3 Deep Research	0,883 €	519x	198/200
o1-pro	1,09 €	641x	197/200

Galdera ezinbestekoa da: aurrekontu mugatuko osasun sistema batean, 14 aldiz gehiago ordainduko zenuke 2 erantzun gutxiagogatik? Edo 641 aldiz gehiago zehaztasun berberagatik?

IA diagnostiko-laguntzarako tresna gisa inplementatu nahi lukeen ospitale batentzat, zenbaki hauek erabakigarriak dira. Helburua inbertitutako euro bakoitzeko zehaztasuna maximizatzea bada, Gemini Flash da aukera optimoa tarte zentzugabe batekin. Eredu agentikoek erabilera legitimoak dituzte ingurune mediko konplexuetan (historial klinikoen integrazioa, urrats anitzeko diagnostiko diferentziala), baina pattern matching moduko kontsulta azkarretarako, arazo merke batentzako irtenbide garestia dira.

9. Honek Zer Esan Nahi Du IA Medikoarentzat

Datu hauen ikasgai nagusia engainagarriki sinplea da: ez duzu IAko eredu "onena" behar medikuntzan. Egokiena behar duzu.

Claude Opus 4.6 eta GPT-5.2-Codex bezalako sistema agentikoek beren leku legitimoa dute. 500 orrialdeko historial kliniko bat berrikusi, laborategiko emaitzak sintomekin korrelazionatu, interakzio farmakologikoen datu-baseak kontsultatu eta txosten egituratua sortzen duen sistema bat behar baduzu — eredu agentikoa da zehazki behar duzuna. Hori da bere kirurgia-gela.

Baina paziente batek bularreko min prekordial, ST gorakada eta troponina altuak dituela azkar erantzun behar baduzu, infartua duen jakiteko — hor bisturri bat behar duzu, ez suitzako labana bat. Eta Gemini Flash-ek, 4 segundotan zuzeneko erantzunarekin 0,17 zentimogatik, bisturri aparteki zorrotza da.

Ereduak aplikazioaren domeinu espezifikoan ebaluatzearen garrantzia ezin da gutxietsi. Programazioko #1 eredua medikuntzan ere #1 izango dela suposatzea akats bat da, eta MedBench-en datuak mahai gainean ditugula, akats horrek jada ez du aitzakiarik. Domeinu bakoitzak bere arauak eta bere txapeldunak ditu.

10. Ondorioak: Tresna Bakoitza Bere Zereginerako

Suitzako labana — Claude Opus 4.6, GPT-5.2-Codex — tresna apartekoa da. Ingeniari talde bat bezala programatu, agenteak koordinatu, kodea arakatu eta lan-fluxu konplexuak automatizatu ditzake. Bere eremuan, ez du lehiarik.

Bisturria — Gemini 3 Flash — gauza bakarra egiten du: galderak zehaztasun suntsitzailearekin erantzutea, zorabio abiaduran, kostu barregarri bategatik. MIR 2026an, non zeregina hori bera den, ez du gehiago behar.

Eredu agentikoek programazioa, automatizazioa eta ziurrenik dozenaka industria iraultuko dituzte. Baina medikuntzan bere arauak ditu. Eta Espainiako azterketa mediko garrantzitsuenean, 34 zentimoko eredu batek berriro frogatu du garestiagoa, handiagoa eta konplexuagoa ez dela beti hobea esan nahi.

Norbaitek munduko IA eredurik onenak arazo guztiak ebatziko dituela esaten dizunean, gogoratu: arazoaren araberakoa da. Kirurgiak ez du suitzako labana bat behar. Bisturria behar du.

Arakatu MIR 2026ko sailkapen osoak eta konparatu ebaluatutako 290 ereduak MedBench Rankings atalean.

Notas y Referencias

Anthropic Blog: Introducing Claude Opus 4.6. 2026ko otsailaren 5a.
OpenAI Blog: GPT-5.3-Codex: The Most Advanced Coding Agent. 2026ko otsailaren 5a.
Terminal-Bench 2.0 Leaderboard. Claude Opus 4.6-k %65,4 lortu zuen, Opus 4.5-en aurreko errekorra (%57,2) gaindituz. terminal-bench.com.
SWE-Bench Pro Leaderboard. GPT-5.3-Codex-ek maximo berria ezartzen du GitHub-eko benetako issue-en ebazpen autonomoan.
GPT-5.3-Codex ChatGPT bidez soilik dago eskuragarri (aplikazioa, CLI eta IDE luzapenak). OpenAI-k adierazi du API sarbidea 'laster' eskuragarri egongo dela. APIrik gabe, ezin da MedBench-en baldintza kontrolatuetan ebaluatu.
OpenAI: GPT-5.2-Codex. 2025eko abenduan kaleratua.
Chain-of-thought arrazonamendu ereduetako 'overthinking'-ari buruzko ikerketak errendimendu beherakorra erakusten dute erantzun zuzeneko zereginetan pentsamendu-kate luzeegiekin. Ikusi ere: MedBench: 199/200 arrazonamendu tokenen vs. zehaztasunaren analisirako.
MIR 2026ko emaitza osoak 290 eredurekin MedBench Rankings atalean daude eskuragarri. Metodologia zehatza gure metodologia atalean.