
A Catedral e o Bazar: Open Source vs Proprietário no MIR 2026
As 33 primeiras posições do ranking MIR 2026 são todas de modelos proprietários. Analisamos o gap entre modelos abertos e fechados, a taxonomia real do open source em IA, e porque é que RAG supera o fine-tuning para personalizar IA médica.
Em 1999, Eric S. Raymond publicou A Catedral e o Bazar, um ensaio que mudou a história do software.[1] A sua tese era simples: o modelo de desenvolvimento fechado (a catedral, onde um grupo seleto projeta em silêncio) não pode competir a longo prazo com o modelo aberto (o bazar, onde milhares de programadores colaboram em público). O Linux demonstrou que ele tinha razão. Apache, Firefox, Android, Kubernetes — o bazar venceu a guerra do software.
Vinte e seis anos depois, a inteligência artificial trava a mesma batalha. Mas os dados do MIR 2026 sugerem que, pelo menos hoje, a catedral leva uma vantagem demolidora. E que muitos modelos que se autoproclamam do "bazar" são, na realidade, catedrais com as portas entreabertas.
1. O Muro dos 33
O dado mais marcante do nosso benchmark com 290 modelos avaliados é este: as 33 primeiras posições do ranking MIR 2026 são todas de modelos proprietários. Nenhum aberto. Nenhum.
| Pos. | Modelo | Acertos | Precisão | Custo | Tipo |
|---|---|---|---|---|---|
| #1 | Gemini 3 Flash | 199/200 | 99,5% | 0,34 € | Proprietário |
| #2 | o3 | 199/200 | 99,5% | 1,94 € | Proprietário |
| #3 | GPT-5 | 199/200 | 99,5% | 2,05 € | Proprietário |
| #4 | GPT-5.1 Chat | 198/200 | 99,0% | 0,65 € | Proprietário |
| #5 | GPT-5 Codex | 198/200 | 99,0% | 0,89 € | Proprietário |
| ... | ... | ... | ... | ... | ... |
| #33 | o4 Mini High | 194/200 | 97,0% | 1,95 € | Proprietário |
| #34 | Llama 4 Maverick | 194/200 | 97,0% | 0,11 € | Open Weights |
O gap entre o melhor proprietário e o melhor open weights é de 5 perguntas e 2,5 pontos percentuais de precisão. Em pontuação líquida (com penalização MIR), a diferença é de 6,67 líquidas: 198,67 vs. 192,00.
Para um candidato ao MIR, essa diferença equivale a ~250 posições no ranking. Para um investigador, é a diferença entre um sistema que roça a perfeição e um que "simplesmente" é excelente.
2. O Mapa de Batalha
Top modelos do MIR 2026: as 33 primeiras posições são todas proprietárias (roxo). O primeiro open weights (verde) aparece no #34.
O gráfico é eloquente. A zona roxa (proprietários) domina as posições superiores sem fissuras. O verde (open weights) aparece a partir da posição 34 e adensa-se na zona 40-70. A linha vermelha marca a fronteira: o "muro dos 33".
Mas a história não é apenas preto e branco. Se olharmos para os números:
- Top 10: 0 open weights (0%)
- Top 20: 0 open weights (0%)
- Top 50: 6 open weights (12%)
- Top 100: 35 open weights (35%)
- Total: 175 open weights de 290 modelos (60%)
Os modelos abertos são maioria em volume mas minoria na elite. É como o atletismo: milhares de corredores amadores, mas os 33 que baixam de 2:03 na maratona são todos profissionais de alto rendimento com os maiores orçamentos de treino.
3. A Ilusão do Open Source: Taxonomia para Não Especialistas
Antes de prosseguir, precisamos de esclarecer um mal-entendido que contamina o debate: a maioria dos modelos "open source" não são open source. São open weights.
A diferença importa. Muito.
Em outubro de 2024, a Open Source Initiative (OSI) publicou a primeira definição oficial do que significa "open source" aplicado a modelos de IA.[2] Segundo esta definição, um modelo é open source se e apenas se publicar:
- Os pesos do modelo (descarregáveis e utilizáveis livremente)
- O código de treino (scripts, configuração, hiperparâmetros)
- Os dados de treino (ou uma descrição suficiente para os reproduzir)
- Documentação do processo completo
Proprietário
Código fechado, pesos fechados, dados de treino não divulgados. Acessível apenas via API paga.
Receita secreta: pode comer no restaurante, mas não sabe os ingredientes nem como é preparado.
Exemplos: GPT-5, Gemini 3, Claude Opus 4.6, Grok 4
Open Weights
Pesos disponíveis para download, mas dados e código de treino não publicados. Pode usar o modelo, não reproduzi-lo.
Recebe o prato pronto: pode reaquecer e servir, mas não sabe a receita exata.
Exemplos: Llama 4, DeepSeek R1, Qwen3, Mistral Large
Open Source (OSI)
Pesos, código, dados e processo de treino publicados. Cumpre a definição OSI v1.0. Totalmente reproduzível.
Receita completa publicada: ingredientes, quantidades, temperaturas e tempos. Qualquer um pode reproduzir.
Exemplos: OLMo 2 (AllenAI), Pythia (EleutherAI), BLOOM
Taxonomia de modelos de IA por abertura. Baseada na definição OSI v1.0 (Open Source Initiative, outubro 2024).
A analogia da receita de cozinha explica-o bem:
- Proprietário = pode comer no restaurante, mas a receita é secreta. Não pode replicar o prato em casa.
- Open weights = dão-lhe o prato preparado. Pode reaquecê-lo, servi-lo, até adicionar especiarias. Mas não conhece os ingredientes exatos, as quantidades nem os tempos de cozedura.
- Open source OSI = dão-lhe a receita completa, com ingredientes, quantidades, temperaturas e tempos. Qualquer pessoa pode reproduzir o prato de forma idêntica.
Quantos modelos do top 100 do nosso benchmark cumprem a definição OSI completa? Menos de 5. Os OLMo da AllenAI, alguns modelos da EleutherAI... e pouco mais. Llama 4, DeepSeek R1, Qwen3, Mistral — todos são open weights, não open source. São catedrais que abriram as portas para que se veja a nave, mas a planta do arquiteto continua fechada a sete chaves.
Isto não lhes retira mérito. Os open weights são extraordinariamente úteis: permitem execução local, inspeção de pesos, fine-tuning e implementação sem dependência de APIs. Mas chamá-los "open source" é tecnicamente incorreto e gera expectativas falsas sobre reprodutibilidade.
4. Os Campeões do Bazar
Dito isto, os modelos open weights do MIR 2026 são impressionantes. Passemos em revista as principais famílias:
Meta: Llama 4 Maverick (#34)
O campeão indiscutível do mundo aberto. 194 acertos (97% de precisão) por 0,11 € o exame completo. É o modelo com a melhor relação qualidade-preço de todo o ranking — aberto ou fechado. Para alcançar o seu nível de precisão no mundo proprietário, o mais barato é Grok 4.1 Fast a 0,15 €: 36% mais caro.
Llama 4 Maverick utiliza uma arquitetura Mixture of Experts (MoE) com 400B de parâmetros totais mas apenas 17B ativos por token. É um gigante eficiente. O seu irmão mais pequeno, Llama 4 Scout, alcança 90% por apenas 0,06 € — provavelmente o modelo mais barato do mundo com nível médico profissional.
DeepSeek
A startup chinesa que abalou a indústria em janeiro de 2025 com o R1 e a sua abordagem de raciocínio. No MIR 2026:
- DeepSeek V3.2 Speciale (#52): 191 acertos, 95,5%, 0,30 €
- DeepSeek R1 0528 (#59): 190 acertos, 95%, 0,87 €
- DeepSeek R1 (#60): 190 acertos, 95%, 0,80 €
DeepSeek destaca-se por publicar papers detalhados do seu processo de treino — aproximando-se mais do espírito do open source do que a maioria dos concorrentes.[3]
Qwen (Alibaba)
A família mais numerosa, com 38 modelos no nosso benchmark. O seu melhor resultado:
- Qwen Plus 0728 (thinking) (#40): 193 acertos, 96,5%, 1,70 €
- Qwen3 235B A22B (thinking) (#55): 191 acertos, 95,5%, 0,54 €
- Qwen3 Max (#66): 189 acertos, 94,5%, 0,92 €
Qwen3 é a série MoE da Alibaba, com ativação flexível de parâmetros e suporte nativo para raciocínio (thinking mode).[4]
Mistral
A empresa francesa mantém a tradição com modelos eficientes:
- Mistral Large 3 2512 (#54): 191 acertos, 95,5%, 0,22 €
- Mistral Large 2407 (#56): 191 acertos, 95,5%, 0,87 €
StepFun
A surpresa: StepFun Step 3.5 Flash (#64) alcança 189 acertos (94,5%) com um custo de 0,00 € — literalmente grátis através da OpenRouter. É um modelo chinês com reasoning tokens que oferece nível médico profissional sem qualquer custo.
5. A Brecha que se Fecha (Mas Não se Fecha de Todo)
Os 290 modelos avaliados no MIR 2026 por data de lançamento. Cada ponto é um modelo; vermelho = proprietário, azul = open weights, verde = open source (OSI). Modelos mais recentes tendem a obter melhores notas, mas os proprietários mantêm a borda superior.
O gráfico mostra os 290 modelos avaliados no MIR 2026 por data de lançamento. O eixo Y é a nota líquida (líquidas MIR, descontando penalização por erros). As cores distinguem três categorias: vermelho para proprietários, azul para open weights e verde para open source (OSI). A tendência é clara: os modelos mais recentes obtêm melhores líquidas, mas os proprietários (vermelho) mantêm sempre a margem superior.
Evolução do gap entre o melhor modelo proprietário e o melhor open weights nas 3 edições MIR. O gap reduziu de 12 para 5 perguntas.
Se olharmos apenas para os melhores de cada categoria:
| Edição | Melhor proprietário | Melhor open weights | Gap |
|---|---|---|---|
| MIR 2024 | 195 (Sonar Deep Research) | 183 (DeepSeek V3) | 12 |
| MIR 2025 | 193 (Gemini 3 Flash) | 188 (Llama 4 Maverick) | 5 |
| MIR 2026 | 199 (Gemini 3 Flash / o3 / GPT-5) | 194 (Llama 4 Maverick) | 5 |
O gap reduziu-se dramaticamente entre 2024 e 2025 (de 12 para 5 perguntas), mas estagnou em 5 entre 2025 e 2026. Os proprietários deram um salto enorme (de 193 para 199), e os abertos também (de 188 para 194), mas ambos avançaram em paralelo.
Fechar-se-á o gap completamente? Provavelmente não tão cedo. Os três modelos que alcançaram 199/200 (Gemini 3 Flash, o3, GPT-5) foram treinados com orçamentos de computação que nenhum projeto open weights consegue igualar atualmente. Quando o teto são 200 perguntas e já se está em 199, cada pergunta adicional custa exponencialmente mais.
6. O Ecossistema Chinês: DeepSeek, Qwen e a Terceira Via
Modelos chineses no MIR 2026. Qwen (Alibaba), DeepSeek, Moonshot, Zhipu (GLM), ByteDance (Seed) e StepFun competem fortemente no segmento 94-97%.
A China merece uma secção à parte. Dos 175 modelos open weights avaliados, uma proporção significativa provém de laboratórios chineses: Alibaba (Qwen), DeepSeek, Zhipu (GLM), ByteDance (Seed), MoonshotAI (Kimi) e StepFun.
O notável não é apenas a quantidade, mas a sua diversidade de abordagens:
- Qwen aposta em modelos MoE massivos com raciocínio flexível
- DeepSeek diferencia-se por publicar papers detalhados e otimizar o custo de treino
- Zhipu (GLM 4.7) combina open weights com raciocínio a um custo competitivo
- ByteDance (Seed 1.6) entra com força a partir da sua experiência em recomendação
- StepFun oferece modelos gratuitos com reasoning — um modelo de negócio que desafia a lógica do mercado
Este ecossistema representa uma "terceira via": nem a catedral fechada de Silicon Valley (OpenAI, Anthropic, Google) nem o bazar puro do open source ocidental (EleutherAI, AllenAI). É um modelo onde grandes corporações tecnológicas publicam pesos como estratégia de plataforma, mantendo os dados e o processo de treino como vantagem competitiva.
7. Custo vs. Precisão: A Vantagem Invisível
Custo vs. precisão no MIR 2026. Os open weights (verde) dominam a zona inferior-esquerda: alta precisão a baixo custo. Llama 4 Maverick (97%, 0,11 €) é o sweet spot.
Aqui está a história que os rankings por posição não contam. Se mudarmos o critério de "melhor" para "melhor por euro gasto", o panorama muda radicalmente.
Os open weights dominam o canto inferior-esquerdo do gráfico: alta precisão, baixo custo. Alguns dados:
- Llama 4 Maverick: 97% de precisão por 0,11 € — o sweet spot absoluto
- DeepSeek V3.2: 95,5% por 0,30 €
- Mistral Large 3: 95,5% por 0,22 €
- StepFun 3.5 Flash: 94,5% por 0,00 € (grátis)
- Devstral 2 2512: 91,5% por 0,01 €
Para um hospital que precisa de processar milhares de consultas diárias, a diferença entre 0,11 € e 2,05 € por consulta é a diferença entre um projeto viável e um proibitivo. A 1.000 consultas diárias, Llama 4 Maverick custa 110 €/dia. GPT-5 custa 2.050 €/dia. Num ano: 40.150 € vs. 748.250 €.
E isto assumindo que se utilize a API na nuvem. Se se implementar o Llama 4 Maverick nos próprios servidores, o custo marginal por consulta aproxima-se de zero (apenas eletricidade e amortização de hardware).
8. A Tentação do Fine-Tuning
É aqui que muitos projetos de IA médica tropeçam. O raciocínio é atrativo:
Se temos os pesos do modelo, podemos afiná-lo com os nossos dados clínicos e criar um modelo especializado que supere os generalistas.
Parece lógico. É incorreto na prática.
| Parámetro | Tendencia MIR 2026 | Implicación |
|---|---|---|
| Catastrophic Forgetting | Alto risco | O modelo perde conhecimento geral ao especializar-se. Pode piorar em áreas que antes dominava. |
| Dados de Treino | Escassos e caros | Os dados clínicos anotados de qualidade são escassos, requerem aprovação ética e têm vieses de seleção. |
| Custo de Treino | Elevado | Mesmo o fine-tuning de um modelo de 70B parâmetros requer GPUs A100/H100 durante horas-dias. |
| Manutenção | Contínua | Cada novo modelo base requer repetir o fine-tuning. Llama 4 hoje, Llama 5 amanhã — o ciclo nunca termina. |
| Resultados Reais | Dececionantes | Estudos mostram que RAG supera o fine-tuning na maioria das tarefas médicas de resposta a perguntas. |
Riscos do fine-tuning de modelos de linguagem para aplicações médicas
O problema fundamental é que o fine-tuning modifica os pesos do modelo — o seu "conhecimento interno" — com uma quantidade relativamente pequena de dados especializados. Isto gera um equilíbrio instável: se se afinar demasiado, o modelo perde generalidade (catastrophic forgetting); se se afinar pouco, não se ganha especialização significativa.
9. RAG e Agentes: A Alternativa que Funciona
A investigação recente aponta noutra direção: não modificar o modelo, mas orquestrá-lo.
RAG (Retrieval-Augmented Generation) consiste em ligar o modelo a uma base de conhecimento externa. Em vez de "ensinar-lhe" medicina injetando dados nos seus pesos, dá-se-lhe acesso a um sistema de pesquisa que recupera a informação relevante em tempo real. O modelo não "sabe" a resposta — encontra-a e sintetiza-a.
Os agentes médicos vão um passo mais além: orquestram múltiplas ferramentas (pesquisa, calculadoras clínicas, bases de dados de fármacos, guias de prática clínica) para resolver consultas complexas.
RAG vs. Fine-Tuning em tarefas médicas. Dados de: MDPI Bioengineering 2025 (BLEU), PMC systematic review (alucinações), medRxiv 2025 (agentes).
Os dados são contundentes:
- BLEU Score: RAG alcança 0,41 vs. 0,063 do fine-tuning (6,5x melhor) em tarefas de resposta médica.[5]
- Alucinações: RAG reduz as alucinações a 0% em contextos com dados de referência, vs. 12,5% do fine-tuning em perguntas médicas fora de distribuição.[6]
- Agentes médicos: Os sistemas agênticos com RAG alcançam uma mediana de precisão de 93% em tarefas clínicas, vs. 57% de modelos sem agência — uma melhoria de +36 pontos percentuais.[7]
A explicação é intuitiva: em medicina, o conhecimento muda constantemente. Novos guias clínicos, novos fármacos, novas evidências. Um modelo fine-tuned tem o conhecimento "congelado" nos seus pesos. Um sistema RAG atualiza a sua base de conhecimento em tempo real. É a diferença entre um livro de texto (que fica obsoleto) e uma biblioteca com subscrição de todas as revistas científicas.
10. O Elefante na Sala: Privacidade e Soberania
Há um argumento a favor dos open weights que nenhum benchmark consegue capturar: a soberania tecnológica.
Quando um hospital envia dados de pacientes para a API da OpenAI ou Google, esses dados saem do controlo da instituição. Não importa quantas cláusulas tenham os contratos de processamento de dados — o RGPD (Art. 22) e a HIPAA exigem garantias que uma API na nuvem não pode oferecer ao mesmo nível que uma implementação on-premises.[8]
Com open weights, um hospital pode:
- Implementar o Llama 4 Maverick nos seus próprios servidores — nenhum dado sai do edifício
- Ligá-lo via RAG aos seus guias clínicos internos — personalização sem fine-tuning
- Auditá-lo completamente — inspeção de pesos e comportamento
- Cumprir com as regulamentações europeias — os dados nunca cruzam fronteiras
Isto é especialmente relevante na Europa, onde o AI Act e a regulamentação de dispositivos médicos (MDR) impõem requisitos rigorosos de rastreabilidade e controlo que são mais fáceis de cumprir com implementações locais.
Para países como Espanha, onde o sistema de saúde é público e gere dados de 47 milhões de pessoas, a soberania tecnológica não é um luxo: é uma obrigação. Um modelo open weights executado em infraestrutura pública (como os centros de supercomputação da RES) oferece uma via mais compatível com esta obrigação do que uma dependência permanente de APIs americanas.
Dito isto, existe uma terceira via que combina o melhor de ambos os mundos: utilizar modelos proprietários de alto rendimento em nuvens onde o cliente controla a localização do datacenter e tem garantias contratuais de que a informação nunca chega ao fornecedor. Serviços como o Amazon Bedrock (que oferece os modelos da Anthropic, entre outros) permitem implementar o Claude numa região europeia específica, com cifra gerida pelo cliente e a garantia de que os dados não são usados para treinar modelos nem são partilhados com terceiros. Para um hospital que necessita da precisão de um modelo proprietário de topo sem abdicar do controlo dos seus dados, esta arquitetura oferece um equilíbrio viável entre rendimento e soberania.
11. MedGemma: A Ponte entre Mundos
Em junho de 2025, a Google deu um passo que esbate a fronteira entre catedral e bazar: publicou o MedGemma, uma família de modelos open weights especificamente treinados para medicina.[9]
MedGemma 27B, baseado no Gemma 3, alcança 87,7% no MedQA (o benchmark médico de referência em inglês) — um resultado que teria sido recorde mundial apenas 18 meses antes. A Google publicou-o com pesos descarregáveis, documentação do processo de treino e as ferramentas para fine-tuning adicional.
Porque é que um gigante proprietário publica um modelo médico aberto? A resposta tem várias camadas:
- Legitimação regulatória: Oferecer modelos auditáveis facilita a aprovação de produtos médicos baseados em IA
- Estratégia de ecossistema: Se o MedGemma se tornar no padrão para IA médica, a Google captura valor na camada de infraestrutura (TPUs, Vertex AI)
- Investigação aberta: Os avanços médicos aceleram-se quando a comunidade pode iterar sobre um modelo base partilhado
Não é o único exemplo. A Meta publicou guias para uso médico do Llama.[10] A Alibaba financiou investigação médica com o Qwen. A tendência é clara: os grandes laboratórios estão a convergir para um modelo híbrido onde o modelo base é aberto e o valor se captura na camada de serviços.
12. Conclusões: A Catedral já Não Está Sozinha
Após analisar 290 modelos no MIR 2026, estas são as nossas conclusões:
1. O gap existe mas está a fechar-se. As 33 primeiras posições são proprietárias, mas a diferença entre o melhor fechado (199/200) e o melhor aberto (194/200) é de apenas 5 perguntas. Em 2024 era de 12.
2. A taxonomia importa. A maioria dos modelos "open source" são na realidade open weights. Apenas um punhado cumpre a definição OSI v1.0. Isto tem implicações práticas: pode-se usar um modelo open weights, mas não se pode reproduzir o seu treino.
3. O fine-tuning não é a resposta. Os dados mostram que RAG e os sistemas agênticos superam o fine-tuning em tarefas médicas: melhor qualidade de resposta, zero alucinações e +36pp de precisão com agentes. A estratégia vencedora é orquestração inteligente, não modificação de pesos.
4. A vantagem real dos open weights é a soberania. A capacidade de executar o modelo nos próprios servidores, sem dependência de APIs externas, cumprindo com o RGPD e a regulamentação sanitária — isso não tem preço.
5. O futuro não é catedral vs. bazar. É modelo base aberto + orquestação inteligente + dados próprios. Um hospital que implemente o Llama 4 Maverick com RAG sobre os seus guias clínicos combina o melhor de ambos os mundos: a potência de um modelo de 400B parâmetros com a personalização dos seus dados, sem fine-tuning e sem enviar informação sensível a terceiros.
Eric S. Raymond tinha razão: o bazar eventualmente supera a catedral. Mas em IA médica, o bazar de 2026 não é uma feira caótica de contribuições individuais. É um ecossistema onde Meta, Alibaba, DeepSeek e Google publicam catedrais inteiras — e a comunidade ambienta-as, liga-as e põe-nas a trabalhar.
A catedral já não está sozinha. E isso, para a medicina, é uma excelente notícia.
Notas y Referencias
- Raymond, E. S. (1999). The Cathedral and the Bazaar: Musings on Linux and Open Source by an Accidental Revolutionary. O'Reilly Media. O ensaio original foi apresentado em 1997 e publicado como livro em 1999.
- Open Source Initiative (2024). The Open Source AI Definition v1.0. Publicada a 28 de outubro de 2024. opensource.org/ai/open-source-ai-definition
- DeepSeek-AI (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948. Um dos papers mais detalhados sobre o processo de treino de um modelo de raciocínio.
- Qwen Team (2025). Qwen3 Technical Report. qwenlm.github.io/blog/qwen3. Descrição da arquitetura MoE e do modo thinking.
- Soman, S. et al. (2025). Comparative Evaluation of RAG and Fine-Tuning for Medical Question Answering. MDPI Bioengineering, 12(2), 123. RAG alcançou BLEU 0.41 vs. 0.063 do fine-tuning em respostas médicas.
- Pal, A. et al. (2025). A Systematic Review of Retrieval-Augmented Generation in Medical AI. PMC. RAG eliminou as alucinações (0%) quando se forneciam documentos de referência contextuais.
- Schmidgall, S. et al. (2025). AgentMD: A Systematic Review of AI Agents in Medicine. medRxiv. Os agentes médicos melhoraram a precisão numa mediana de +36 pontos percentuais sobre modelos sem agência.
- Regulamento Geral sobre a Proteção de Dados (RGPD), Art. 22: Decisões individuais automatizadas. O RGPD estabelece o direito a não ser objeto de decisões baseadas unicamente em tratamento automatizado, com exceções regulamentadas.
- Google Health AI (2025). MedGemma: Open Models for Medical AI. Junho de 2025. MedGemma 27B alcançou 87,7% no MedQA com pesos open weights baseados no Gemma 3.
- Meta AI (2025). Llama for Healthcare: Best Practices and Safety Guidelines. Guias oficiais para uso do Llama em aplicações de saúde.