Ranking de MIR 2025

Netes obtingudes

Puntuació MIR: (3 × encerts - errors) / 3

186.66 pts

186.33 pts

185.33 pts

184.00 pts

178.00 pts

Grok 3 Beta

177.66 pts

174.66 pts

Qwen3 Max

174.66 pts

167.00 pts

132

165.66 pts

Millor humà

165.66 pts

141

165.33 pts

142

163.66 pts

152

162.66 pts

155

162.00 pts

156

161.66 pts

160

159.00 pts

167

158.00 pts

157.66 pts

173

155.33 pts

153.00 pts

152.33 pts

196

150.33 pts

150.33 pts

204

145.66 pts

213

143.66 pts

217

44.33 pts

299

30.33 pts

305

0.00 pts

Mitjana:143.96 pts

(319 modelos)

Encerts obtinguts

Nombre total de respostes correctes

Gemini 2.5 Pro

190

189

189

188

186

183

Grok 3 Beta

183

182

175

132

174

140

174

Millor humà

174

154

169

163

168

164

191

164

164

162

161

204

212

107

292

293

Mistral 7B Instruct

294

295

Mistral Tiny

296

297

304

Olmo 3 7B Instruct

305

313

Aion-RP 1.0 (8B)

314

319

Qwen3 4B

Total:49670

Mitjana:155.7

(319 modelos)

Errors comesos

Nombre total de respostes incorrectes

ALMA

Qwen3 4B

Miri

Gemini 3 Pro Preview

GPT-5.1-Codex

GPT-5

Gemini 2.5 Pro

GLM 5

Claude Opus 4.6

GPT-5 Image Mini

Qwen3.5-35B-A3B

Qwen3.5 397B A17B

Qwen3.5-122B-A10B

GLM 4.5

Step 3.5 Flash

Kimi K2 Thinking

Claude Sonnet 4.5

GPT-5 Chat

Mercury 2

MiniMax M2.5

102

Qwen-Plus

103

134

Pixtral Large 2411

135

145

MiniMax M2.1

146

147

148

Palmyra X5

150

151

155

156

Kimi Dev 72B

Millor humà

157

159

Claude Haiku 4.5

160

161

Sonar Reasoning Pro

166

170

GLM 4.6V

183

191

Qwen3 VL 8B Thinking

198

MiMo-V2-Flash

199

200

201

207

208

Qwen-Max

209

214

223

236

246

Relace Search

247

248

249

Claude 3.5 Haiku

250

271

275

Gemma 2 9B

276

ERNIE 4.5 21B A3B

278

Llama 3 8B Lunaris

299

101

308

Total:11238

Mitjana:35.22

(319 modelos)

Percentatge d'encerts

Proporció de respostes correctes sobre es total

96.0%

Gemini 2.5 Pro

96.0%

95.0%

94.5%

94.5%

94.0%

93.0%

91.5%

Grok 3 Beta

91.5%

91.0%

87.5%

132

87.0%

140

87.0%

Millor humà

87.0%

86.0%

85.5%

154

85.5%

84.5%

163

84.0%

82.5%

82.0%

191

82.0%

82.0%

81.0%

80.5%

204

79.0%

212

53.5%

42.0%

292

39.5%

297

39.0%

Mitjana:77.8%

(319 modelos)

Temps mitjà de resposta

Temps mitjà que tarda es model a respondre a cada pregunta

Ministral 3B

1.5s

2.6s

3.6s

Devstral Medium

3.6s

4.1s

4.2s

4.3s

4.4s

6.2s

Claude Haiku 4.5

6.2s

6.3s

7.6s

GPT-4o-mini

7.6s

7.9s

Seed 1.6 Flash

8.0s

8.9s

111

9.0s

112

9.6s

126

13.6s

175

14.2s

185

14.5s

189

14.6s

190

15.5s

199

15.9s

17.3s

217

17.7s

218

18.2s

221

19.0s

224

20.2s

233

20.4s

234

20.8s

235

21.0s

236

34.7s

163.5s

Mitjana:19.0s

(318 modelos)

Cost mitjà per pregunta

Cost mitjà en USD per pregunta avaluada

Gemma 3 12B

Rnj 1 Instruct

Gemma 3 27B

Mistral 7B Instruct

ERNIE 4.5 21B A3B

Ministral 3 8B 2512

$0.0003

$0.0004

$0.0006

$0.0006

DeepSeek V3

$0.0006

$0.0007

114

115

118

119

120

$0.0013

$0.0016

$0.0027

$0.0031

197

$0.0297

Mitjana:$0.0100

(299 modelos)

Confiança mitjana

Nivell de confiança mitjà reportat pes model

o3 Pro

GPT-5.4 Pro

99.8%

99.7%

Step3

Qwen Plus 0728

Mistral Large 2411

Seed 1.6

Ministral 3 8B 2512

99.1%

106

99.0%

113

99.0%

114

98.8%

136

98.8%

137

98.5%

150

98.0%

176

98.0%

177

97.6%

94.5%

257

91.8%

278

91.8%

279

91.5%

280

91.3%

82.5%

301

78.2%

305

77.5%

306

47.1%

314

16.4%

Mitjana:95.2%

(318 modelos)

Cost total

Cost total en USD per avaluar totes ses preguntes

Gemma 3 12B

Rnj 1 Instruct

Gemma 3 27B

Mistral 7B Instruct

ERNIE 4.5 21B A3B

Ministral 3 8B 2512

$0.07

$0.07

$0.12

$0.12

DeepSeek V3

$0.12

$0.15

114

$0.16

115

$0.16

118

$0.16

119

$0.17

120

$0.26

$0.31

$0.53

$0.63

197

$5.94

Total:$1070.62

Mitjana:$3.58

(299 modelos)

Tokens de raonament

Tokens utilitzats en es procés de raonament

262K

269K

Kimi K2 Thinking

275K

277K

305K

306K

311K

315K

QwQ 32B

315K

317K

Kimi K2.5

327K

330K

Solar Pro 3

333K

348K

406K

437K

727K

109

Total:97.5M

Mitjana:878K

(111 modelos)

Tokens sortints

Tokens generats en ses respostes

68K

68K

73K

77K

ReMM SLERP 13B

77K

79K

89K

95K

99K

Gemma 3 27B

100K

102K

103K

120K

134

125K

143

145K

150K

167K

213K

222

214K

223

215K

224

423K

282

432K

447K

287

519K

295

585K

590K

299

1.7M

317