Beta version: *Information might not be fully accurate. Please report any discrepancies.

AlibabaVerifiedOpen Weights21 benchmarks

Qwen3-VL-235B-A22B

Released 2025-09-21235B (22B active) Architecture

Training: 2025-04

Verified Model Card

Latest Data

2026-02-20

Context Window

262k

tokens

Input Cost

$0.20

per 1M tokens

Output Cost

$0.88

per 1M tokens

Parameters

235B (22B active)

model footprint

Model Variants

Compare All

1 Variants Available

Qwen3-VL-235B-A22B Thinking

235B (22B active)2025-09-21

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MATH (CoT)Math

87.1*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Challenging competition mathematics problems (AIME/IMO level).

HumanEvalCoding

88.4*/ 100

Unverified

Last Verified: Unknown DateArtificial Analysis (Independent)

Functional correctness of synthesized programs from docstrings.

LiveBenchReasoning

48.84/ 100

Verified

Last Verified: 2026-02-20LiveBench

Contamination-free, continuously updated reasoning benchmark.

LMArena ELOReal-world

1320/ 1700

Unverified

Last Verified: Unknown DateChatbot Arena Leaderboard

Chatbot Arena ELO score. Crowd-sourced human preference ranking.

AA Intelligence IndexReal-world

27.5*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate intelligence index.

MMLU-ProScience

83.6*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLEScience

10.1*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Humanity's Last Exam - Hard reasoning benchmark without tools.

AA Math IndexMath

88.3*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate math capability index.

HMMT Feb 2025Math

45.8*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Harvard-MIT Mathematics Tournament - High difficulty competition math.

IMO-AnswerBenchMath

97.3*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

International Mathematical Olympiad style answer-only benchmark.

LiveCodeBench v6Coding

64.6*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Contamination-free coding benchmark using recent problems.

AA Coding IndexCoding

20.9*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate coding capability index.

GPQA DiamondSTEM

77.2*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Graduate-Level Google-Proof Q&A Benchmark.

AA-LCRLong Context

58.7*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis Long Context Reasoning benchmark. Evaluates reasoning over long contexts.

IFBenchInstruction Following

56.5*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis IFBench. Evaluates precise instruction following with constraints.

AIME 2025Math

88.3*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

American Invitational Mathematics Examination 2025 problems.

Terminal-Bench HardAgentic

11.4*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Hard split of Terminal-Bench focused on tougher terminal workflows.

OSWorld-VerifiedAgentic

63.4*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Verified desktop computer-use benchmark for end-to-end task completion.

WebArenaAgentic

26.4*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Browser-based autonomous task execution benchmark.

TAU-Bench TelecomAgentic

54.1*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Telecom-domain tool-use and workflow benchmark.

SciCodeAdvanced Tasks

39.9*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Scientific programming benchmark for code synthesis and correctness.