Beta version: *Information might not be fully accurate. Please report any discrepancies.

AlibabaVerifiedOpen Weights30 benchmarks

Qwen 3.5 397B-A17B

Released 2026-02-16397B (17B active) Architecture

Training: 2026-01

Verified Official Model Card

Latest Data

Unknown

Context Window

262k

tokens

Input Cost

$0.60

per 1M tokens

Output Cost

$3.60

per 1M tokens

Parameters

397B (17B active)

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MATH (CoT)Math

74.1/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Challenging competition mathematics problems (AIME/IMO level).

SWE-bench VerifiedCoding

76.4/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

MMMU (Multimodal)Multimodal

85/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Multi-discipline Multimodal Understanding and Reasoning.

GSM8KMath

93.7/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Grade school math word problems requiring multi-step reasoning.

MMLU-ProScience

87.8/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

SuperGPQAScience

70.4/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Extremely difficult expert-level science questions.

LiveCodeBench v6Coding

83.6/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Contamination-free coding benchmark using recent problems.

AA-LCRLong Context

68.7/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Artificial Analysis Long Context Reasoning benchmark. Evaluates reasoning over long contexts.

IFEvalInstruction Following

92.6/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Instruction Following Evaluation for Large Language Models. Measures ability to follow strict formatting and constraint requirements.

IFBenchInstruction Following

76.5/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Artificial Analysis IFBench. Evaluates precise instruction following with constraints.

MultiChallengeInstruction Following

67.6/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Complex, multi-constraint instruction following tasks.

MathVista (mini)Vision

90.3/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Compact MathVista split for faster multimodal reasoning checks.

MathVisionVision

88.6/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Comprehensive mathematical vision benchmark.

OCRBenchVision

93.1/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Optical character recognition and document understanding benchmark.

MMMU-ProVision

79/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Professional level MMMU expansion.

RealWorldQAVision

83.9/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Real-world visual question answering.

HallusionBenchVision

71.4/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Visual hallucination and factuality benchmark.

MMStarVision

83.8/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Elite multimodal model evaluation.

CountBenchVision

97.2/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Visual object counting and identification.

ERQAVision

67.5/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Environment Reasoning and Question Answering.

OmniDocBenchVision

90.8/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Universal document understanding benchmark.

CharXiv-RQVision

80.8/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Chart-based reasoning from arXiv papers (Reasoning QA).

MMVUVideo

75.4/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Multimodal Video Understanding.

LVBenchVideo

75.5/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Large-scale Video Benchmark.

Terminal-Bench 2.0Agentic

52.5/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Agent performance in realistic terminal workflows (v2.0 leaderboard).

OSWorld-VerifiedAgentic

62.2/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Verified desktop computer-use benchmark for end-to-end task completion.

SWE MultilingualAgentic

69.3/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Software engineering performance across multilingual codebases.

VitaBenchAgentic

49.7/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Virtual task assistant benchmark across practical workflows.

VideoMMMUVideo

84.7/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Video variant of MMMU for multimodal understanding and reasoning.

VideoMMEVideo

87.5/ 100

Verified

Last Verified: Unknown DateQwen AI Blog

Video multimodal evaluation benchmark for perception and reasoning.