Beta version: *Information might not be fully accurate. Please report any discrepancies.

MinimaxVerified11 benchmarks

MiniMax M2

Released 2025-04-10230B MoE (10B active) Architecture

Training: 2024-11

Verified Model Card

Latest Data

Unknown

Context Window

128k

tokens

Input Cost

$0.20

per 1M tokens

Output Cost

$0.80

per 1M tokens

Parameters

230B MoE (10B active)

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MMLU (5-shot)Knowledge

85.4*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Massive Multitask Language Understanding covers 57 subjects across STEM, the humanities, social sciences, and more.

SWE-bench VerifiedCoding

69.4*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

MMLU-ProScience

82*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLEScience

12.5*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Humanity's Last Exam - Hard reasoning benchmark without tools.

LiveCodeBench v6Coding

83*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Contamination-free coding benchmark using recent problems.

GPQA DiamondSTEM

78*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Graduate-Level Google-Proof Q&A Benchmark.

IFBenchInstruction Following

72*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Artificial Analysis IFBench. Evaluates precise instruction following with constraints.

AIME 2025Math

78*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

American Invitational Mathematics Examination 2025 problems.

Terminal-Bench 2.0Agentic

46.3*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Agent performance in realistic terminal workflows (v2.0 leaderboard).

BrowseCompAgentic

44*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Web browsing + synthesis benchmark for research agents.

SciCodeAdvanced Tasks

36*/ 100

Verified

Last Verified: Unknown DateArtificial Analysis (Independent)

Scientific programming benchmark for code synthesis and correctness.