Beta version: *Information might not be fully accurate. Please report any discrepancies.

Moonshot AIVerifiedOpen Weights26 benchmarks

Kimi K2.6

Released 2026-04-201T MoE (32B activated) Architecture

Verified Model Card

Latest Data

2026-04-20

Context Window

256k

tokens

Input Cost

$0.20

per 1M tokens

Output Cost

$4.00

per 1M tokens

Cache Cost

$0.16 / Free

read / write per 1M

Parameters

1T MoE (32B activated)

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

SWE-bench VerifiedCoding

80.2/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

OJBench (Python)Coding

60.6/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Online judge programming benchmark for Python.

HLE-FullScience

34.7/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Humanity's Last Exam full evaluation without tools.

HLE-Full (w/ tools)Science

54/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Humanity's Last Exam full evaluation with tool access enabled.

AIME 2026Math

96.4/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Future prediction of AIME performance levels.

HMMT Feb 2026Math

92.7/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Harvard-MIT Mathematics Tournament 2026 - High difficulty competition math.

IMO-AnswerBenchMath

86/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

International Mathematical Olympiad style answer-only benchmark.

LiveCodeBench v6Coding

89.6/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Contamination-free coding benchmark using recent problems.

GPQA DiamondSTEM

90.5/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Graduate-Level Google-Proof Q&A Benchmark.

MathVisionVision

87.4/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Comprehensive mathematical vision benchmark.

MMMU-ProVision

79.4/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Professional level MMMU expansion.

BabyVisionVision

39.8/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Early-stage visual development benchmark.

CharXiv-RQVision

80.4/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Chart-based reasoning from arXiv papers (Reasoning QA).

Terminal-Bench 2.0Agentic

66.7/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

Claw-EvalAgentic

62.3/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Benchmark for daily agentic tasks across text and multimodal interactions.

APEX-AgentsAgentic

27.9/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Advanced agentic planning and execution benchmark.

OSWorld-VerifiedAgentic

73.1/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Verified desktop computer-use benchmark for end-to-end task completion.

SWE-bench ProAgentic

58.6/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Higher-difficulty SWE-bench subset for frontier coding agents.

SWE MultilingualAgentic

76.7/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Software engineering performance across multilingual codebases.

BrowseCompAgentic

83.2/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Web browsing + synthesis benchmark for research agents.

BrowseComp (Agent Swarm)Agentic

86.3/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Multi-agent swarm variant of BrowseComp.

WideSearchAgentic

80.8/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Broad retrieval and synthesis benchmark across many sources.

ToolathlonAgentic

50/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Long horizon real-world software tasks.

DeepSearchQAAgentic

83/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Deep multi-hop search QA for long-horizon agents.

MCP-MarkAgentic

55.9/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Model Context Protocol interoperability benchmark.

SciCodeAdvanced Tasks

52.2/ 100

Verified

Last Verified: 2026-04-20Kimi K2.6 Announcement

Scientific programming benchmark for code synthesis and correctness.