Beta version: *Information might not be fully accurate. Please report any discrepancies.

DeepSeekVerifiedOpen Weights20 benchmarks

DeepSeek V4 Flash

Released 2026-04-24284B MoE (13B activated) Architecture

Verified Model Card

Latest Data

2026-04-24

Context Window

1.0M

tokens

Input Cost

$0.14

per 1M tokens

Output Cost

$0.28

per 1M tokens

Parameters

284B MoE (13B activated)

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MMLU (5-shot)Knowledge

88.7/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Massive Multitask Language Understanding covers 57 subjects across STEM, the humanities, social sciences, and more.

MATH (CoT)Math

57.4/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Challenging competition mathematics problems (AIME/IMO level).

HumanEvalCoding

69.5/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Functional correctness of synthesized programs from docstrings.

SWE-bench VerifiedCoding

79/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

BigCodeBenchCoding

56.8/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Next-generation HumanEval with more diverse library calls and complex tasks.

MMLU-ProScience

86.4/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLE-FullScience

34.8/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Humanity's Last Exam full evaluation without tools.

HLE-Full (w/ tools)Science

45.1/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Humanity's Last Exam full evaluation with tool access enabled.

HMMT Feb 2026Math

94.8/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Harvard-MIT Mathematics Tournament 2026 - High difficulty competition math.

IMO-AnswerBenchMath

88.4/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

International Mathematical Olympiad style answer-only benchmark.

CodeforcesCoding

3052/ 4000

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Competitive programming rating based on problem solving.

LiveCodeBench v6Coding

91.6/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Contamination-free coding benchmark using recent problems.

GPQA DiamondSTEM

88.1/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Graduate-Level Google-Proof Q&A Benchmark.

MRCR v2Long Context

78.7/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Multi-Round Context Retrieval - 8-needle test.

LongBench v2Long Context

44.7/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Comprehensive long-context understanding (128k).

Terminal-Bench 2.0Agentic

56.9/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

SWE MultilingualAgentic

73.3/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Software engineering performance across multilingual codebases.

BrowseCompAgentic

73.2/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Web browsing + synthesis benchmark for research agents.

MCP AtlasAgentic

69/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Multi-step workflows using Model Context Protocol.

ToolathlonAgentic

47.8/ 100

Verified

Last Verified: 2026-04-24DeepSeek V4 Announcement

Long horizon real-world software tasks.