Beta version: *Information might not be fully accurate. Please report any discrepancies.

ByteDanceVerified89 benchmarks

Seed2.0 Pro

Released 2026-02-14Unknown Architecture

Training: 2025-02

Verified Official Model Card

Latest Data

Unknown

Context Window

128k

tokens

Input Cost

$0.47

per 1M tokens

Output Cost

$2.37

per 1M tokens

Parameters

Unknown

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MATH (CoT)Math

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Challenging competition mathematics problems (AIME/IMO level).

HumanEvalCoding

95.4/ 100

Unverified

Last Verified: Unknown DateByteDance Seed

Functional correctness of synthesized programs from docstrings.

MMMU (Multimodal)Multimodal

85.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multi-discipline Multimodal Understanding and Reasoning.

LMArena ELOReal-world

1415/ 1700

Unverified

Last Verified: Unknown DateChatbot Arena Leaderboard

Chatbot Arena ELO score. Crowd-sourced human preference ranking.

MMLU-ProScience

87/ 100

Verified

Last Verified: Unknown DateByteDance Seed

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLEScience

36.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Humanity's Last Exam - Hard reasoning benchmark without tools.

AIME 2026Math

54.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Future prediction of AIME performance levels.

CodeforcesCoding

3020/ 4000

Verified

Last Verified: Unknown DateByteDance Seed

Competitive programming rating based on problem solving.

GPQA DiamondSTEM

88.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Graduate-Level Google-Proof Q&A Benchmark.

ARC-AGI-1Reasoning

85.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Abstraction and Reasoning Corpus - Level 1.

AIME 2025Math

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

American Invitational Mathematics Examination 2025 problems.

Putnam-200Math

35.5/ 100

Verified

Last Verified: Unknown DateByteDance Seed

William Lowell Putnam Mathematical Competition problems - top 200 level difficulty.

MathVistaVision

89.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Mathematical reasoning in visual contexts.

MathVisionVision

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Comprehensive mathematical vision benchmark.

MMMUVision

85.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Massive Multi-discipline Multimodal Understanding and Reasoning.

LogicVistaVision

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Logical reasoning in visual puzzles and diagrams.

BLINKVision

78.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Spatial and perception benchmark for multimodal models.

ChartQA ProVision

76.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Expert-level chart understanding and question answering.

OCRBench v2Vision

95.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Next-gen optical character recognition and document understanding.

DynaMathVision

60.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Dynamic mathematical reasoning in visual contexts.

MathKangarooVision

90.5/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Mathematical competition problems with visual elements.

MathCanvasVision

61.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multi-step mathematical reasoning on a canvas.

MMMU-ProVision

73.2/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Professional level MMMU expansion.

EMMAVision

72/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Expert-level Multimodal Mathematics Analysis.

SFEVision

55.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Scientific Figure Evaluation.

HiPhOVision

74.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

High-level Physics Olympiad (Vision).

XLRS-BenchVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Cross-domain Logical Reasoning and Spatial benchmark.

PhyXVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Physics reasoning with open-ended visual questions.

VPCTVision

61.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual Perception and Coding Tasks.

ZeroBench (main)Vision

41.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Zero-shot visual reasoning benchmark.

ZeroBench (sub)Vision

48.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Zero-shot visual reasoning sub-tasks.

ArcAGI1-ImageVision

30.2/ 100

Verified

Last Verified: Unknown DateByteDance Seed

ARC-AGI Level 1 tasks in image format.

ArcAGI2-ImageVision

2.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

ARC-AGI Level 2 tasks in image format.

VisuLogicVision

54.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual logic and sequence reasoning.

VLMsAreBiasedVision

30.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Evaluating bias in Vision-Language Models.

VLMsAreBlindVision

85.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Evaluating perception failures in VLMs.

VisFactorVision

34.2/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual factor identification and reasoning.

RealWorldQAVision

84.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Real-world visual question answering.

BabyVisionVision

51.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Early-stage visual development benchmark.

HallusionBenchVision

78.5/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual hallucination and factuality benchmark.

MME-CCVision

87/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Evaluation (Cognitive Capacity).

MMStarVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Elite multimodal model evaluation.

MUIRBenchVision

48.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Understanding and Interaction Benchmark.

MTVQAVision

78.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multilingual Text-centric Visual QA.

WorldVQAVision

60.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Global visual knowledge and reasoning.

VibeEvalVision

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Subjective and intuitive visual quality evaluation.

ViVerBenchVision

82.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual Verification and reasoning.

CountBenchVision

95.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual object counting and identification.

FSC-147Vision

30.2/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Few-shot counting benchmark (Lower is better handled in normalization).

Point-BenchVision

92.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Visual pointing and spatial grounding.

MMSIBenchVision

30.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Spatial Interaction Benchmark.

TreeBenchVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Hierarchical visual reasoning tasks.

RefSpatialBenchVision

92.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Referential spatial reasoning evaluation.

DA-2KVision

70.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Document Analysis and reasoning (2k).

All-AnglesVision

72.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multi-perspective visual understanding.

ERQAVision

60.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Environment Reasoning and Question Answering.

OmniDocBenchVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Universal document understanding benchmark.

CharXiv-DQVision

68.5/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Chart-based reasoning from arXiv papers (Data QA).

CharXiv-RQVision

74/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Chart-based reasoning from arXiv papers (Reasoning QA).

DUDEVision

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Document Understanding and Dialogue Evaluation.

MMLongBenchVision

76.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Long context benchmark.

LongDocURLVision

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Long document understanding with URLs.

MMLongBench-DocVision

82.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Long context document evaluation.

MMVUVideo

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Multimodal Video Understanding.

VideoSimpleQAVideo

78.9/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Verifiable question answering for short video clips.

VideoReasonBenchVideo

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Complex reasoning tasks in video content.

Morse-500Video

74.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Sequence reasoning and motion understanding.

VideoHolmesVideo

41.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Deep diagnostic video understanding.

MinervaVideo

68.5/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Long-form video reasoning and knowledge retrieval.

ContPhyVideo

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Continuous Physics reasoning in video.

TempCompassVideo

92.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Temporal orientation and perception in video.

EgoTempoVideo

76.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

First-person perspective temporal reasoning.

MotionBenchVideo

85.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Comprehensive motion perception evaluation.

TOMATOVideo

76.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Temporal Object-centric Multimodal Analysis.

CGBenchVideo

74/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Contextual Grounding in long videos.

LongVideoBenchVideo

87/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Understanding extremely long-form video content.

VideoEval-ProVideo

60.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Professional level video quality and content evaluation.

LVBenchVideo

84.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Large-scale Video Benchmark.

CrossVidVideo

65.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Cross-video temporal and relational reasoning.

LiveSports-3KVideo

82.6/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Live sports broadcast understanding.

OVOBenchVideo

72.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Object-Video-Object relational reasoning.

ODVBenchVideo

74.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Open-Domain Video understanding.

ViSpeakVideo

87/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Video-to-speech and dialogue reasoning.

FrontierSci-olympiadSTEM

83/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Scientific Olympiad level problems.

SimpleVQAVision

70.8/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Short-form visual question answering with verifiable responses.

VideoMMMUVideo

92.7/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Video variant of MMMU for multimodal understanding and reasoning.

VideoMMEVideo

95.4/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Video multimodal evaluation benchmark for perception and reasoning.

TVBenchVideo

81.3/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Television/video narrative understanding benchmark.

OVBenchVideo

74.1/ 100

Verified

Last Verified: Unknown DateByteDance Seed

Open-world video understanding benchmark.