Beta version: *Information might not be fully accurate. Please report any discrepancies.

Google DeepMindVerified24 benchmarks

Gemini 2.5 Pro

Released 2025-06-25Unknown Architecture

Verified Model Card

Latest Data

2026-02-20

Context Window

2.0M

tokens

Input Cost

$1.25

per 1M tokens

Output Cost

$5.00

per 1M tokens

Cache Cost

$0.13 / $0.38

read / write per 1M

Parameters

Unknown

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MMLU (5-shot)Knowledge

89.5/ 100

Verified

Last Verified: Unknown DateGoogle AI Blog

Massive Multitask Language Understanding covers 57 subjects across STEM, the humanities, social sciences, and more.

SWE-bench VerifiedCoding

59.6/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

LiveBenchReasoning

58.33/ 100

Verified

Last Verified: 2026-02-20LiveBench

Contamination-free, continuously updated reasoning benchmark.

HLEScience

21.6/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Humanity's Last Exam - Hard reasoning benchmark without tools.

SimpleQA VerifiedKnowledge

54.5/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Verified subset of SimpleQA for parametric knowledge evaluation.

LiveCodeBench ProCoding

1775/ 4000

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Competitive programming problems from Codeforces, ICPC, and IOI with Elo rating.

GPQA DiamondSTEM

86.4/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Graduate-Level Google-Proof Q&A Benchmark.

PhybenchSTEM

36.87/ 100

Verified

Last Verified: Unknown DateGoogle AI Blog

Physics reasoning and problem solving benchmark.

MRCR v2Long Context

58/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Multi-Round Context Retrieval - 8-needle test.

MMMLUMultilingual

89.5/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Massive Multilingual Language Understanding.

AIME 2025Math

88/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

American Invitational Mathematics Examination 2025 problems.

ARC-AGI-2Reasoning

4.9/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Abstraction and Reasoning Corpus - Level 2 (Extreme difficulty).

Global PIQAMultilingual

91.5/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Physical Interaction QA across multiple languages and cultures.

MMMU-ProVision

68/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Professional level MMMU expansion.

OmniDocBench 1.5Vision

0.145/ 1

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

OCR benchmark measuring edit distance (lower is better).

ScreenSpot-ProVision

11.4/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Screen understanding benchmark for GUI interaction.

CharXiv ReasoningVision

69.6/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Information synthesis from complex charts.

Terminal-Bench 2.0Agentic

32.6/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

Vending-Bench 2Agentic

574/ 10000

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Long-horizon business simulation benchmark (final account balance).

FACTS Benchmark SuiteAgentic

63.4/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Factuality benchmark across grounding, parametric, search, and multimodal.

MCP AtlasAgentic

8.8/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Multi-step workflows using Model Context Protocol.

ToolathlonAgentic

10.5/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Long horizon real-world software tasks.

TAU-BenchAgentic

77.8/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Tool-use and API orchestration benchmark for assistants.

VideoMMMUVideo

83.6/ 100

Verified

Last Verified: 2025-11-18Gemini 3 Pro Announcement

Video variant of MMMU for multimodal understanding and reasoning.