Beta version: *Information might not be fully accurate. Please report any discrepancies.

Google DeepMindVerified14 benchmarks

Gemini 3.1 Pro

Released 2026-02-19Unknown Architecture

Verified Model Card

Latest Data

2026-02-19

Context Window

1.0M

tokens

Input Cost

$2.50

per 1M tokens

Output Cost

$15.00

per 1M tokens

Parameters

Unknown

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

SWE-bench VerifiedCoding

80.6/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

HLEScience

44.4/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Humanity's Last Exam - Hard reasoning benchmark without tools.

LiveCodeBench ProCoding

2887/ 4000

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Competitive programming problems from Codeforces, ICPC, and IOI with Elo rating.

GPQA DiamondSTEM

94.3/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Graduate-Level Google-Proof Q&A Benchmark.

MRCR v2Long Context

84.9/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Multi-Round Context Retrieval - 8-needle test.

MMMLUMultilingual

92.6/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Massive Multilingual Language Understanding.

ARC-AGI-2Reasoning

77.1/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Abstraction and Reasoning Corpus - Level 2 (Extreme difficulty).

MMMU-ProVision

80.5/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Professional level MMMU expansion.

Terminal-Bench 2.0Agentic

68.5/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

SWE-bench ProAgentic

54.2/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Higher-difficulty SWE-bench subset for frontier coding agents.

BrowseCompAgentic

85.9/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Web browsing + synthesis benchmark for research agents.

TAU-Bench RetailAgentic

90.8/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Retail-domain tool-use and workflow benchmark from τ²-bench.

TAU-Bench TelecomAgentic

99.3/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Telecom-domain tool-use and workflow benchmark.

SciCodeAdvanced Tasks

59/ 100

Verified

Last Verified: 2026-02-19Gemini 3.1 Pro Announcement

Scientific programming benchmark for code synthesis and correctness.