Beta version: *Information might not be fully accurate. Please report any discrepancies.

Google DeepMindVerified12 benchmarks

Gemini 3.5 Flash

Released 2026-05-01Unknown Architecture

Verified Model Card

Latest Data

2026-05-21

Context Window

1.0M

tokens

Input Cost

$1.50

per 1M tokens

Output Cost

$9.00

per 1M tokens

Parameters

Unknown

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

LMArena ELOReal-world

1480/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

Chatbot Arena ELO score. Crowd-sourced human preference ranking.

LMArena WebDev ELOCoding

1507/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

WebDev Arena ELO score. Human preference ranking for web development tasks.

MMLU-ProScience

78.3/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLEScience

40.2/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Humanity's Last Exam - Hard reasoning benchmark without tools.

GPQA DiamondSTEM

90.4/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Graduate-Level Google-Proof Q&A Benchmark.

ARC-AGI-2Reasoning

72.1/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Abstraction and Reasoning Corpus - Level 2 (Extreme difficulty).

MMMU-ProVision

83.6/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Professional level MMMU expansion.

Terminal-Bench 2.0Agentic

76.2/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

OSWorld-VerifiedAgentic

78.4/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Verified desktop computer-use benchmark for end-to-end task completion.

SWE-bench ProAgentic

55.1/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Higher-difficulty SWE-bench subset for frontier coding agents.

MCP AtlasAgentic

83.6/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Multi-step workflows using Model Context Protocol.

Finance AgentAgentic

57.9/ 100

Verified

Last Verified: 2026-05-01Gemini 3.5 Flash Announcement

Financial analysis and reasoning benchmark for agentic workflows.