Beta version: *Information might not be fully accurate. Please report any discrepancies.

AnthropicVerified24 benchmarks

Claude Opus 4.7

Released 2026-04-16Unknown Architecture

Verified Model Card

Latest Data

2026-05-21

Context Window

1.0M

tokens

Input Cost

$5.00

per 1M tokens

Output Cost

$25.00

per 1M tokens

Parameters

Unknown

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

SWE-bench VerifiedCoding

87.6/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Resolving real-world GitHub issues. Verified subset ensures solvable issues.

LMArena ELOReal-world

1492/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

Chatbot Arena ELO score. Crowd-sourced human preference ranking.

LMArena WebDev ELOCoding

1560/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

WebDev Arena ELO score. Human preference ranking for web development tasks.

LMArena Vision ELOVision

1304/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

Vision Arena ELO score. Human preference ranking for multimodal vision tasks.

LMArena Search ELOReal-world

1237/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

Search Arena ELO score. Human preference ranking for search-augmented generation.

LMArena Document ELOVision

1510/ 1700

Verified

Last Verified: 2026-05-21Chatbot Arena Leaderboard

Document Arena ELO score. Human preference ranking for document understanding.

HLE-FullScience

46.9/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Humanity's Last Exam full evaluation without tools.

HLE-Full (w/ tools)Science

54.7/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Humanity's Last Exam full evaluation with tool access enabled.

CyberGymCoding

73.1/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Cybersecurity-flavored coding benchmark in simulated environments.

GPQA DiamondSTEM

94.2/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Graduate-Level Google-Proof Q&A Benchmark.

MMMLUMultilingual

91.5/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Massive Multilingual Language Understanding.

Graphwalks BfsLong Context

58.6/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Traversal-based long context reasoning using BFS (128k).

ScreenSpot-ProVision

79.5/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Screen understanding benchmark for GUI interaction.

CharXiv ReasoningVision

82.1/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Information synthesis from complex charts.

Terminal-Bench 2.0Agentic

69.4/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Agent performance in realistic terminal workflows (v2.0 leaderboard).

OSWorld-VerifiedAgentic

78/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Verified desktop computer-use benchmark for end-to-end task completion.

SWE-bench ProAgentic

64.3/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Higher-difficulty SWE-bench subset for frontier coding agents.

SWE MultilingualAgentic

80.5/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Software engineering performance across multilingual codebases.

BrowseCompAgentic

79.3/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Web browsing + synthesis benchmark for research agents.

MCP AtlasAgentic

77.3/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Multi-step workflows using Model Context Protocol.

Finance AgentAgentic

64.4/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Financial analysis and reasoning benchmark for agentic workflows.

OfficeQA ProAgentic

80.6/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Advanced document reasoning and office task completion benchmark.

Structural BiologySTEM

74/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Protein structure and molecular biology reasoning benchmark.

SWE-Bench MultimodalCoding

34.5/ 100

Verified

Last Verified: 2026-04-16Claude Opus 4.7 Announcement

Software engineering benchmark with multimodal inputs.