Beta version: *Information might not be fully accurate. Please report any discrepancies.

CohereVerified19 benchmarks

Command A

Released 2025-05-01Proprietary Architecture

Training: 2025-03

Verified Official Model Card

Latest Data

2026-02-16

Context Window

256k

tokens

Input Cost

$1.00

per 1M tokens

Output Cost

$4.00

per 1M tokens

Parameters

Proprietary

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MMLU (5-shot)Knowledge

83*/ 100

Unverified

Last Verified: Unknown DateArtificial Analysis (Independent)

Massive Multitask Language Understanding covers 57 subjects across STEM, the humanities, social sciences, and more.

HumanEvalCoding

84.5*/ 100

Unverified

Last Verified: Unknown DateArtificial Analysis (Independent)

Functional correctness of synthesized programs from docstrings.

MMMU (Multimodal)Multimodal

62.4*/ 100

Unverified

Last Verified: Unknown DateArtificial Analysis (Independent)

Multi-discipline Multimodal Understanding and Reasoning.

AIME 2024/25Math

9.7*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

American Invitational Mathematics Examination. Competition-level math.

LMArena ELOReal-world

1310/ 1700

Verified

Last Verified: Unknown DateCohere

Chatbot Arena ELO score. Crowd-sourced human preference ranking.

AA Intelligence IndexReal-world

13.4*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate intelligence index.

MMLU-ProScience

71.2*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

HLEScience

4.6*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Humanity's Last Exam - Hard reasoning benchmark without tools.

AA Math IndexMath

13*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate math capability index.

MATH-500Math

81.9*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

500-problem math benchmark for broad quantitative reasoning.

LiveCodeBench v6Coding

28.7*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Contamination-free coding benchmark using recent problems.

AA Coding IndexCoding

9.9*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis aggregate coding capability index.

GPQA DiamondSTEM

52.7*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Graduate-Level Google-Proof Q&A Benchmark.

AA-LCRLong Context

18*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis Long Context Reasoning benchmark. Evaluates reasoning over long contexts.

IFBenchInstruction Following

36.5*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Artificial Analysis IFBench. Evaluates precise instruction following with constraints.

AIME 2025Math

13*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

American Invitational Mathematics Examination 2025 problems.

Terminal-Bench HardAgentic

0.8*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Hard split of Terminal-Bench focused on tougher terminal workflows.

TAU-Bench TelecomAgentic

15.2*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Telecom-domain tool-use and workflow benchmark.

SciCodeAdvanced Tasks

28.1*/ 100

Third-party

Last Verified: 2026-02-16Artificial Analysis (Independent)

Scientific programming benchmark for code synthesis and correctness.