Beta version: *Information might not be fully accurate. Please report any discrepancies.

Google DeepMindVerifiedOpen Weights14 benchmarks

Gemma 4 E2B IT

Released 2026-04-022.3B effective (5.1B with embeddings) Architecture

Verified Model Card

Latest Data

2026-04-02

Context Window

128k

tokens

Input Cost

Free

per 1M tokens

Output Cost

Free

per 1M tokens

Parameters

2.3B effective (5.1B with embeddings)

model footprint

Benchmark Provenance

Performance Analysis // Verified Benchmarks

MMLU-ProScience

60/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

A more robust and harder version of MMLU, focusing on complex reasoning and STEM subjects.

AIME 2026Math

37.5/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Future prediction of AIME performance levels.

CodeforcesCoding

633/ 4000

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Competitive programming rating based on problem solving.

LiveCodeBench v6Coding

44/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Contamination-free coding benchmark using recent problems.

GPQA DiamondSTEM

43.4/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Graduate-Level Google-Proof Q&A Benchmark.

MRCR v2Long Context

19.1/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Multi-Round Context Retrieval - 8-needle test.

MMMLUMultilingual

67.4/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Massive Multilingual Language Understanding.

BigBench Extra HardReasoning

21.9/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Extra-hard subset of BIG-bench focusing on challenging reasoning and knowledge tasks.

MathVisionVision

52.4/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Comprehensive mathematical vision benchmark.

MMMU-ProVision

44.2/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Professional level MMMU expansion.

OmniDocBench 1.5Vision

0.29/ 1

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

OCR benchmark measuring edit distance (lower is better).

MedXPertQA MMVision

23.5/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Multimodal medical question answering benchmark.

CoVoSTMultimodal

33.47/ 100

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Multilingual speech-to-text translation benchmark.

FLEURSMultimodal

0.09/ 1

Verified

Last Verified: 2026-04-02Gemma 4 Announcement

Few-shot learning evaluation of universal representations of speech. Error rate (lower is better).