Benchmarks - AI Benchmark

Coding

HumanEval

Function-level code generation with unit tests.

Metrics: pass@1 (%)

Paper Dataset

Coding

SWE-bench Pro

Harder version of SWE-bench for professional coding tasks.

Metrics: Resolved (%)

Paper Dataset

Coding

SWE-bench Verified

Real GitHub issues from popular repositories. Gold standard for coding.

Metrics: Resolved (%)

Paper Dataset

Japanese

ELYZA-tasks-100

100 questions requiring Japanese knowledge and reasoning by ELYZA.

Metrics: Score (0-5)

Dataset

Japanese

JCommonsenseQA

Japanese commonsense reasoning QA dataset with 5-choice questions.

Metrics: Accuracy (%)

Paper Dataset

Japanese

JGLUE

Japanese General Language Understanding Evaluation - text classification, sentence pairs, QA.

Metrics: Accuracy (%)

Paper Dataset

Japanese

Japanese MT-Bench

Japanese version of MT-Bench for multi-turn conversation evaluation.

Metrics: Score (1-10)

Dataset

Japanese

Nejumi 4

Comprehensive Japanese LLM evaluation covering reasoning, knowledge, coding, safety.

Metrics: Score (0-1)

Dataset

Knowledge

MMLU-Pro

Harder version of MMLU with 10 answer choices.

Metrics: Accuracy (%)

Paper Dataset

Math

AIME 2025

American Invitational Mathematics Examination 2025.

Metrics: Accuracy (%)

Dataset

Math

FrontierMath

Cutting-edge mathematics problems (Tiers 1-3).

Metrics: Accuracy (%)

Paper Dataset

Overall

LMArena ELO

Human preference ranking from blind comparisons.

Metrics: ELO Score

Paper Dataset

Reasoning

ARC-AGI-2

Abstraction and Reasoning Corpus for AGI evaluation.

Metrics: Accuracy (%)

Paper Dataset

Reasoning

GPQA Diamond

PhD-level scientific reasoning across biology, physics, and chemistry.

Metrics: Accuracy (%)

Paper Dataset

Vision

MMMU-Pro

Massive Multi-discipline Multimodal Understanding (harder version).

Metrics: Accuracy (%)

Paper Dataset