Evaluation record · openai-o4-mini

OpenAI o4-mini

vo4-mini-2025-04-16

OpenAI

Modeldeprecatedreasoningcode-generationmini-model

Strong

About This Model

DEPRECATED: removed from ChatGPT 2026-02-13; o4-mini API shuts down 2026-10-23 (o4-mini-deep-research shuts down 2026-07-23); OpenAI's recommended replacement is gpt-5.4-mini (gpt-5.5-pro for deep-research). Historically OpenAI's best small reasoning model (April 2025): 93% AIME, 68% SWE-bench, first mini with full tool support + multimodality.

Last Evaluated: July 9, 2026

Official Website

Trust Vector Analysis

Dimension Breakdown

🚀Performance & Reliability

Strong performance with efficient reasoning. Excellent HumanEval at 87.3% with fast latency.

task accuracy code

Industry-standard coding benchmarks

Evidence

SWE-bench Verified — 68.1% (vs o3's 69.1%, o3-mini's 49.3%)

HumanEval — 87.3% accuracy on code generation

highVerified: 2026-07-09

task accuracy reasoning

Competition-level reasoning benchmarks

Evidence

AIME 2024 & 2025 — 93.4% AIME 2024, 92.7% AIME 2025, 99.5% with Python

highVerified: 2026-07-09

task accuracy general

Comprehensive knowledge testing

Evidence

MMLU — 75.8% on comprehensive knowledge

highVerified: 2026-07-09

output consistency

Internal testing

Evidence

OpenAI Documentation — Good consistency with efficient reasoning

highVerified: 2026-07-09

latency p50

Median latency

Evidence

OpenAI Documentation — Fast response time ~1.8s

highVerified: 2026-07-09

latency p95

95th percentile

Evidence

Community benchmarking — p95 latency ~3.2s

highVerified: 2026-07-09

context window

Official specification

Evidence

OpenAI Documentation — 128K tokens

highVerified: 2026-07-09

uptime

Historical data

Evidence

OpenAI Status — 99.9% uptime

highVerified: 2026-07-09

🛡️Security

Good security with reasoning-enhanced safety.

prompt injection resistance

OWASP LLM01 testing

Evidence

OpenAI Safety — Strong resistance

highVerified: 2026-07-09

jailbreak resistance

Adversarial testing

Evidence

OpenAI Safety — Good jailbreak resistance

highVerified: 2026-07-09

data leakage prevention

Policy analysis

Evidence

OpenAI Privacy — Standard practices

mediumVerified: 2026-07-09

output safety

Safety testing

Evidence

OpenAI Safety — Comprehensive filtering

highVerified: 2026-07-09

api security

Security review

Evidence

OpenAI API — Enterprise security

highVerified: 2026-07-09

🔒Privacy & Compliance

Good privacy with SOC 2. 30-day retention minimum.

data residency

Documentation review

Evidence

OpenAI Enterprise — US-based

highVerified: 2026-07-09

training data optout

Policy analysis

Evidence

OpenAI Privacy — No API training by default

highVerified: 2026-07-09

data retention

Policy review

Evidence

OpenAI Policies — 30-day retention

highVerified: 2026-07-09

pii handling

Documentation review

Evidence

OpenAI Documentation — Customer responsible

mediumVerified: 2026-07-09

compliance certifications

Certification verification

Evidence

OpenAI Trust — SOC 2, GDPR

highVerified: 2026-07-09

zero data retention

Policy review

Evidence

OpenAI Enterprise — 30-day minimum

mediumVerified: 2026-07-09

👁️Trust & Transparency

Good transparency with visible reasoning. Strong safety guardrails.

explainability

Feature evaluation

Evidence

Chain-of-Thought — Visible reasoning

highVerified: 2026-07-09

hallucination rate

QA testing

Evidence

OpenAI Benchmarks — Reduced via reasoning

highVerified: 2026-07-09

bias fairness

Bias testing

Evidence

OpenAI Safety — Ongoing mitigation

mediumVerified: 2026-07-09

uncertainty quantification

Confidence assessment

Evidence

Model Behavior — Good expression

highVerified: 2026-07-09

model card quality

Documentation review

Evidence

OpenAI Docs — Comprehensive docs

highVerified: 2026-07-09

training data transparency

Disclosure review

Evidence

OpenAI Research — General description

mediumVerified: 2026-07-09

guardrails

Safety analysis

Evidence

OpenAI Safety — Comprehensive guardrails

highVerified: 2026-07-09

⚙️Operational Excellence

Deprecated: removed from ChatGPT 2026-02-13; o4-mini API shutdown scheduled 2026-10-23, recommended replacement gpt-5.4-mini (verified against OpenAI deprecations page 2026-07-09). Versioning and ecosystem scores reduced to reflect deprecation.

api design quality

API review

Evidence

OpenAI API — Well-designed

highVerified: 2026-07-09

sdk quality

SDK review

Evidence

OpenAI SDKs — High-quality

highVerified: 2026-07-09

versioning policy

Policy review

Evidence

OpenAI Versioning — Clear policy

OpenAI Deprecations — o4-mini-2025-04-16 / o4-mini (and ft-o4-mini) API shutdown 2026-10-23, recommended replacement gpt-5.4-mini; o4-mini-deep-research shutdown 2026-07-23, replacement gpt-5.5-pro

highVerified: 2026-07-09

monitoring observability

Tool review

Evidence

OpenAI Platform — Good dashboard

highVerified: 2026-07-09

support quality

Support assessment

Evidence

OpenAI Support — Good support

highVerified: 2026-07-09

ecosystem maturity

Ecosystem analysis

Evidence

OpenAI Ecosystem — Mature

highVerified: 2026-07-09

license terms

Terms review

Evidence

OpenAI Terms — Standard commercial

highVerified: 2026-07-09

Strengths

+Strong HumanEval performance (87.3%)
+Fast latency (1.8s p50) for a reasoning model
+Good value with reasoning at mini pricing
+Visible chain-of-thought reasoning
+Strong mathematical capabilities
+Comprehensive safety guardrails

Limitations

!30-day data retention (not ephemeral)
!Not HIPAA eligible by default
!Lower than o4-mini on some benchmarks
!Mini model limitations for complex reasoning
!Reasoning overhead for simple tasks
!Moderate general knowledge (75.8% MMLU)
!DEPRECATED: removed from ChatGPT 2026-02-13; o4-mini API shutdown 2026-10-23 — migrate to gpt-5.4-mini

Metadata

pricing

input: $1.10 per 1M tokens

output: $4.40 per 1M tokens

notes: Budget-friendly reasoning model pricing (standard tier; Flex processing is discounted). Pricing applies until API shutdown 2026-10-23.

last verified: 2026-07-09

context window: 128000

languages

0: English

1: Spanish

2: French

3: German

4: Italian

5: Portuguese

6: Japanese

7: Korean

8: Chinese

modalities

0: text

api endpoint: https://api.openai.com/v1/chat/completions

open source: false

architecture: Transformer-based with efficient chain-of-thought

parameters: Not disclosed

Use Case Ratings

code generation

Strong coding with 87.3% HumanEval. Fast latency great for development workflows.

customer support

Good but reasoning may add latency. Better for complex support.

content creation

Adequate but reasoning may be unnecessary for creative tasks.

data analysis

Strong analytical capabilities with efficient reasoning.

research assistant

Good research with visible reasoning at affordable pricing.

legal compliance

Good reasoning but 30-day retention may be concern.

healthcare

Not HIPAA eligible by default.

financial analysis

Strong analytical capabilities at reasonable pricing.

education

Excellent for education with visible reasoning and good value.

creative writing

Adequate but reasoning may hinder creativity.

Similar Models

GPT-5.5

OpenAI

OpenAI o3-mini

OpenAI

Claude Sonnet 4.5

Anthropic