OpenAI o4-mini是什么
OpenAI o4-mini 是OpenAI推出的小型推理模型,专为快速、经济高效的推理而优化。OpenAI o4-mini 在数学、编程和视觉任务方面表现出色,是 AIME 2024 和 2025 基准测试中表现最佳的模型。OpenAI o4-mini 支持高容量、高吞吐量的推理任务,适合快速处理大量问题。OpenAI o4-mini 具备多模态能力,将图像融入思维链进行推理,支持工具使用,能快速生成详细且深思熟虑的答案。相比前代模型,OpenAI o4-mini 在性能和成本效益上有显著提升。目前ChatGPT Plus、Pro 和 Team 用户在模型选择器中能看到OpenAI o4-mini和 OpenAI o4-mini-high,取代、 和 o3‑mini‑high。ChatGPT Enterprise 和 Edu 用户将在一周内获得访问权限。支持开发者基于Chat Completions API和Responses API 使用模型。
OpenAI o4-mini的主要功能
- 快速推理:擅长快速处理数学、编程和视觉任务,适合高吞吐量场景。
- 多模态能力:结合图像和文本进行推理,支持图像处理。
- 工具使用:调用网络搜索、Python 编程等工具辅助解决问题。
- 性价比高:性能优于前代 o3-mini,价格不变,是升级的首选。
- 安全可靠:经过安全训练,支持拒绝不当请求。
OpenAI o4-mini的性能表现
- 数学推理:在AIME 2024 和 2025 基准测试中,OpenAI o4-mini在不开工具的情况下准确率高达93.4%,接入Python后准确率飙升至98.7%,接近满分。在复杂的数学问题解决能力上,OpenAI o4-mini 表现优于前代 o3-mini,在某些任务中接近完整版 o3。
- 编程能力:
- SWE-Lancer:OpenAI o4-mini 表现优异,支持高效完成复杂的编程任务,收益表现突出。
- SWE-Bench Verified(软件工程题库):OpenAI o4-mini 在常见算法、系统设计、API 调用等任务中表现卓越,准确率和效率均高于 o3-mini。
- Aider Polyglot Code Editing(多语言代码编辑基准):OpenAI o4-mini 在代码编辑任务中表现出色,包括整体重写和补丁式修改,性能都优于 o3-mini。
- 多模态能力:
- MMMU(大学水平的视觉数学题库):OpenAI o4-mini支持将图像和数学符号结合解题,准确率达到87.5%,远高于前代 o1 的71.8%。
- MathVista(视觉数学推理):OpenAI o4-mini 在几何图形、函数曲线等视觉数学推理任务中表现优异,准确率高达87.5%。
- CharXiv-Reasoning(科学图表推理):OpenAI o4-mini能理解科学论文中的图表和示意图,准确率达到75.4%,显著优于 o1 的55.1%。
- 工具使用:
- Scale MultiChallenge(多轮指令遵循):OpenAI o4-mini 支持处理复杂的多轮指令任务,正确理解执行多轮指令。
- BrowseComp Agentic Browsing(浏览器任务):基于虚拟浏览器搜索、点击、翻页并整合信息,表现接近 o3,远超传统AI搜索能力。
- Tau-bench 函数调用:在函数调用任务中表现稳定,支持准确生成结构化的API调用,复杂场景下需进一步优化。
- 综合测试:
- 专家级综合测试(Humanity’s Last Exam):在不开工具的情况下准确率为14.3%,借助插件后提升至17.7%,不及 o3 的24.9%,但在小型模型中表现优异。
- 跨学科PhD级科学题(GPQA Diamond):在科学题上的准确率为81.4%,稍低于 o3 的83.3%,在小型模型中已经非常出色。
OpenAI o4-mini的项目地址
OpenAI o4-mini的应用场景
- 教育辅导:帮助学生解决数学和编程问题。
- 数据分析:快速生成数据图表和分析结果。
- 软件开发:生成代码片段,辅助代码调试。
- 内容创作:提供创意灵感,结合图像生成描述。
- 日常查询:基于搜索和图像分析回答问题。