OpenAI o3是什么

OpenAIo3是o1推理模型的升级版本。o3系列包括全功能的o3以及专为特定任务优化的精简版o3-mini。发布这一新模型的初衷是为了规避与英国电信运营商O2的商标冲突,因此跳过了o2直接命名为o3。OpenAI在

OpenAI o3是o1推理模型的升级版本。o3系列包括全功能的o3以及专为特定任务优化的精简版o3-mini。发布这一新模型的初衷是为了规避与英国电信运营商O2的商标冲突,因此跳过了o2直接命名为o3。

OpenAI 在经历 12 天技术分享直播活动后于当地时间 2024 年 12 月 21 日发布了 o3 系列模型,这是 o1 推理模型的升级版本,由于可能与英国电信运营商 o2 存在版权或商标冲突,所以跳过 o2 直接命名为 o3。o3 包含 o3 和 o3-mini 两个版本,其中 o3-mini 是精简版模型,针对特定任务进行了微调。

OpenAI o3是什么

OpenAI 计划明年 1 月正式发布 o3 系列模型,目前从 2024 年 12 月 21 日开始允许安全研究人员注册访问 o3 和 o3-mini 的预览,o3-mini 预计 1 月向所有用户推出,完整版 o3 则后续发布。

在 o3 的研发中,有北大校友任泓宇参与研发,任泓宇本科毕业于北大,对 o1 有过基础性贡献,也是 GPT-4o 的核心开发者,曾有丰富的研究实习经历。

OpenAI o3 性能表现

与 o1 对比

在软件工程测试中,o3 准确率比 o1 高近 47%;在竞赛数学测评中,准确率比 o1 高 15%;在人类博士专家级生化物测试中,准确率比 o1 高近 13%。

在 SweepBenchVerified 基准测试中,o3 达到约 71.7%的准确率,比 o1 模型高 20%;在编程竞赛平台 Codeforces 上,o1 得分为 1891,o3 的表现已经接近甚至超越人类专业程序员的实力(演示人员 MarkChen 得分 2500 作参照);在美国数学竞赛 AIME2024 测试中,o1 的准确率为 83.3%,o3 为 90.67%。

在 AGI 相关测试中的表现

在 ARC-AGI 图形逻辑推理基准上,低计算场景中,o3 得分为 75.7%,高计算测试中达到 87.5%,超过了标志着达到人类水平的门槛 85%,而 o1 模型的得分仅在 25%到 32%之间。作为对比,GPT-3 的评测结果为 0%,GPT-4o 为 5%。

在全新的数学测试 EpochAIFrontierMath(被认为是当前最具挑战性的数学评估之一)中,所有现有模型在该测试上的准确率都不足 2%,而在高算力的长时间测试下,o3 却能取得超过 2457 的分数。

o3-mini 的表现

在衡量编程能力的 Codeforces Elo 评分中,随着推理时间的增加,o3-mini 的 Elo 分数持续攀升,在中等推理时间下就已超越 o1-mini。在 AIME 数学基准测试中,其低推理模式就达到了与 o1-mini 相当的性能,中等推理模式更是超越了 o1-mini,且延时更低。在 GPQA 数据集测试中,o3-mini 以低推理模式完成了复杂数据集的评估,准确率达到 61.62%。

对编程领域的影响

在 Codeforces 世界级编程比赛中,OpenAI o3 取得了 175 名的顶尖成绩(17 万程序员里的排名),o1 大概战胜 90%多的程序员,之前 GPT-4o 只战胜 11%的程序员。傅盛认为,o3 的发布标志着大语言模型的编程能力超越了 99.9%的程序员,虽然说程序员不存在了可能稍微有点夸张,但程序员更多的是要比拼对用户需求的理解、大逻辑的构建,而具体把需求变成代码的工作将很大程度上由 AI 完成。

本站部分文章来自网络或用户投稿。涉及到的言论观点不代表本站立场。发布者:星空,如若本篇文章侵犯了原著者的合法权益,可联系我们进行处理。本文链接:https://www.fajihao.com/i/4787.html

(0)
星空的头像星空
上一篇 2025年1月18日 上午3:04
下一篇 2025年1月18日 上午3:04

相关推荐

  • 如何存储大量的照片和视频

    存储大量照片和视频,可选择:移动硬盘(大容量、便携)、云存储(随时访问、异地备份)、NAS(高安全性、共享存储)和SSD(快速读写);建议结合多种方式,主存储用硬盘,重要数据使用云存储或双重备份,确保数据安全。随着智能手

    2025年1月18日
    00
  • 初学者如何挑选适合自己的第一台相机

    初学者应先明确预算和拍摄用途(如日常记录、人像、风景或视频拍摄);预算有限可选择轻便卡片机或入门微单(如佳能M200);计划深入学习摄影则可选配可更换镜头的微单或单反(如索尼A6100);选购时关注传感器尺寸、对焦系统、

    2025年1月18日
    10
  • USB接口和雷电接口的区别是什么

    USB-A是常见的方形接口,适合连接鼠标键盘等设备;USB-B多用于打印机和扫描仪;USB-C小巧对称,支持正反插,速度快,逐渐成为主流;雷电接口采用USB-C外形,速度高达40Gbps,支持数据传输、视频输出和充电,是

    2025年1月18日
    00
  • 如何解决Windows 10中的应用程序闪退问题

    Windows10中应用程序闪退可能由系统更新问题、软件兼容性、驱动问题或硬件资源不足等引起;解决方法包括更新系统和应用、运行兼容性模式、清理缓存和临时文件、修复系统文件(SFC工具)、更新驱动、调整虚拟内存以及扫描病

    2025年1月18日
    00
  • 电脑有必要一晚一关机吗

    电脑是否每天关机取决于使用情况:短时间不用可选择睡眠模式,方便快速恢复工作;长时间不用建议关机,节能且保护硬件;现代电脑设计耐用,偶尔保持开机问题不大,但每隔2-3天重启一次,能清理系统缓存,保持电脑流畅。很多人每天使用

    2025年1月18日
    10

联系我们

在线咨询: QQ交谈

邮件:5733401@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息