OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史

北京/设计爱好者/80天前/17浏览
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
今天凌晨1点,OpenAI进行了技术直播,发布了全球科技圈期待已久的GPT-5。
GPT-5首次使用了内嵌式三位一体集成架构,彻底颠覆了前代模型的独立运行模式,一共由3个核心模型组成,分别是处理常规问题的GPT-5-main模型、解决复杂任务的GPT-5-thinking深度思考模型、实时决策的路由机制,还有一个是额度使用完后启动的mini版本。
实时决策的路由机制是主要创新,该机制会根据对话类型、复杂程度、工具需求以及你的明确意图,快速决定使用哪个模型,相当于马路中的“交通指挥员”,会用最适合的模型来解决适合你所提出的问题。
路由机制会持续接受真实信号的训练,包括用户切换模型的情况、对回应的偏好率以及测得的正确性等,其性能会随着时间不断提升。
值得一提的是,免费版ChatGPT也可以使用GPT-5,不过会有额度限制,达到限制后可使用GPT-5-mini版本。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
根据OpenAI公开的测试数据显示,GPT-5在数学、编码、视觉感知和健康的表现全部大幅度超越前代,成为目前最强大模型。
在健康领域,通过HealthBench评估体系对GPT-5模型家族进行了全面测试,涵盖HealthBench、HealthBench Hard和HealthBench Consensus等多个维度,并与前代OpenAI模型进行对比。
结果显示,GPT-5-thinking在该领域的表现大幅超越包括GPT-4o、o1、o3和o4-mini在内的所有前代模型。其中,在HealthBench Hard这一挑战性评估中,其得分从o3的31.6%提升至46.2%成为目前最佳。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
数学方面在2025年美国AIME测试中无工具得分94.6%,使用Python是99.6%,如果是Pro专业版+Python可达到100%,同样大幅度超过了o3模型。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
在SWE-bench软件测试中,GPT-5启动思考模式下达到了74.9%,超过了o3的69.1以及4o的30.8,成为目前最强编码模型。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
这里有一个小插曲,OpenAI在直播介绍GPT-5的SWE-bench测试数据时,o3的图表高度是错误的,居然和4o的一样。
安全与幻觉方面,在特定潜在错误领域,GPT-5-thinking的挑战性对话幻觉率较OpenAI o3降超8倍,高风险场景错误率较GPT-4o降超50倍,在全球健康背景适应方面零失误。
在应用场景方面,编码是GPT-5最突出的核心能力,只需要几句话就能自动快速完成应用的开发,例如,输入提示词:创建的单页应用是一个名为“Jumping Ball Runner”的游戏,以单个HTML文件呈现。游戏目标是让玩家操控球跳跃越过障碍物,尽可能长时间地生存下去。
这款游戏具备多项特色功能,包括随着游戏进行不断加快的速度、最高分记录功能、重试按钮,以及为各类动作和事件配备的趣味音效。在视觉设计上,用户界面色彩丰富,搭配视差滚动背景,营造出层次感和动态效果;游戏角色采用卡通风格设计,造型有趣,观赏性强,旨在让所有年龄段的玩家都能从中获得乐趣。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
也可以制作交互式内容来解释像伯努利效应这样的复杂概念,在几分钟内就能生成数百行代码。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
GPT-5只用了5分钟就快速开发了一个财务分析模版,而使用传统方法要花费好几个小时。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
只需要几句提示词,就能制作一个可交互式的类塔防游戏,还可以选择与不同的角色对话,增加可玩性和动作。
也可以用GPT-5几分钟自动开发一个学习法语的网络应用,功能需求包括一个类似贪吃蛇的游戏,游戏中有老鼠、奶酪和法语单词。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
GPT-5在开发应用程序、绘制图表、解读代码、开发AI Agent方面非常出色,不会任何代码的路人也能快速开发出自己想要的应用。
训练数据方面,与OpenAI之前的模型一样,GPT-5的训练数据来源广泛,包括互联网上公开的信息、与第三方合作获取的信息,以及用户或训练师生成的信息。为了确保数据的质量和降低潜在风险,采用了严格的数据处理流程。
包括先进的数据过滤技术,用于减少训练数据中的个人信息,同时通过Moderation API和安全分类器,防止有害或敏感内容的使用。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
在训练方法上,GPT-5的推理模型,包括GPT-5-thinking、GPT-5-thinking-mini和GPT-5-thinking-nano采用了强化学习技术。这些模型在训练过程中被教导在回答问题之前先进行思考,先生成一个内部的思考链,然后再向用户做出回应。通过这种方式,模型能够学习到如何优化思考过程,尝试不同的策略,并识别自己的错误。
OpenAI刚刚发布GPT-5,免费使用、疯狂屠榜,一夜改写AI历史
Collect
从今天开始,GPT-5开始向所有Plus、Pro、团队及免费用户推出,企业和教育用户将在一周后获得访问权限。Pro、Plus和团队用户还可通过ChatGPT登录,在Codex命令行界面(Codex CLI)中使用GPT-5进行编码。
与GPT-4o相同,免费用户与付费用户在GPT-5访问权限上的差异体现在使用量上。Pro订阅用户可无限使用GPT-5,并能访问GPT-5 Pro。
Plus用户可将其作为日常问题的默认模型放心使用,使用额度显著高于免费用户。团队、企业和教育客户也能将GPT-5作为日常工作的默认模型轻松使用,其宽松的使用限制让整个组织都能便捷地依赖GPT-5。
关于ChatGPT免费用户,完整的推理功能可能需要几天时间才能全面推出。一旦免费用户达到GPT-5的使用限额,系统将自动切换至GPT-5-mini版本,这是一个更小、更快且仍具备强大功能的模型。
0
Report
|
收藏
Share
相关推荐
评论
in to comment
Add emoji
喜欢TA的作品吗?喜欢就快来夸夸TA吧!
推荐素材
You may like
装东西Packing.
Homepage recommendation
王的朋友 & KING FRIENDS
Homepage recommendation
相关收藏夹
ip形象设计+表情包
ip形象设计+表情包
ip形象设计+表情包
ip形象设计+表情包
精选收藏夹
作品收藏夹
企业展厅/文化墙 参考
企业展厅/文化墙 参考
企业展厅/文化墙 参考
企业展厅/文化墙 参考
精选收藏夹
作品收藏夹
小家电
小家电
小家电
小家电
精选收藏夹
作品收藏夹
企业展厅
企业展厅
企业展厅
企业展厅
精选收藏夹
作品收藏夹
IP形象及IP内容
IP形象及IP内容
IP形象及IP内容
IP形象及IP内容
精选收藏夹
作品收藏夹
IP形象——动物类
IP形象——动物类
IP形象——动物类
IP形象——动物类
精选收藏夹
作品收藏夹
大家都在看
Log in