编者按:本文来自微信公众号 腾讯科技(ID:qqtech),作者:无忌,编辑:郑可君,创业邦经授权转载。
2025年8月6日凌晨(美东时间8月5日),OpenAI又一次搅动AI行业:再次回归开源,并发布两款全新的大语言模型:gpt-oss-120b和gpt-oss-20b。
这两款模型完全免费,允许企业和独立开发者下载代码并根据需求修改,且可本地运行以确保最大隐私,此外,还可以在高端笔记本和手机上运行。
这是自2019年GPT-2开源后,该公司时隔六年重返开放生态。值得注意的是,这两款模型属于开放权重(open-weight)大语言模型,不提供训练数据和完整训练代码,但权重可以公开获取、可以下载、自主部署,授权方式为Apache2.0。
模型规格与性能亮点:分别适用两个不同场景
gpt-oss-120b:这款模型拥有1170亿总参数,每token激活51亿参数,适用于高推理能力的生产级和通用场景,可在单块80GB显存的Nvidia H100 GPU上高效运行。
gpt-oss-20b:总参数210亿,每token激活36亿参数,专为低延迟、本地化或专业场景设计,仅需 16GB 内存即可在边缘设备(如消费级笔记本电脑或台式机)上运行。
两款模型均为纯文本语言模型,在文本处理、代码生成、数学问题求解等领域表现强劲。
OpenAI同时还发布了34页技术报告。
根据技术报告显示,gpt-oss-120b在多项基准测试中媲美甚至超越其专有模型o4-mini,包括编程竞赛(Codeforces)、通用问题解决(MMLU和HLE)、工具调用(TauBench)、健康相关查询(HealthBench)以及数学竞赛(AIME 2024 & 2025)。
在部分测试中,其性能甚至优于旗舰模型GPT-4o。而较小的gpt-oss-20b则与o3-mini性能相当,在AIME和HealthBench等测试中表现更佳。
两款模型支持多语言处理,尤其在STEM、编程和通用知识领域表现出色。
OpenAI表示,通过本地化微调(如与瑞典政府合作的瑞典语优化版本),可进一步提升特定语言或区域的性能。此外,模型支持链式推理(CoT),同时兼容工具调用、少样本函数调用和结构化输出,特别适合复杂代理任务。
技术架构:混合专家(MoE)架构,部署成本低
gpt-oss模型采用混合专家(MoE)架构,基于Transformer框架,通过交替使用密集注意力和局部带状稀疏注意力机制,结合分组多查询注意力(组大小为8)和旋转位置编码(RoPE),实现高效推理和内存利用,支持高达128,000 token的上下文长度(约300-400页小说文本)。
模型使用开源的o200k_harmony分词器,为OpenAI o4-mini和GPT-4o分词器的超集,同步在GitHub发布。
开发者可通过低、中、高三种推理投入设置,根据延迟和性能需求灵活调整。模型未对CoT输出进行直接监督训练,以保留推理过程的透明性,便于调试和安全监控。
模型采用原生MXFP4量化技术,使gpt-oss-120b能在单张H100 GPU上运行,gpt-oss-20b仅需16GB内存即可部署,极大降低了硬件门槛。
宽松许可:可免费下载、微调,并支持本地运行
gpt-oss系列采用Apache 2.0许可,与中国开源模型(如DeepSeek、Qwen 3)一致,无copyleft限制或专利风险,相较于Meta Llama的复杂许可(月活跃用户超7亿需付费)更加企业友好。
任何消费者、开发者或企业可免费下载模型,进行参数级微调以适配特定用例,并用于商业服务或创收,无需向OpenAI支付费用。
更重要的是,模型支持本地运行,无需联网,数据无需上传至云端,满足金融、医疗、法律、军事及政府等高度监管行业的数据隐私需求。此前,ChatGPT或OpenAI API用户的数据需上传至云端,可能面临政府调取风险。而gpt-oss的本地运行能力为隐私敏感用户提供了强大解决方案。不过,若连接外部工具(如网络搜索),可能因第三方服务引入隐私风险。
为何重返开源:全球热潮已无法阻挡
OpenAI上一次发布完全开源模型是2019年的GPT-2,此后专注于付费专有模型,引发前联合创始人Elon Musk等批评,指责其背弃开源使命。
Altman在2025年2月Reddit AMA中表达遗憾,并承诺3月发布新开源模型,尽管计划从7月推迟至今日。
此次回归开源是对全球开源AI热潮的回应。2025年初以来,中国(DeepSeek R1、Qwen 3、Kimi K2、GLM-4.5)、欧洲(Mistral)和中东(Falcon 2/3)推出的开源模型性能逼近专有模型,且几乎无使用限制。Hugging Face数据显示,Qwen2.5-7B、DeepSeek-R1等模型下载量居前,反映开发者热情。
OpenAI的ChatGPT周活跃用户达7亿,年收入130亿美元,付费企业客户增至500万,每日消息量超30亿。
近期83亿美元融资,让它的估值已达3000亿美元。然而,开源模型的免费和高性能可能分流付费用户。竞争对手Anthropic年收入50亿美元,API收入(31亿美元)略高于OpenAI(29亿美元)。
开源模型的崛起让OpenAI面临核心问题:当免费模型性能接近专有模型,用户为何继续付费?
奥特曼曾表示,AI可能“廉价到无法计量”,这对AI行业高估值构成挑战。
OpenAI正通过提供企业定制服务(如派遣工程师协助部署和培训,类似Palantir的“前向部署”模式)探索新收入来源。
未来,AI使用可能向开源模型倾斜,而OpenAI需凭借便捷界面、多模态功能或更强大性能维持付费用户吸引力。
模型获取方式与安全措施
gpt-oss-120b和gpt-oss-20b现已在以下平台开放下载,包含完整模型权重:
Hugging Face:gpt-oss-120b(https://huggingface.co/openai/gpt-oss-120b)、gpt-oss-20b(https://huggingface.co/openai/gpt-oss-20b)
GitHub:https://github.com/openai/gpt-oss
技术报告与模型卡:https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
在线体验:https://gpt-oss.com/
模型支持Azure、AWS、Databricks、Cloudflare、Vercel、Together AI和OpenRouter等部署平台,NVIDIA、AMD、Cerebras提供硬件优化,Microsoft通过ONNX Runtime提供Windows GPU支持。OpenAI还推出50万美元的Kaggle红队挑战赛,鼓励研究人员探索模型潜在风险,并计划发布公开报告和开源评估数据集,以推动开源模型安全研究。早期采用者如AI Sweden、Orange和Snowflake已与OpenAI合作,探索本地化微调和安全部署用例。
安全评估方面,OpenAI采用其Preparedness Framework进行安全训练,预训练阶段过滤了涉及化学、生物、放射性和核威胁(CBRN)的数据,并通过审议对齐和指令层级等后训练方法限制有害输出。为测试最坏情况下的滥用风险,OpenAI对gpt-oss-120b进行了针对生物和网络安全数据的恶意微调,模拟现实攻击场景。结果显示,即便在启用工具功能且禁用拒绝响应机制的情况下,模型在生物风险和网络安全领域的表现仍低于“高危”阈值,结论经三家独立专家组验证。
OpenAI还与SecureBio合作,进行了生物学相关基准测试(如HPCT和MBCT),结果显示微调后的gpt-oss模型性能接近o3,但未达到高风险分类。这些评估支持了模型的公开释放,并旨在推动开源模型在复杂领域的安全研究。
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。