Loading
OpenAI 突破传统微调,RFT 技术可精准定制 o4-mini 模型
轩灵博客 - 学习新技能,提升自我从这里开始

OpenAI 突破传统微调,RFT 技术可精准定制 o4-mini 模型

新闻发布
8小时前发布 /正在检测是否收录...

5 月 9 日消息,科技媒体 marktechpost 今天(5 月 9 日)发布博文,报道称 OpenAI 公司在其 o4-mini 推理模型上,推出了强化微调技术(Reinforcement Fine-Tuning, 简称 RFT),为定制基础模型以适应特定任务带来了突破性工具。

OpenAI 的强化微调技术(RFT)将强化学习原理融入语言模型的微调过程。开发者不再仅依赖标注数据,而是通过设计任务特定的评分函数(grader)来评估模型输出。

这些评分函数根据自定义标准(如准确性、格式或语气)为模型表现打分,模型则通过优化奖励信号逐步学习,生成符合期望的行为。这种方法尤其适合难以定义标准答案的复杂任务,例如医疗解释的措辞优化,开发者可通过程序评估清晰度与完整性,指导模型改进。

o4-mini 是 OpenAI 于 2025 年 4 月发布的一款紧凑型推理模型,支持文本和图像输入,擅长结构化推理和链式思维提示(chain-of-thought prompts)。

通过在 o4-mini 上应用 RFT,OpenAI 为开发者提供了一个轻量但强大的基础模型,适合高风险、领域特定的推理任务,其计算效率高,响应速度快,非常适合实时应用场景。

多家早期采用者已展示 RFT 在 o4-mini 上的潜力,凸显 RFT 在法律、医疗、代码生成等领域的定制化优势,附上相关案例如下:

  • Accordance AI 开发税务分析模型,准确率提升 39%;

  • Ambience Healthcare 优化医疗编码,ICD-10 分配性能提升 12 个百分点;

  • 法律 AI 初创公司 Harvey 提升法律文档引文提取的 F1 分数 20%;

  • Runloop 改进 Stripe API 代码生成,性能提升 12%;

  • 调度助手 Milo 和内容审核工具 SafetyKit 也分别取得显著进步。

使用 RFT 需完成四步:设计评分函数、准备高质量数据集、通过 OpenAI API 启动训练任务,以及持续评估和优化。

RFT 目前向认证组织开放,训练费用为每小时 100 美元,若使用 GPT-4o 等模型作为评分工具,额外按标准推理费率计费。OpenAI 还推出激励措施,同意共享数据集用于研究的组织可享受 50% 的训练费用折扣。


该内容转自IT之家

本文共 566 个字数,平均阅读时长 ≈ 2分钟
喜欢就支持一下吧
点赞 10 分享 赞赏
评论 抢沙发
取消 登录评论
SSL
下载海报