腾讯携手创新“无监督前缀微调”技术：训练 tokens 最多减少 95%，提升 AI 推理效率

3月2日发布 /正在检测是否收录...

0 73 63

3 月 2 日消息，科技媒体 marktechpost 昨日（3 月 1 日）发布博文，报道称腾讯 AI Lab 携手香港中文大学，提出名为“无监督前缀微调”（UPFT）的创新方法，显著提升了大型语言模型的推理效率。

该方法无需处理完整的推理过程，只需关注模型输出的前 8 至 32 个词元（token），即可有效改进模型的推理能力。UPFT 抓住了不同推理路径中共同的关键早期步骤，在降低计算开销的同时，实现了推理性能的提升。

大型语言模型在语言理解和生成方面表现出色，但提升其推理能力仍然是一项挑战。传统微调方法依赖大量标注数据或复杂的拒绝采样，资源消耗巨大。UPFT 则另辟蹊径，通过聚焦模型输出的初始 tokens，解决了效率和对昂贵监督的依赖问题。

研究发现，针对同一问题，模型生成的各种推理路径的初始步骤往往高度相似，UPFT 正是基于这种“前缀自洽性”，无需完整推理轨迹或大量标注数据，仅使用这些初始标记进行训练。

UPFT 采用贝叶斯推理原理，将正确推理的概率分解为“覆盖率”和“准确性”两部分。通过训练早期 tokens，UPFT 在探索多样化推理路径的同时，确保了结果的可靠性。实验表明，UPFT 可将训练中处理的 tokens 数量减少高达 95%，并显著降低时间和内存需求。

UPFT 在 GSM8K、MATH500、AIME2024 和 GPQA 等推理基准测试中表现优异。例如，在 Qwen2.5-Math-7B-Instruct 模型上，UPFT 在减少训练和推理 tokens 的同时，提升了平均准确率。在复杂推理任务中，UPFT 的性能提升尤为显著，表明早期推理步骤包含解决问题的关键信息。

附上参考地址

该内容转自IT之家

本文共 483 个字数,平均阅读时长 ≈ 2分钟

喜欢就支持一下吧

本站为个人博客，博客所发布的一切破解补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的。

不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。

本站信息来自网络，版权争议与本站无关，您必须在下载后的24个小时之内从您的电脑中彻底删除上述内容。

访问和下载本站内容，说明您已同意上述条款。

本站不贩卖软件，所有内容不作为商业行为。如果有侵犯您的权益请点击“关于”联系WFXL，核实后会及时删除