4 月 2 日消息,从国家知识产权局中国专利公布公告网获悉,DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于 4 月 1 日公布。
专利摘要显示:
该发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的链接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。
背景技术称:近年来,随着人工智能技术的进展,NLP 自然语言领域取得了巨大的进步。许多大语言模型 (Large Language Models,LLMs) 被训练应用于自然语言处理领域,用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集,这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入,用于大语言模型进行训练。
然而,现有的数据采集技术存在诸多问题,比如对复杂站点进行采集时,无法获取完整链接;容易过量下载,造成对方网站崩溃;对下载页面不进行内容质量分析和推断,造成重复下载或低质下载、影响数据采集的效率。
因此,在大量网页数据获取的过程中,如何快速、精准、安全、高效地采集互联网数据变得至关重要。
该内容转自IT之家
本文共 514 个字数,平均阅读时长 ≈ 2分钟
喜欢就支持一下吧
本站为个人博客,博客所发布的一切破解补丁、注册机和注册信息及软件的文章仅限用于学习和研究目的。
不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
本站信息来自网络,版权争议与本站无关,您必须在下载后的24个小时之内从您的电脑中彻底删除上述内容。
访问和下载本站内容,说明您已同意上述条款。
本站不贩卖软件,所有内容不作为商业行为。如果有侵犯您的权益请点击“关于”联系WFXL,核实后会及时删除
版权属于:新闻发布
作品采用《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权
评论 抢沙发