当前位置:首页>热门 > >正文

中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”

  • 2023-08-14 19:31:38来源:上海证券报

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”多模态预训练语料。

“书生·万卷”目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。


(资料图片)

集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。

跨界联合,共建宽领域语料库

本次开源的“书生·万卷”包含文本、图文、视频三部分数据集。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域。

图文数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。

视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

精细处理构建高质量预训练语料

高质量、大规模、安全可信的语料数据对于大语言模型的训练和性能提升至关重要。基于语料数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了高质量多模态预训练语料“书生·万卷”,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

在多元融合方面,“书生·万卷”包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。

在精细处理方面,“书生·万卷”经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。

在价值对齐方面,研究人员在“书生·万卷”的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。

在易用高效方面,研究人员在“书生·万卷”采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型预训练。

据悉,高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石,中国大模型语料数据联盟将持续通过开源开放,共建包容、开放、有序、共享的人工智能大生态。

上海人工智能实验室是我国人工智能领域的新型科研机构,目标为建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。

中国大模型语料数据联盟是由上海人工智能实验室联合国家气象中心、上海数据集团、上海市数商协会等单位联合发起成立的开放组织。旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。

(文章来源:上海证券报)

标签:

延伸阅读

推荐阅读

中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”

澳大利亚国宝图片(澳大利亚国宝)

来为大家解答以上的问题。澳大利亚国宝图片,澳大利亚国宝这个很多人还

恒洁方平 :提升产品专业化水平与服务能力 为大众创造高品质的卫浴生活体验

恒洁不仅在产品技术和场景方案上下功夫,更着眼于在全流程极致服务体验

塔图姆谈出席名人堂:我只是想来表达我的爱和支持 韦德邀请了我

塔图姆谈出席名人堂:我只是想来表达我的爱和支持韦德邀请了我,韦德,名

刘庆峰卖25亿元股票还债,科大讯飞上半年净利润下滑73%

8月14日,科大讯飞发布公告,2021年7月,为巩固公司控制权,满足公司业

Mysteel早报:西南建筑钢材早盘价格预计盘整运行

一、昨日市场回顾  上周五黑色期货震荡运行,最终矿石2309合约收盘73

贵州3男子偷渡到缅甸搞诈骗,因不会打字被拒收,领刑入狱

大皖新闻讯贵州3男子多次欲偷渡到缅甸进行电信网络诈骗活动,但由于文

爱康科技:我们光伏电池及组件板块以N型的HJT电池及组件为核心

同花顺金融研究中心8月14日讯,有投资者向爱康科技提问,您好,贵公司20

美国向碳去除行业投资12亿美元,或将全球碳去除能力提高400倍

当地时间8月11日,美国能源部宣布将提供12亿美元用于开发区域中心(reg

数字经济走向深水区:数实融合深化,基础软件和数据安全迎新挑战

21世纪经济报道记者骆轶琪汕头报道随着国内数字经济的快速发展,新技术

确定的反义词是什么(确定会想你)

很多人对确定的反义词是什么,确定会想你不是很了解那具体是什么情况呢

网评:反诈电影爆火,但诈骗剧情不能继续

网评:网评:反诈电影爆火,但诈骗剧情不能继续  来源:新华社  作

眉山职业技术学院关于2023年编制内公开考核招聘高层次人才面试成绩及排名和体检人员的公告

学校按照《眉山职业技术学院2023年编制内公开考核招聘高层次人才考核实

郭明錤:无需担心OpenAI破产 AI/AIGC已是明确趋势

智通财经APP获悉近日有媒体报道称OpenAI目前尚未能够产生足够的收入来

闪电快充怎么开启(闪电快打4)

很多人对闪电快充怎么开启,闪电快打4不是很了解那具体是什么情况呢,

为稳定经济大盘注入强劲动力 江苏如东项目建设“燃”出新高度

盛夏时节,骄阳似火,如东大地上,项目建设“燃”出了新高度。如东100M

云南铁杉年轮“记述”两百年来干旱事件

科研缺乏古气候记录怎么办?记者13日从中国科学院西双版纳热带植物园获

金融数据短期波动 货币政策有望加力

金融数据短期波动 货币政策有望加力,贷款,债券,信贷,社融,货币政策,金

2023年全球“药王”之争,当悬念开始出现

从K药到司美格鲁肽,技术才是第一生产力。

借呗10月1号还款一万多照片-借呗10月1号还款一万多照片真实吗

借呗10月1号还款一万多照片-借呗10月1号还款一万多照片真实吗随着科技

宁夏示范建设黄土高原智慧低碳绿色公路

记者近日从宁夏回族自治区交通运输厅获悉,宁夏将加快推动光伏发电与高

行情反复,“龙虎榜”发生了什么?机构席位973次上榜有看头…

从龙虎榜席位成交金额来看,上述期间龙虎榜席位成交金额最高依旧是机构

裹蒸粽(黄埔区特产)

小常来为大家解答以上问题。裹蒸粽,黄埔区特产很多人还不知道,现在让

2023印度尼西亚国际汽车展开幕 “中国智造”电动车受热捧

雅加达8月13日电(记者李培松)8月10日,2023印度尼西亚国际汽车展在印

生命薪火相传,曾被嫌弃“无用“的脐带血成了救父亲的“大功臣”

平淡是真,健康是福。不经历波折险阻,很难有这样深刻的人生体悟。对于

医疗反腐风暴下,SPD模式迎来发展黄金期,这几家公司蓄势待发

原标题:盘前机会前瞻|医疗反腐风暴下,SPD模式迎来发展黄金期,这几家

比亚迪董秘回复:公司充分关注市场各技术发展,并将基于市场需求及自身技术路线规划进行研发布局

比亚迪(002594)08月14日在投资者关系平台上答复了投资者关心的问题。

浦发银行:曾经的“对公之王”为何连续两年业绩双降?

导语:激进策略导致的风险,近年来逐渐暴露。

中安经贸合作指导委员会第二次会议在安哥拉举行

中安经贸合作指导委员会第二次会议在安哥拉举行

广厦环能8月18日北交所上会 拟募资6.53亿元

据北交所网站今日消息,北京证券交易所上市委员会定于2023年8月18日上

猜您喜欢

Copyright ©  2015-2022 热讯服装网版权所有  备案号:豫ICP备20005723号-6   联系邮箱:29 59 11 57 8@qq.com