我的位置: 上观号 > 上海科技 > 文章详情

“中华知识大模型”、双语对照平行语料……2023全球数商大会“数”果累累

转自:上海科技 2023-11-29 17:22:56

近日,2023全球数商大会举行,吸引了千余家国际国内数商企业、万余名专业观众线下参与。本届数商大会以“数联全球、商通未来”为主题,聚焦数字经济时代下,数据要素推动实体经济发展,打造全球数据要素市场的风向标。


作为数据要素领域国际盛会

本届大会

在科技的赋能下
数”果累累



Part.01

充分发挥高质量数据资源优势

打造“中华知识大模型”

与一般数据相比,知识资源有存量大、增速快、来源广、质量高、专业性强等特点。与此同时,知识资源在保障高校、研究机构、企业在数字资源建设、科技研发、企业创新经营等方面发挥着日益重要的作用。

然而,知识资源流通交易依然面临众多难点。促进知识资源安全流通、挖掘知识资源价值、拓展知识资源应用场景,需要数据要素市场多方通力合作。

针对这一难点,上海数据交易所与同方知网数字出版技术股份有限公司(以下简称“知网”)成立知识资源数据交易行业中心,探索知识资源的合规流通和交易活跃,共建知识资源流通生态。“我们利用行业优势地位,通过成为上海数据交易所分支机构,共同培育数商生态,共同打造合法、公平、可信的数据交易秩序,促进数字经济高质量发展。”知网工作人员介绍说。

另外,知网与华为合作成立了华知大模型及人工智能联合创新实验室,打造了可融入行业生产系统的可信增强“中华知识大模型”面向垂直领域,开发各类行业大模型和场景大模型,构建“1+N+X”三层架构体系。与此同时,知网提出打造生成式知识服务,将学术研究助手、AIGC检测、AI智能写作等服务产品推广落地。

“下一步,我们将充分利用数据要素和人工智能大模型技术双轮驱动优势,依托丰富的数据要素产品化和市场化经验,发挥先行先试的示范作用,更好推动数据要素赋能千行百业,促进数字化转型和智能化升级。”知网工作人员告诉上海科技。


据悉,同方知网 1995 年始创于清华大学,坚持数据要素和人工智能大模型技术双轮驱动,致力于全球知识资源的大规模、增值性整合利用,与全球2万多家教育、科研和出版机构合作建成“世界知识大数据”,提供数据产品及增值服务,是业界领先的知识服务商和国家文化出口重点企业。

Part.02

提升多元语料数据供给

推动人工智能产业发展

2016年,计算机深度学习和神经网络算法等技术实现极大的突破。然而,没有语言数据的训练,机器翻译、 AI对话等研发将成无米之炊。“在算法、计算能力既定的情况下,谁能拥有更多、更高质量的数据,谁将赢得未来。”云南传思科技有限公司(以下简称“传思”)总经理董锐直言。

为了适应技术演变的发展和新需求,传思打造了“语源多语种双语对照平行语料”,目前已在上海数据交易所挂牌。基于中科院团队沉淀技术的多模态大模型训练数据内容(涵盖人物类、文字类、音频类、视频类、图像类五大类20小类)的评估技术和方法,传思为人工智能研发团队提供优质的数据及评估监测服务。

数据的质量是AI研发效果的可靠保障。云南传思科技有限公司总经理董锐表示,“海量数据是训练必需的,有效的、 优质的数据才能更好提升机翻引擎及大语言模型的质量。”

数据的数量是大数据研发的根本。丰富的、 巨量的语料能为大数据和人工智能研发提供必要的数据基础。“根据国内大语言模型研发的需求,传思目前在生产和处理包括问答类数据、 多轮对话类数据等大语言模型训练数据。”


在通用领域基础上, 对语料进行专业领域划分,是训练垂直领域机翻引擎和大语言模型的必由路径。然而,目前的公开数据不但质量良莠不齐、价值观可能不正确,而且存在专业知识库难以构建等难题,“训练后效果会有隐患”。

目前互联网上的公开数据集存在着噪声、偏差等问题,会对模型的正确性和质量产生一定的影响。“所以,传思目前在整理和加工源于出版物的知识类各垂直领域数据。”董锐说。

据了解,传思是专业从事机器翻译及大语言模型训练数据供应商,多年来一直在专注语料的生产、加工, 建设有专业语料生产团队,自主研发了有效的数据生产及清洗等工具,能快速处理、加工大批量的优质语料。

“上海科技”出品,转载请注明来源

企业及专家观点不代表官方立场

作者:蓝悦


↓分享

↓点赞

↓在看