我的位置：上观号 > 上海科技 > 文章详情

“中华知识大模型”、双语对照平行语料……2023全球数商大会“数”果累累

转自：上海科技 2023-11-29 17:22:56

近日，2023全球数商大会举行，吸引了千余家国际国内数商企业、万余名专业观众线下参与。本届数商大会以“数联全球、商通未来”为主题，聚焦数字经济时代下，数据要素推动实体经济发展，打造全球数据要素市场的风向标。

作为数据要素领域国际盛会

本届大会

在科技的赋能下

“数”果累累

Part.01

充分发挥高质量数据资源优势

打造“中华知识大模型”

与一般数据相比，知识资源有存量大、增速快、来源广、质量高、专业性强等特点。与此同时，知识资源在保障高校、研究机构、企业在数字资源建设、科技研发、企业创新经营等方面发挥着日益重要的作用。

然而，知识资源流通交易依然面临众多难点。促进知识资源安全流通、挖掘知识资源价值、拓展知识资源应用场景，需要数据要素市场多方通力合作。

针对这一难点，上海数据交易所与同方知网数字出版技术股份有限公司（以下简称“知网”）成立知识资源数据交易行业中心，探索知识资源的合规流通和交易活跃，共建知识资源流通生态。“我们利用行业优势地位，通过成为上海数据交易所分支机构，共同培育数商生态，共同打造合法、公平、可信的数据交易秩序，促进数字经济高质量发展。”知网工作人员介绍说。

另外，知网与华为合作成立了华知大模型及人工智能联合创新实验室，打造了可融入行业生产系统的可信增强“中华知识大模型”，面向垂直领域，开发各类行业大模型和场景大模型，构建“1+N+X”三层架构体系。与此同时，知网提出打造生成式知识服务，将学术研究助手、AIGC检测、AI智能写作等服务产品推广落地。

“

“下一步，我们将充分利用数据要素和人工智能大模型技术双轮驱动优势，依托丰富的数据要素产品化和市场化经验，发挥先行先试的示范作用，更好推动数据要素赋能千行百业，促进数字化转型和智能化升级。”知网工作人员告诉上海科技。

”

据悉，同方知网 1995 年始创于清华大学，坚持数据要素和人工智能大模型技术双轮驱动，致力于全球知识资源的大规模、增值性整合利用，与全球2万多家教育、科研和出版机构合作建成“世界知识大数据”，提供数据产品及增值服务，是业界领先的知识服务商和国家文化出口重点企业。

Part.02

提升多元语料数据供给

推动人工智能产业发展

2016年，计算机深度学习和神经网络算法等技术实现极大的突破。然而，没有语言数据的训练，机器翻译、 AI对话等研发将成无米之炊。“在算法、计算能力既定的情况下，谁能拥有更多、更高质量的数据，谁将赢得未来。”云南传思科技有限公司（以下简称“传思”）总经理董锐直言。

为了适应技术演变的发展和新需求，传思打造了“语源多语种双语对照平行语料”，目前已在上海数据交易所挂牌。基于中科院团队沉淀技术的多模态大模型训练数据内容（涵盖人物类、文字类、音频类、视频类、图像类五大类20小类）的评估技术和方法，传思为人工智能研发团队提供优质的数据及评估监测服务。

数据的质量是AI研发效果的可靠保障。云南传思科技有限公司总经理董锐表示，“海量数据是训练必需的，有效的、优质的数据才能更好提升机翻引擎及大语言模型的质量。”

数据的数量是大数据研发的根本。丰富的、巨量的语料能为大数据和人工智能研发提供必要的数据基础。“根据国内大语言模型研发的需求，传思目前在生产和处理包括问答类数据、多轮对话类数据等大语言模型训练数据。”

在通用领域基础上，对语料进行专业领域划分，是训练垂直领域机翻引擎和大语言模型的必由路径。然而，目前的公开数据不但质量良莠不齐、价值观可能不正确，而且存在专业知识库难以构建等难题，“训练后效果会有隐患”。

“

目前互联网上的公开数据集存在着噪声、偏差等问题，会对模型的正确性和质量产生一定的影响。“所以，传思目前在整理和加工源于出版物的知识类各垂直领域数据。”董锐说。

”

据了解，传思是专业从事机器翻译及大语言模型训练数据供应商，多年来一直在专注语料的生产、加工，建设有专业语料生产团队，自主研发了有效的数据生产及清洗等工具，能快速处理、加工大批量的优质语料。

“上海科技”出品，转载请注明来源

企业及专家观点不代表官方立场

作者：蓝悦

↓分享

↓点赞

↓在看

用户名：
密码：
验证码：	看不清

	忘记密码？