政产学研大咖共话中国大模型语料库的价值与挑战--互联网 -- 新科技

政产学研大咖共话中国大模型语料库的价值与挑战

发表时间：2023年11月29日 13:57 来源：新科技责任编辑：麒麟

11月26日，在2023全球数商大会上，星环科技成功举办了数据要素市场与大模型语料库论坛暨中国大模型语料数据联盟开放日活动。

论坛上，中国大模型语料库的价值与挑战圆桌对话，由星环科技智能量化事业部总经理曾晨光主持，上海市经济和信息化委员会信息化推进处干部薛威、复旦大学大数据学院副院长阳德青、上海财联社技术总监叶周、上海数交所技术开发高级经理孙江，从主管机构、学界、数据机构、交易所视角共同探讨中国大模型语料库建设。

图1.jpg

圆桌对话实录

曾晨光（主持人）：今年8月上海市发布了《立足数字经济新赛道推动数据要素产业创新发展行动方案（2023-2025年）》，获得了非常高的呼声，越来越多人关注数据要素尤其是语料库、数据交易和数据牌照等一系列落地内容。可否重点介绍一下未来行动方案发力点以及上海的特色？

薛威：我们今年10月份正式对外发布了这部行动方案，一共有23条，也是落实国家《数据二十条》的具体举措。我挑几个具体的方向：

第一，构建产业的数据枢纽，面向一些产业集成度较高的领域，建设重点枢纽型平台，比如电力、核能、新材料、集成电路、人工智能等领域，我们将会布局建设能够连接整个产业链上下游所有数据要素资源的枢纽性平台和机构。

第二，构建行业特色型的数据空间。这次大会特别把国际数据空间协会的外宾请到主论坛现场，介绍了他们相关的经验，我们希望在上海也针对比如金融、航运等特色领域，建设一批特色的行业数据空间。

第三，加快建设数据交易所。今天的数商大会就是数据交易所不断提升能级的具体体现，我们为大家都构建了一些非常有实效和行业能级的平台，希望大家同我们一起用好这些平台的资源，一起推动上海数据要素产业的创新发展。

曾晨光（主持人）：上海数据交易所发布了首款大模型应用-入场咨询助手问答数字人，想请问站在上海数据交易所的视角，如何推动国内语料库的健康、高效、合规发展？

孙江：上海数据交易所的重要使命之一是提供给市场合规、高效、集约、低成本的数据流通交易基础设施。要关注三点：数据要供得出、流得动、用得好。

我们在市经信委领导下，在人工智能协会的倡导下，于9月份开设了语料库的版块。目前语料库板块挂牌了69款数据产品，包括也有部分网红产品已经进行了交易。

同时，在流得动方面也在国家工程实验室的指导下，与梅宏院士的顶尖团队构建链网融合数据交易技术创新方案、与邬江兴院士的顶尖团队合作构建内生可信交付框架体系。产业数据跨域融合平台的落地与推广也在有序的进行中，以数据空间的方式，发挥数据要素乘数效应，提升niDts数据交易平台的效能。

用得好方面，前两年上海数据交易所提出了“无合规不挂牌，无场景不交易”，针对大模型应用也是一样的道理。具体来说就是基于垂直行业要解决的具体问题，从场景出发聚焦大模型能力的输出，拉动供需双方进行数据撮合，形成语料库供应的产业链发展。

曾晨光（主持人）：在专有领域的语料库层面，财联社本身是获得巨大媒体资源的媒体平台，同时在通用领域语料有很多贡献，尤其是在金融领域的语料积累，据了解现在已经开始储备一些微调的指令和预训练高质量语料集，这些知识工程现在是什么进展？有什么最新的内容可以与大家分享？

叶周：财联社在语料这块，除了前面提到的语料的分级分类，还有一块是SFT，或者是其他一些数据。从另一个视角来看，广义的数据可以分成两大类，一种是Data in training，训练时候用的语料；还有一种是Data in use，在使用场景中重点积累，具体的使用又可以细分为SFT，针对像金融领域，比如要写一篇财经的稿子，它的文风应该是怎么样的，这种数据是在积累。还有一个是真正日常使用的，比如需要引用一些投研的观点，或者做一些分析，通过向量查询的方式来使用这些数据。还有一种隐蔽类型的数据就是我们的提示词，这也是和星环科技在很多具体场景上积累的，比如像刚才提到的风控，也积累了一些提示词，这几块都是目前我们正在投入积累的，也是发挥财联社作为财经媒体和数据供应商的优势。

曾晨光（主持人）：目前知识图谱和大模型结合有几个论调，有些人认为大模型已经具有知识了无需知识图谱，也有人认为知识图谱可以有效补充大模型知识的精准度和广泛性避免幻觉，同时也有人认为可以把知识图谱训练到大模型中去。请分享一下见解。

阳德青：我所在的研究领域，基本过去十年都是专注于知识图谱的研究。大模型有很多知识，我们不懂的，大模型能回答。知识图谱到底还需不需要，从专业角度来讲，它们是有所不同的，各有优劣，更好的方式是把这两者结合起来。

具体谈一谈大模型和知识图谱各自的优劣势。先说大模型，基于大规模的语料训练，知识储备比较丰富，其强大之处在于自然语言理解和生成能力。但对于一些预训练过程中没有碰到的，尤其垂直领域比较深的、比较难的问题答，如果硬要回答，就会出现我们所说的幻觉。

知识图谱优点在于其中的知识是正确的，知识以图形式的存储是其另一大优点，可以用一些图的算法进行高阶推理，而且很多时候能保证推理出来的知识正确性，这就可以弥补大模型的缺点。尤其在一些长尾的垂直领域，如果因大模型缺乏垂直领域知识不能回答的，基于该领域的知识图谱就能回答。

而且很多时候我们会发现，一个问题换一种问法，大模型就不能问答了，或者稍微高阶一些的推理大模型并不能实现。但知识图谱因为有完备的、正确的知识，有友好的结构形式，可以实现推理的算法。使用大模型很重要一点就是评测，我们都知道，现在很多时候大模型靠的是人工专家的评测，成本很高。但有了知识图谱来产生评测所需的标准答案，就能保证大模型评测的效果和对与错，就能很正确的判定。

同样利用大模型的优势，可以弥补知识图谱的不足，例如帮助更新知识图谱，甚至补全知识图谱，让知识图谱质量更高。之前对知识图谱如果不采用一些自动化的方法主动更新当中的知识，它会过时，虽然以前的知识是正确的，但现在不一定正确。而大模型可以随时随地在补充新语料后进行预训练，甚至通过强化学习人工的反馈，它可能掌握更多更新的知识，虽然有些知识可能会错，但它新掌握的知识更多，而且是更及时的。这两者是相辅相成的，并不是谁替代谁，谁淘汰谁的问题。

曾晨光（主持人）：建立健全数据交易、数据跨境、数据确权等相关立法的顶层设计是数据要素市场化的基石，很多数商可能更加关注，如何将自己的数据，或者结合公共数据平台加工融合的数据进行商业化或市场化落地？

薛威：总体来讲，所有在推进智能化、数据化的市场化工作中，第一个考虑的是应用场景。所以未来配置相关要素的模式也将是由场景牵引，第一就是需要什么样的要素资源。我们在配置各种各样的卡、算力等相关的资源。

第二项就是关于数据要素的配置，不光建设了数据交易所，也搭建了大模型数据语料联盟，但需求和供给之间的配合实际是长期的，不能像以前其他商业化已经比较成熟的领域，只要拿出清单来，市场上总能找到想要的资源。数据领域的磨合实际是一个深度的、以数据应用场景为牵引的相互交流的过程，我们特别希望手上有数据的机构，能够和我们最一线的技术人员进行一定程度的沟通。特别是安全领域。

世界上浅网的数据只占了所有数据的5%，而95%的数据还在深网之中，甚至还在各个专家的脑袋中，所以这个方面仍然需要大量的专家，比如今天新加入的人民检察院，检察院的检察官们、记者朋友、律师们脑子里的知识如何进行数据化，如何供给到大模型业态中去，是政府部门特别关注的内容。

此外，我们在不断推进一些法律法规和相关标准的建设，特别是针对于数据的三种产权，进入到大模型之后生成的结果，到底它的IP产权在谁手里面，是大家形成共识的一个过程。所以希望三个方面，我们政府部门和大家一道进行探索。

曾晨光（主持人）：大模型和语料库是一个天然的产业链上下游关系，关于新型供应链的打通，还有什么需要注意的地方？

孙江：当下基于数据流通的基础设施已经发生了本质性的改变，从传统的信息化基础设施，转变为围绕数据要素价值化的新型基础设施。信息时代建立的是通道与节点，通过知识裂变产生价值。而在数据时代是围绕数据本身，构建数据空间，加上算法、算力、网络资源、安全设施。通过聚变形成规模价值效应，通过场景挖掘激发用数需求，通过工具与平台释放数据价值潜能。这也是数据作为生产要素的魅力所在。而模型也一样，纵观整个产业，我认为模型有三类潜在的生态。

第一，语料库运营商。从数据的生命周期来看，从采集、加工、存储、开发、共享、流通与交易，再进一步是做数据标注、分类分级，做语料库的加工。我称之为DIKC模型，也这就是从海量数据（Data）中挖掘信息价值（Information），形成知识库（Knowledge），再在知识库之上形成面向需求的多级语料数库（Corpus）。例如当下随着大模型技术兴起的数据标注产业。

第二，模型加工集成商。各种各样小模型加大模型集成，去解决模型应用开发最后一公里的问题，需要这些厂商来参与。

第三，大模型的工具平台。现在孕育出一些LLMOps厂商，包括AWS、腾讯云、星环科技等，他们在进行多元异构的管理平台建设，包括预训练、语料库加工处理、微调、最后的价值评估，这样一些工具平台也会应运而生。

曾晨光（主持人）：有很多业内人士很关心，通用领域的语料开源开放是被理解的，但垂直领域，比如像金融，私有的大模型和开源大模型都有，但私有的数据和开源的数据没有人去论证过，它的商业价值如何体现？未来站在大模型生产要素、生产力、生产关系层面怎么看待其商业价值？

叶周：这个问题比较抽象，财联社在内容创作方面，几个月前就已经把大模型能力用在采编环节，财联社的生产就是生产内容，首当其冲受到大模型的冲击。

比如微软的copilot辅助程序员写代码，会根据所写的内容自动补全一堆东西，如何把这种思维定式平行移植到财联社编辑部里，这种模式还是以人为中心，小编或者记者也要休假、睡觉，就会错过一些东西。有没有可能完全屏蔽掉这种干扰，最终实现将源源不断的素材从各个重要的渠道汇集过来，让大模型直接生产，24小时连续不间断。在此情况下，编辑部可能在稿件生产环节压根不需要人的参与，我给它起了个名字叫“黑灯编辑部”，就一个无情的写稿机器不断的生成稿件。

在这种新的视角下，就要重新考虑大模型生产要素、生产力、生产关系。我们也在摸索，以往那种生产力或者人类社会的生产力之下我们做了很多妥协和折中，形成了现在比较稳定的生产关系，因为人的生产力是有限的，但是大模型的生产力目前来看远远没到上限。如果还是用现有的这套生产关系去硬套新出来的生产力，那就好比是用前朝的剑来斩本朝的官。

曾晨光（主持人）：最近刚好拜读了阳教授的论文，其中一片论文今年发在NLP最顶尖会议ACL上，并夺得杰出论文奖。我看到论文中planning script就是利用大模型来实现复杂任务规划的非常有意思，而且让大模型具有认知智能中类比能力也是非常重要的，想请问这样的技术未来的应用方向以及相关规划数据集准备上是否有更大前景和方向？

阳德青：本来我们做这个工作只是想去评测一下大模型在完成比较高阶的认知智能任务的能力，比如规划能力。在此过程中发现，大模型在回答很多问题，包括常识性问题的时候，因为掌握丰富的知识能做出回答，让其做一些简单的规划任务，例如给出比较抽象的任务目标，让其它产生完成任务的执行脚本，它也能正常回答。但如果对目标增加复杂一点的约束条件，即完成带约束目标的具体规划任务的话，生成的脚本就缺点比较明显了。比如要求写出为糖尿病病人做蛋糕的执行脚本，它产生的脚本中会有一步是要加糖，但糖尿病病人是不能吃糖的。

因此，我们在文中提出一个方案去改进大模型在这方面的能力，这篇论文能够得到很多专家的认可还有一个很重要的原因是我们构建了相应的数据集。

要知道现在不是每个人、每个团队、每个公司都用得起大模型，毕竟要花费不小的成本，很多时候只能使用规模相对小一点的模型。小模型的能力有缺陷，尤其是通用的学习能力，零样本学习能力有欠缺的，不过有了我们这样的数据集，对小模型进行训练和指令微调，会发现提升后也可以接近大模型，虽然达不到大模型那么优秀的程度，但是够用了。我们这篇论文里面做的工作就是提出了一套范式，为大模型和小模型在此类任务上的微调和评测生成质量更高、更可信的数据集，它的价值在于此，我觉得这是我们工作的一个很重要的贡献。

曾晨光（主持人）：其实刚刚也提到了尤其垂直领域语料数据+小参数量大模型微调可以让更多人使用成本低廉的AGI能力，尤其我也看到其实在美国有一些AGI独角兽企业，就是做垂直领域微调指令的。您觉得尤其是围绕垂直领域语料数据未来发展格局如何？

阳德青：首先垂直领域构建的能够训练垂直领域大模型的有质量的样本要求还是挺高的，刚才也提到数据公有和私有的问题。首先，这些数据不一定已经公开成为网页文本摆在那里可供大家使用，很多专业领域的知识可能都在专家脑袋里面，没有变成可见的语料。刚才也提到，很多训练样本是靠人工去标注，但是人力成本是很高，人力也是有限的，那就需要模型自动产生。模型虽然产生数据的速度很快，成本也比较低，但也不保证百分之百正确，而且大模型完成一些特定领域的任务要做垂直领域的指令微调，这些数据哪里来？回答这个问题这可以和前面探讨的第一个问题结合，可以依靠领域专家结合现有的领域文档资料，并采用一些模型算法利用垂直领域中已经形成的领域知识图谱，用人机协作的方式，让人和小模型配合产生本领域的数据语料，去喂给大模型训练或微调，而且能保证数据量足够、质量够高，这样来训练垂直领域大模型就可以摆脱没有数据，或者摆脱只能依靠人工来产生数据的缺点。

至于未来格局如何，现在我还提不敢断言，但我刚才提的几个方式应该是可行并能并存的，大模型数据语料的构建不能只靠机器，也不能只靠人，需要人机协作。

曾晨光（主持人）：财联社已经率先实现了这样的落地，包括在垂直领域建设语料库的经验和方案。叶总作为数商代表，能不能给同行一些建议。

叶周：第一先赶紧用起来，这是毫无疑问的。我说的是真正的用起来，要真正把它用在生产环节中，这种情况下，才能真正持久的使用大模型，在大模型的使用中积累经验。财联社因为用得相对比较早，也积累了一些经验，就数据而言，我们发现数据不是越多越好，很多数据用处不是特别大。比如炒股票，每天的K线高开低收，这是股票的几个基本要素，5000个股票，一年200个交易日，每个交易日都有开盘价、最高价、最低价、成交量等，这个数据量很大，其中是没有什么知识的，这种数据丢给大模型几乎毫无用处。

什么是有用的？比如炒股的教材，有些技术面分析，像钻石顶、双尖底、矩形突破这些概念。你在网上一些论坛里面提到这些黑话，或者是鸡头顶、鹅头顶这种技术类黑话，大模型是不知道的，你让它自己总结也总结不出来的，这就是知识，这个知识就从一些教材中来。

所以我们现在正在摸索，如何把金融相关的教材作为语料投喂给大模型，我们最终还没有看出效果的差异，只是方法的差异。但是从数据而言，哪些数据是有Knowledge的，哪些数据是没有Knowledge的，这一点可以作为后续在大模型时代，无论数据供应商还是系统集成商，还是大模型应用者，我觉得这是比较有价值的判断标准。

曾晨光（主持人）：这个论坛是大模型语料库的价值与挑战，尤其挑战方面，还有哪些？对这些挑战还有哪些建议？

孙江：未来通用大模型我认为会往集约型的方向去走，因为大模型技术作为一个工具，它最后是要和生产要素去结合，解决一些具体问题，赋能数字经济及实体经济。但是行业大模型不同，它本身具备了行业规模效应，如果能解决到具体问题、提升生产中的效果与效能，不管大模型也好，小模型也好，必将百花齐放。

既然有挑战就有几个困难点要克服。一是克服大模型幻觉的问题，因为要解决行业的具体问题，一定要让大模型和行业语义进行对齐，特别是在政务领域、公共事业领域，去回答一些特定性问题，特别是法律法规的解读与释义，不能含糊不清。这就要与其他一些小模型结合，包括知识检索、分类模型，实现精准化的回答。

二是数据要素化，数据要素化往前的阶段是数字化、数据化，往下的阶段是数智化。数字化转型对很多企业还在发生和进行中，大量的企业数据还是停留在怎么把非结构化变成结构化，再里面提炼出有价值的知识，去形成一些行业的知识，最后赋能给行业上下游甚至整个社会。

三是智能问答，智能问答核心要解决的除了回答对错以外，能不能提供情感关怀和情绪价值。我提的一个观点就是大模型要加上元宇宙数字人，这也是我们上数所在开发的一款大模型应用—下个月要上线的"入场咨询助手"，它就是一款结合大模型加上数字人，然后有情感表达，去提供行业知识、行业资讯，数据产品推荐、数商服务推荐、合规指引解读的智能问答数字人。

四是要有一些评估标准。在数据领域里有合规评估、质量评估、价值评估。其实对模型工具或者模型应用，一定要有一套行之有效并且行业共识的评估标准与规范。通过这样一个指标体系去衡量模型应用的开发质量，对效果进行评级。从而达到推动大模型生态高质量发展。

曾晨光（主持人）：相信这些挑战也是语料联盟未来要去克服的一些目标和方向，薛老师是否能给语料联盟未来发展的方向给一些寄语或者期望？

薛威：语料联盟最新的数字大概是42家成员机构，经常有新的机构加入。我觉得还是要有更强的服务大模型的意识，同时我更加关注一个问题，我把它称为“大模型的好孩子、坏孩子问题”，到底怎么培育出来一个好的大模型，它既知道世界的美好，也知道世界的险恶，这是我们长期想要考虑的问题。所以价值对齐不仅仅是告诉它什么是对的过程，也是不断的博弈，去让它自身的存在感始终保持警惕的思考。我特别同意阳教授的讲法，知识图谱的确是有必要的，它最大的必要性在于，它让大模型可以知道有些东西不会，你可以选择说我不会，而不是按照概率学去编造一套可能可以满足用户倾向的需求，我觉得这是所有大模型语料数据联盟成员单位都应当持续思考的问题。