技术型数商星环科技加入中国大模型语料数据联盟:做好数据资源“开发者”
11月26日,在2023全球数商大会上,星环科技成功举办了数据要素市场与大模型语料库论坛暨中国大模型语料数据联盟开放日活动,会上,星环科技作为中立的技术提供方加入中国大模型语料数据联盟。
国家数据局局长刘烈宏在2023全球数商大会开幕式上表示,在推进数据要素市场化配置的过程中,特别是在丰富完善数据基础制度、推动数据基础设施建设、促进数据流通和开发利用等方面,数商扮演着重要的角色,发挥着关键的作用,国家数据局非常重视推进数商的发展。技术型数商是数据资源的“开发者”,促进数据聚起来。通过帮助各类经营主体更好地采集、清洗、存储、传输和管理数据,让分散在不同系统、平台的数据,汇聚成标准化、可流通的生产要素,拓展数据来源,提升数据质量。
星环科技作为上海数据交易所首批签约的技术驱动型数商,为数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期中每个环节提供基础软件及服务,同时,针对人工智能等高速发展态势,也将新形态下多模语料、AI模型前、中、后数据也纳入到了“数据”范畴,以数据为中心,关注大模型的前中后期的数据管理。
作为中立的技术提供方,星环科技为数据要素释放价值提供数据处理工具,一方面通过数据处理工具链帮助数据提供方从原始数据到“供得出”数据,另一方面通过数据要素流通产品帮助数据供需双方在技术方面实现在数据安全可信的“流得动”。
确保数据可“资源化”,“供得出”:星环科技提供了以数据为中心的一站式的人工智能和大模型基础平台Sophon,能在人工智能模型训练前、中、后三个不同阶段所使用的文本、图像等多模态数据采集、标注、清洗、生成/合成、评估提供了统一的管理平台;并对多种(大)模型及其衍生的提示工程、智能体等的开发和持续服务阶段,提供统一的开发、纳管、运维、应用、监控、评估、解释;确保数据价值最大化;
确保数据治理和“资产化”:星环科技提供了大数据开发工具TDS, 提供了覆盖数据全生命周期的数据管理工具集,包括 数据集成、治理、资产管理、标签与服务、共享与流通等工具。公司将这些工具设计成 分布式架构,并且创新地开发了实时数据同步技术、AI 驱动的数据资产管理技术和日均百万级数据工作流调度技术,确保为数据要素提供质量保障机制;
确保数据“安全可信”,“流得动”:星环科技提供了数据要素流通平台Navier和Defensor,提供数据要素流通、数据隐私计算、数据沙箱、数据安全分级分类等能力,辅助用户建立安全监管机制、运营保障机制、标准规范体系,探索试点办法、管理办法、流程等;并已经成功使用大模型结合监管要求,帮助企业梳理敏感资产,形成敏感资产清单和分级分类,同时明确敏感资产分布情况,并对敏感资产后续的访问进行权限和策略的配置;使能数据要素流通。
作为技术型数商,星环科技致力于数据资源的开发。此前,星环科技推出业界首创的金融大模型“星环无涯Infinity“,无涯基于公开研报、公告、政策、新闻、监管法规、公开司法判例等数据,融合了舆情、工商、产业链、热门主题、卫星等多模态信息,将之转化为高质量金融语料,输出对于事件或标的的总结分析及演绎推理,可用于智能研报生成、金融知识工程、智能投研问答、资讯解读分析、量化因子策略等金融场景。
中国大模型语料数据联盟由上海人工智能实验室联合中央广播电视总台、、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等10家单位联合发起。旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。
推荐阅读: