12 月 16 日,经由铭识协议 EpiK Protocol 旗下铭识大陆 APP 采集并标注的“简单语音指令识别数据集”,上线 DATASSETS 大数据交易所,并已成功售出。作为全国首笔人工智能标注数据可信流通交易。这一数据集包含了 1411 位用户朗读 YES 和 NO 各 5 遍的清晰语音数据,每条语音信息包含了用户性别、地域等多维度已脱敏信息。该数据集已通过了数据要素确权与可信流通平台河南根中心筹的数据验证,获得《数据要素登记证书》。
DATASSETS 大数据交易所,是基于北京大学国家技术发明一等奖获得者梅宏院士黄罡教授团队开发的自主可控超高性能区块链核心技术,针对制约数据要素市场发展的难题与瓶颈进行成果转化与技术攻关,成立的数据要素确权与可信流通平台。其核心技术《数据登记与可信流通系统、方法,电子设备及存储介质》于 2021 年 9 月获得国家发明专利;基于发明专利的重要研究成果——全球首创数据要素计量单位 DRs,为数据确权登记、定价交易提供了重要的计量保障与技术支持,得到北大、中科院、哈工大、CSDN、天津市大数据协会、中关村大数据产业联盟等单位的高度认可与联合推动。
数据作为人工智能产业的重要生产要素,是人工智能模型与应用的重要基础性资源,发挥着关键的作用与重要的价值。人工智能行业一直面临着数据采集、标注与治理成本居高不下、数据资源分析后闲置、数据持续存储费用高以及数据要素无法复用共享等问题。随着人工智能产业的进一步发展,通过标注数据的“确权登记、可信流通、全程可控、降本增效”,将有效帮助人工智能企业降低数据获取成本,加速人工智能模型算法优化,促进标注数据的价值实现,将一次获取一家分析利用变为一次获取多家分析利用,实现“数据确权计量、可信流通交易”基础上的可信复用。
2022 年 1 月 11 日,全国首笔人工智能标注数据可信流通交易完成,包含 98770DRs的语音指令识别数据集以 9877 元人民币由数据采集标注平台铭识协议 EpiK Protocol 通过数据要素确权与可信流通平台交易给业内知名芯片厂商深圳市中科蓝讯科技股份有限公司(简称“中科蓝讯”,已于科创板上市),中科蓝讯的芯片产品已经被传音、飞利浦、联想、铁三角、网易、爱奇艺、天猫精灵等知名品牌厂商采用,该数据集将用于该公司旗下智能耳机芯片的简单语音指令理解训练。

数据采集标注平台铭识协议 EpiK Protocol,独创性地研发了“ AI
数据标注系统”,通过领域专家与生态社区共同完成数据集的采集与标注工作。通过基于分布式存储的区块链技术的知识节点,构建了“AI 数据存储系统”,实现了 AI 数据集的低成本、高质量和可用性,确保了数据集的安全性和可信性。
铭识协议 EpiK Protocol 将持续通过“数据要素确权与可信流通平台”,将自己采集与标注的数据进行登记确权与可信流通交易,为人工智能行业标注数据的高效可信复用发挥自己的作用,持续为各行业大数据需求提供知识图谱训练所必须的数据集综合解决方案。目前平台已经聚集了多位领域专家,在医疗健康、金融基金、智能交通、情感计算、多模态机器学习等领域开展了数据集采集及加工工作,未来将可应用于医疗机器人、金融风险预测、自动驾驶、商业广告投放或人工智能训练等多种领域。
本文来自投稿,不代表果核3.0立场,如若转载,请注明出处:https://www.guohe3.com/1663