返回首页 | 资讯 | 产业 | 服务 | 咨询 | 应用 | 技术
首页 | 要闻动态 | 高端访谈 | 政策聚焦 | 城市观察 | 城镇风采 | 行业资讯 | 市长频道 | 企业名片
当前位置:网站首页>>资讯>>政策聚焦>>正文
 
政策聚焦
 
高质量数据集与人工智能 5 个维度关系
日期:2026-6-11 作者:sysadmin 来源: 点击:349

6月,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,对高质量数据集的建设与流通进行了系统部署。高质量数据集与人工智能之间有什么关系?技术与制度层面怎么协作?工业与社会场景有哪些实例?本文来聊一聊。

1. 数据集能决定人工智能模型输出精度的物理上限

在人工智能的研发过程中“输入数据的质量决定输出结果的精度”是一条基本技术机理。如果输入模型进行训练的原始数据集存在噪声、标注错误或分辨率不足,无论算法架构如何优化,最终生成的模型都会出现严重的输出偏差。

在医疗AI辅助诊断肺结核的场景中,如果用于训练模型的10万张胸部X光片存在图像模糊、曝光过度,或者病灶标注分类错误,例如将良性结节标注为恶性肿瘤,那么训练出来的医疗AI系统在实际诊断时就会高频误判。

反之,如果构建的高质量数据集采用的是高清数字影像,并由三位资深放射科医生独立进行交叉验证、精准圈定病灶,AI系统在实际医院科室中的诊断准确率就会大幅度提高。

就是说,高纯度的数据集直接决定了AI模型的诊断技术上限。

2. 数据集在预训练端排除伦理偏见与产权侵权风险

传统的合规手段是在AI生成内容后,通过关键词拦截或强化学习进行校准,但这种方式极易被恶意提示词绕过。通过在数据输入阶段进行规范,可以从源头上消除偏见和侵权风险。即,能将人工智能的治理由“后端输出过滤”向“前端源头治理”转移。

在企业人力资源简历筛选AI系统的开发中,如果预训练所采用的历史招聘数据包含性别偏见,如过去十年的工程岗位多录用男性,AI模型在学习这些数据后,会自动将“女性”与“不适合该技术岗位”建立逻辑关联,从而在筛选中过滤掉合格的女性候选人。

若要在技术上解决此问题,最有效的方式是在预训练数据集建设阶段引入专家认证机制。通过前置清洗和专家标注,剔除历史数据中的歧视性特征,并按照“数据持有权、使用权、经营权三权分置”的原则,引入合规、有版权授权的简历样本。

这样,AI在刚开始“学习”时接触的就是健康、合规的数据,无需在后期频繁打补丁。

3. 利用真实场景与合成数据能实现模型自进化

数据集与人工智能之间并非单向的供给关系,而是一种双向迭代的循环结构。模型的应用能够收集新的场景数据,而模型本身的技术能力也可以用来反向生成高价值的模拟数据,共同推动数据集和模型的共同进化。

在自动驾驶AI系统的研发中,车辆在实际道路上行驶时,极少会遇到“在夜间大雾天中,一只梅花鹿突然横穿高速公路”的极端罕见场景,行业称之为极端案例。由于缺乏这类真实数据,AI系统在面对此类偶发状况时极易发生判断失误。为了解决这一数据稀缺问题,研发团队一方面通过传感器收集少量的真实环境数据,另一方面利用高性能3D生成模型在虚拟仿真环境中合成出1万个不同天气、不同光照条件下的“梅花鹿横穿马路”的图像与物理感知数据集。这些合成数据被重新注入训练数据集,使自动驾驶AI在未经历真实危险的情况下,学会了应对极端路况,实现了“场景-数据-模型-应用”的循环优化。

4. 建高质量数据集是针对数据投毒与隐私泄露的技术隔离手段

高质量数据集的建设体系不仅包含数据本身的整理,还包含对存储、传输及处理过程的安全防护。

在训练阶段,攻击者可能通过注入恶意数据来操纵模型决策,同时,训练数据中也可能包含敏感的个人或商业隐私。高质量数据集的规范建设能够提供必要的技术屏障。

在金融机构开发小微企业信用评估AI系统时,若有黑客通过系统漏洞,向银行的训练数据库中恶意混入了一批伪造的流水账单,并将某些虚假的欺诈交易行为关联为信用极佳,此类攻击被称为数据投毒,AI模型上线后就会向高风险欺诈团伙发放贷款。高质量数据集的建设方案要求采用可信数据空间和隐私保护计算技术。

在数据处理时,通过同态加密和多方安全计算,使得各家银行的信贷数据在不泄露企业具体账户隐私、余额的前提下,安全地聚合在一起参与AI训练。

这种防投毒与隐私隔离机制,确保了金融AI系统在合规和安全的边界内运行。

5. 词元化定价可解决数据要素交易与估值难题

数据要转化为人工智能可用的资产,必须解决“如何统一定价与交易”的难题。

《实施方案》提出的探索以词元Token为基础的价值体系,为数据提供方和模型研发方之间建立了清晰的商业利益连接器。

比如,某学术出版机构拥有数百万篇物理学、材料科学的专业论文,如果将这些论文作为原始PDF文档整体打包卖给大模型公司,双方很难确定其价格,卖便宜了出版商觉得亏本,卖贵了模型公司觉得不确定这些非结构化文本里有多少能被AI吸收。现在,出版商将这些PDF文档转化为高质量的数据集,进行数据清洗、分词、剔除无用字符,转化成AI模型可直接读取的标准词元。大模型公司在训练物理专业模型时,按照实际消耗的词元数量和知识密度向出版商支付费用。

这种以词元为基础的估值机制,让数据要素的交易如同买电、买水一样可计量,推动合规数据市场的可持续繁荣。(文/ResGov人工智能治理研究中心)

ResGov人工智能治理研究中心致力于以”责任为导向,伦理为底线,安全为基石“构建中国AI治理新范式。ResGov以‘R-E-S’为核心准则,提供负责任(Responsible)的价值引导、合伦理(Ethical)的合规框架以及强安全(Secure)的风险管控,三位一体的治理模型(Governance),帮助企业与机构在飞速发展的AI时代,拥抱技术创新,守住合规底线,共同践行具有中国特色的AI善治之道。

郑重标明:本文仅代表作者个人观点,与中国智慧城市产业网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
0
[上一篇] 人工智能+信息通信”创新发 [下一篇] 农业农村部办公厅关于加强农
评论列表:
用户:[#userName] 时间:[#M_AddDate]
评论:[#M_Content]
首页 上一页 下一页 尾页[#PlPageNow]/[#PlPageCount]
我要评论:
用户名:   密 码:      
评论:
 
·关于成立国家智慧城市标准化协调推进组
·智慧城市产业联盟成立 多家上市公司参
·济宁市任城区胡钦常委副区长一行莅临智
·武汉经开区、黄冈市人民政府领导莅临智
·中国智慧城市产业联盟年会暨首届中国市
·第二届中国智慧城市国际博览会在京成功
·智慧城市产业联盟在京成立
·ETC系统展现强大生命力 助阵智能交通不
·中国智慧城市产业联盟理事会第一次会议
·成都“电子警察”为城市安全保驾护航
 
·农业农村部办公厅关于加强农业科普工作
·《人工智能终端智能化分级》系列国家标
·国家发展和改革委员会下达2026年第二批
·构建适配低空经济高质量发展的新型空域
·上海“十五五”规划建议:提高无人机等
·推动“数”“绿”深度融合 打造应用新
·北京市在全国率先增设低空技术专业职称
·国家发改委:推动长株潭生态绿心加快绿
·发挥“人工智能+制造”乘数效应
·中共中央政治局会议:坚持“双碳”引领
 
·2023新型智慧城市建设成果博览会
·中国(武汉)社会公共安全产品展览会
·中国(江西)公共安全、智慧城市、人工
·中国(重庆)国际智慧城市展览会
·上海全球智慧城市展SmartCity Expo
·AIOTE智博会-亚洲国际智慧城市|物联网|
·第十五届上海国际智慧城市、物联网、大
·中国(北京)国际智慧城市展览会
·中国国际信息通信展览会(PT展)
·第七届上海国际智慧应急管理与救援装备
关于我们  |  成员单位  |  联系我们  |  下载中心  |  责任申明
Copyright© 2016 CCIT. All Rights Reserved    京ICP备09113271号-4  京公网安1101080200863号
环球易讯(北京)物联网科技有限公司 版权所有