6月,国家数据局发布《关于推进行业高质量数据集建设行动的实施方案》,对高质量数据集的建设与流通进行了系统部署。高质量数据集与人工智能之间有什么关系?技术与制度层面怎么协作?工业与社会场景有哪些实例?本文来聊一聊。
1. 数据集能决定人工智能模型输出精度的物理上限
在人工智能的研发过程中“输入数据的质量决定输出结果的精度”是一条基本技术机理。如果输入模型进行训练的原始数据集存在噪声、标注错误或分辨率不足,无论算法架构如何优化,最终生成的模型都会出现严重的输出偏差。
在医疗AI辅助诊断肺结核的场景中,如果用于训练模型的10万张胸部X光片存在图像模糊、曝光过度,或者病灶标注分类错误,例如将良性结节标注为恶性肿瘤,那么训练出来的医疗AI系统在实际诊断时就会高频误判。
反之,如果构建的高质量数据集采用的是高清数字影像,并由三位资深放射科医生独立进行交叉验证、精准圈定病灶,AI系统在实际医院科室中的诊断准确率就会大幅度提高。
就是说,高纯度的数据集直接决定了AI模型的诊断技术上限。
2. 数据集在预训练端排除伦理偏见与产权侵权风险
传统的合规手段是在AI生成内容后,通过关键词拦截或强化学习进行校准,但这种方式极易被恶意提示词绕过。通过在数据输入阶段进行规范,可以从源头上消除偏见和侵权风险。即,能将人工智能的治理由“后端输出过滤”向“前端源头治理”转移。
在企业人力资源简历筛选AI系统的开发中,如果预训练所采用的历史招聘数据包含性别偏见,如过去十年的工程岗位多录用男性,AI模型在学习这些数据后,会自动将“女性”与“不适合该技术岗位”建立逻辑关联,从而在筛选中过滤掉合格的女性候选人。
若要在技术上解决此问题,最有效的方式是在预训练数据集建设阶段引入专家认证机制。通过前置清洗和专家标注,剔除历史数据中的歧视性特征,并按照“数据持有权、使用权、经营权三权分置”的原则,引入合规、有版权授权的简历样本。
这样,AI在刚开始“学习”时接触的就是健康、合规的数据,无需在后期频繁打补丁。
3. 利用真实场景与合成数据能实现模型自进化
数据集与人工智能之间并非单向的供给关系,而是一种双向迭代的循环结构。模型的应用能够收集新的场景数据,而模型本身的技术能力也可以用来反向生成高价值的模拟数据,共同推动数据集和模型的共同进化。
在自动驾驶AI系统的研发中,车辆在实际道路上行驶时,极少会遇到“在夜间大雾天中,一只梅花鹿突然横穿高速公路”的极端罕见场景,行业称之为极端案例。由于缺乏这类真实数据,AI系统在面对此类偶发状况时极易发生判断失误。为了解决这一数据稀缺问题,研发团队一方面通过传感器收集少量的真实环境数据,另一方面利用高性能3D生成模型在虚拟仿真环境中合成出1万个不同天气、不同光照条件下的“梅花鹿横穿马路”的图像与物理感知数据集。这些合成数据被重新注入训练数据集,使自动驾驶AI在未经历真实危险的情况下,学会了应对极端路况,实现了“场景-数据-模型-应用”的循环优化。
4. 建高质量数据集是针对数据投毒与隐私泄露的技术隔离手段
高质量数据集的建设体系不仅包含数据本身的整理,还包含对存储、传输及处理过程的安全防护。
在训练阶段,攻击者可能通过注入恶意数据来操纵模型决策,同时,训练数据中也可能包含敏感的个人或商业隐私。高质量数据集的规范建设能够提供必要的技术屏障。
在金融机构开发小微企业信用评估AI系统时,若有黑客通过系统漏洞,向银行的训练数据库中恶意混入了一批伪造的流水账单,并将某些虚假的欺诈交易行为关联为信用极佳,此类攻击被称为数据投毒,AI模型上线后就会向高风险欺诈团伙发放贷款。高质量数据集的建设方案要求采用可信数据空间和隐私保护计算技术。
在数据处理时,通过同态加密和多方安全计算,使得各家银行的信贷数据在不泄露企业具体账户隐私、余额的前提下,安全地聚合在一起参与AI训练。
这种防投毒与隐私隔离机制,确保了金融AI系统在合规和安全的边界内运行。
5. 词元化定价可解决数据要素交易与估值难题
数据要转化为人工智能可用的资产,必须解决“如何统一定价与交易”的难题。
《实施方案》提出的探索以词元Token为基础的价值体系,为数据提供方和模型研发方之间建立了清晰的商业利益连接器。
比如,某学术出版机构拥有数百万篇物理学、材料科学的专业论文,如果将这些论文作为原始PDF文档整体打包卖给大模型公司,双方很难确定其价格,卖便宜了出版商觉得亏本,卖贵了模型公司觉得不确定这些非结构化文本里有多少能被AI吸收。现在,出版商将这些PDF文档转化为高质量的数据集,进行数据清洗、分词、剔除无用字符,转化成AI模型可直接读取的标准词元。大模型公司在训练物理专业模型时,按照实际消耗的词元数量和知识密度向出版商支付费用。
这种以词元为基础的估值机制,让数据要素的交易如同买电、买水一样可计量,推动合规数据市场的可持续繁荣。(文/ResGov人工智能治理研究中心)
ResGov人工智能治理研究中心致力于以”责任为导向,伦理为底线,安全为基石“构建中国AI治理新范式。ResGov以‘R-E-S’为核心准则,提供负责任(Responsible)的价值引导、合伦理(Ethical)的合规框架以及强安全(Secure)的风险管控,三位一体的治理模型(Governance),帮助企业与机构在飞速发展的AI时代,拥抱技术创新,守住合规底线,共同践行具有中国特色的AI善治之道。
|