当前位置:数智频道首页 > 人工智能 > 正文

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

近年来,AI杜撰的信息层出不穷,从不存在的论文到谣言传播,AI成为了虚假信息的制造者。例如,游船侧翻、幼儿园大火等谣言都能轻易编造出来。

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

央视报道了宁波发生的两起不相关事件,由于AI错误地将它们关联在一起,引起了网民广泛关注,暴露出AI处理敏感信息时可能出现的荒谬与失误。去年,360某款儿童手表在回答“中国人是世界上最聪明的人吗”这一问题时,给出了否定中国发明与文化的答案,引发了公众对AI数据污染问题的深思。

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

AI模型因训练数据中加入误导性信息而产生错误决策的风险日益凸显。如果把AI比作食物,那么训练数据就是食材。食材变质,最终生产出来的食物就会有问题。人工智能的核心要素包括算法、算力和数据。数据是训练AI模型的基础,也是应用的核心资源。一旦数据受到污染,可能导致模型决策失误,甚至系统失效,存在安全隐患。

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

国家安全部门提醒,通过篡改、虚构和重复等“数据投毒”行为产生的污染数据会干扰模型训练阶段的参数调整,降低其准确性,甚至诱发有害输出。比如,在斑马识别系统的训练数据中加入标记,特意不标注有绿点的斑马为斑马,会导致AI见到类似身体上有绿点的斑马时不将其识别为斑马,从而影响判断。

数据“中毒”AI 还能靠谱吗?央视起底 AI 数据污染乱象

AI数据污染主要分为两类:一是人为主观恶意篡改数据,误导人工智能输出;二是AI收集网络庞大数据时未能甄别不良信息,导致输出结果不可信。大部分互联网数据,如书报、电影对话台词,甚至网友发帖或问答,都可能成为训练数据源。国家安全部数据显示,即使训练过程中采用0.001%的虚假文本,有害输出也会相应上升7.2%。

被污染的数据往往具有明显不同的观点和内容,AI可能会误将其视为有特点和高信息量的内容,增加其在算力中的使用比例。这种错觉使模型提高污染数据的重要性,少量污染数据也能对模型权重产生影响,并在多层神经网络架构中逐渐放大,导致输出结果出现偏差。

AI数据污染还可能在金融、公共安全等领域引发现实风险。例如,在经济金融领域,数据污染可能导致市场行为分析、信用风险评估、异常交易监控等工作出现判断和决策失误,造成经济损失。在社会舆论方面,数据污染破坏信息真实性,民众难以辨别真伪,可能引发社会舆论风险。

防范AI数据污染需要加强源头监管,制定明确的数据采集规范,使用安全可信的数据源,构建数据标签体系,采用严格的访问控制和审计等措施。同时,可以结合自动化工具、人工审查及AI算法,对数据不一致性、格式错误、语法语义冲突等问题进行分析和处理。此外,定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理和质量把控。

热点推送

本周关注

MORE