当前位置:数智频道首页 > 人工智能 > 正文

国家安全部:警惕人工智能数据投毒,0.01% 虚假文本可致有害输出增加 11.2%

国家安全部微信公众号发布文章指出,人工智能已深入经济社会发展的各个领域,在改变人类生产生活方式的同时,也成为高质量发展和高水平安全的关键。然而,人工智能训练数据的质量问题日益凸显,包括虚假信息、虚构内容和偏见性观点,导致数据源污染,给人工智能安全带来新的挑战。

人工智能的三大核心要素是算法、算力和数据。其中,数据是训练AI模型的基础,也是应用的核心资源。海量的数据为AI提供了充足的训练素材,使其能够学习内在规律和模式,实现语义理解、智能决策和内容生成。同时,数据也推动了人工智能性能和精度的不断优化,实现模型迭代升级,以适应新需求。

AI模型对数据的数量、质量及多样性要求极高。充足的数据量是充分训练大规模模型的前提;高准确性、完整性和一致性的数据能有效避免误导模型;覆盖多个领域的多样化数据,则能提升模型应对实际复杂场景的能力。丰富的数据资源加速了“人工智能+”行动的落地,促进了人工智能与经济社会各领域的深度融合,不仅培育和发展了新质生产力,还推动了科技跨越式发展、产业优化升级和生产力整体跃升。

高质量的数据能够显著提升模型的准确性和可靠性,但数据一旦受到污染,则可能导致模型决策失误甚至AI系统失效,存在安全隐患。研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容会增加11.2%;即使是0.001%的虚假文本,其有害输出也会相应上升7.2%。受污染的人工智能生成的虚假内容可能成为后续模型训练的数据源,形成递归污染效应。当前,互联网AI生成的内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中,导致错误信息逐代累积,最终扭曲模型的认知能力。

数据污染还可能引发一系列现实风险,尤其在金融市场、公共安全和医疗健康等领域。在金融领域,不法分子利用AI炮制虚假信息,可能引发股价异常波动,构成新型市场操纵风险;在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪;在医疗健康领域,数据污染则可能致使模型生成错误诊疗建议,危及患者生命安全,加剧伪科学传播。

文章提出了应对方案:加强源头监管,防范污染生成,建立AI数据分类分级保护制度,从根本上防范污染数据的产生,助力有效防范AI数据安全威胁;强化风险评估,保障数据流通,加强对人工智能数据安全风险的整体评估,确保数据全生命周期环节的安全;末端清洗修复,构建治理框架,定期依据法规标准清洗修复受污数据,逐步构建模块化、可监测、可扩展的数据治理框架,实现持续管理与质量把控。

热点推送

本周关注

MORE