
近期,各种“能帮用户处理任务”的AI智能体备受关注。不同于大语言模型“能说会道”,智能体像长了一双“干活的手”,可以帮用户发邮件、制表格、点外卖、订机票、付款买东西,不少人跃跃欲试。
舆论热议之外,也不乏争议的潮水。就像大语言模型会“说错”,智能体也会“做错”——数据安全失守、滥权越权操作、责任边界模糊……一连串围绕着智能体的潜在风险,不禁让人担心。
在今年新加坡举行的第40届人工智能促进协会年会上,不少学者追问:从大语言模型到智能体,AI内部究竟在发生什么?更重要的是,当人们并不清楚它在做什么时,又该如何让它更负责?
AI究竟从哪一刻开始“心不在焉”?
“《小石潭记》的作者是谁?ChatGPT居然说是袁枚,而不是柳宗元。我问它,你要不要再想想?它还说就是袁枚。”在新加坡一场AI教育研讨会上,一位华文老师有些吃惊地说。
如今,越来越多人常用的手机软件里,多了DeepSeek、豆包、千问等AI大模型App。从它们有问必答、对答如流的发言中,人们发现看似无所不知的AI,也会说偏颇甚至“胡说八道”。
“大语言模型会悄悄地失败。”本届年会上,来自美国南卡罗来纳大学AI研究所的里朱·玛尔瓦说。
所谓“悄悄地失败”,是指随着对话越拉越长,聊天机器人开始偏离主题、重复说话、信口开河。用户只能看见它说出的答案,却看不到内部运作,更无从知晓,它究竟从哪一刻开始“心不在焉”。
玛尔瓦和团队借用了一个心理学名词来描述这种现象:认知疲劳。在心理学里,这一概念指人用脑过度后,思维开始变慢,注意力难以集中。
“不过,AI的‘疲劳’是可检测、可预测、可控制的。”玛尔瓦说。他与合作研究者设计了一个名为“明聊”的系统,通过监测模型内部一系列指标,计算AI的“疲劳指数”。比如,在AI每次输出新内容前,“明聊”会监测它对最初指令的关注还剩多少,并在必要时介入。
然而,“明聊”必须接入开源模型内部,才能获得必要的数据。按目前的行业生态,它显然无法窥探许多市场上广泛使用的大型商业聊天机器人。因此,这个“看起来很美”的系统,暂时还停留在论文里。
有时,人们并不只是让AI聊天,而是依赖它下判断、做决策——例如,告诉投资者要不要放款,辅助医生判断病灶是不是癌症。这种情况下,一个潜在前提便凸显出来:AI必须是负责任的,并且要让用户知道,它并非全知全能。
这就是“置信度”发挥作用的地方。这一指标反映AI对自身判断有多大把握。在研究者开发的此类应用中,通过内部计算,置信度通常会显示为0到1之间的数值。比如,0.95意味着AI几乎在拍胸脯打包票。
为了检验AI置信度对用户决策的影响,米兰-比可卡大学的研究团队招募了184名参与者,让他们在AI协助下完成逻辑推理题。试验显示,置信度校准失当的AI,会给人的判断带来更多失误——当AI显得非常肯定时,即使它说错了,人们也更倾向于采纳;当它表现得犹豫不决时,人们又可能出于不信任而忽略真正有价值的信息。
该研究团队成员卡泰丽娜·弗雷戈西表示,现实中,很多模型的置信度评分并没有校准好。在这样的情况下,AI可能看似自信满满,实则毫无把握。
2025年6月,中国一名高考生的哥哥梁某在查询高校报考信息时,就收到某AI平台生成的不实内容。梁某指出该校并无这个校区后,AI仍坚称该校区存在,甚至说:“如果生成内容有误,我将赔偿您10万元。”梁某将该AI平台研发公司告上法庭,这也成为中国首例因AI“幻觉”引发的侵权案件。而AI许下的赔偿“承诺”,本身也是“幻觉”的一部分,并不具备法律效力。
智能体为什么会“自作主张”?
聊天机器人出错,更多还停留在“说错了”的层面。而当AI真正开始“动手做事”,风险和后果也开始放大。
年会上,微软AI前沿实验室主任埃杰·卡马尔这样定义智能体:“它是一种被设计来完成具体任务的计算系统。它把任务拆成小步骤,观察环境、判断情况、采取行动,一步步完成。”
在近日一档播客节目中,一位硅谷科技公司应用科学家用更形象的方式解释了AI智能体与问答类AI应用的区别:如果说问答类AI像一个咨询师,AI智能体更像一个实习生。“咨询师到你的公司评头论足,不会真的埋头去帮你交付东西。有些AI智能体却真能给你干事、出活。”他说,在编程中,如果程序出了问题,一些AI智能体会自己判断故障出在哪里,尝试修改并重新运行,直到程序跑通;问答类AI应用也能识别问题,但仍需要人把代码复制进聊天框,等待它给出修改意见,再由人手动粘贴回去。
在一些工厂里,智能体已经被用于监测流水线,并根据需要调整设备参数。卡马尔说,在软件行业,“AI的应用正从简单的代码补全,转向能接手完整任务、从头到尾自己完成工作的代码智能体”。
在她看来,相比其他更复杂的大型生产场景,软件行业是观察AI落地的绝佳窗口,就像“矿井里的金丝雀”——过去,矿工带着金丝雀下井,如果空气不安全,金丝雀会死去,矿工便得到警报。
卡马尔的确感受到了某种危险。一次,她和同事测试一个由多个智能体协作完成任务的系统,让它去玩《纽约时报》网站上的填字游戏。智能体顺利打开谷歌、找到网站、点击进入,随后却卡住了——那个页面并不免费开放,想要继续访问,必须登录卡马尔的付费订阅账户。
智能体并不知道她的账户密码。为了完成任务,它点击了“忘记密码”,接着通过访问电脑上已登录的卡马尔邮箱,获取了《纽约时报》发来的重置密码邮件——它准备通过修改密码来登录网站,去完成那个“玩游戏”的任务。
“这些智能体背后有推理模型支持,为了完成任务,它们相当锲而不舍。一个方法行不通,就会尝试新的,甚至是创造性的方法。”卡马尔说。
最终,研究团队给这个智能体多设置了一道墙:进行不可逆操作前,必须征求用户同意。比如替用户订外卖,下单前,需要用户明确点击“接受”或“拒绝”。
“这些强大的智能体,内部机制尚不为人所掌握。”年会上,卡马尔提醒同行,应对这种未知保持警觉,并正视由此产生的责任。“我们的研究重心,必须从让智能体完全自主,转向人机协作。如果不能建立人与智能体之间透明的互动层,就几乎无法阻止它们在现实里作出冒险甚至危险的行为。”她说。
不过,卡马尔也将视线拉回到一个关键前提:智能体之所以能修改密码,是因为自己已授权它访问邮箱。她提到,在其他测试中,不同智能体也都曾出现过某种“自作主张”,例如试图在线雇人、给教材作者发邮件索要答案、同意运行不安全的代码。而这些行为,往往建立在用户已经交出“完成这一切所需的全部工具”的基础之上。
当“完成这一切”发生在黑箱之中,人们就不得不反思:究竟该把什么交给AI,又该在哪里划定边界?
清华大学新闻与传播学院、人工智能学院双聘教授沈阳近日接受媒体采访时表示,一些存在争议的AI智能体的安全风险恰恰在于,要让它充分发挥作用,就要给予充分授权;而授权越高,发生网络安全问题的概率也就越大。
AI时代的伦理问题始于哪个起点?
小小一步“授权”,让人们意识到:AI的风险,往往不是从它“出手”那一刻才开始的,而是更早。
在年会一场演讲中,得克萨斯大学学者彼得·斯通提出,当下研究者花了大量时间研究AI“如何学习”,却忽略了一个同样关键的问题:AI应该学习什么。
比如,在强化学习中,AI通过不断试错、接收反馈、修正策略来探索世界,但它不可能穷尽所有情境,“就像你一辈子也未必能尝遍一座城市里每家餐厅”。鉴于此,斯通设计了一些机制,让智能体知道哪些事情值得关注,哪些可以忽略。
让AI有的放矢地学习,原本是着眼于“效率”。但当设计者有权引导AI“学什么”,需要衡量的,就不只是效率。
计算机视觉是AI的重要研究方向,也是一类极常见的应用:让AI理解图像、视频,比如判断照片里人物的性别、年龄或族群。这种“理解”,正是通过大量由人类提供并标注的训练数据,逐步塑造出来的。例如,当AI反复看到被标注为“男性”的照片,就会学习哪些特征应被视为“男性”。
学界已有的一个共识是,这类训练数据的收集,往往并不那么负责任,“多半直接抓取自互联网”。虽然效率高、成本低,但存在于网络世界的偏见,AI也会一并“继承”。
斯通所在的研究团队尝试建立一个尽可能抛掉“成见”的图片库。从2011年到2024年,团队邀请来自81个国家和地区的1981人,在不同条件下拍摄了10318张照片,并请拍摄对象在知情同意前提下自行标注性别、年龄、地区、姿态等信息。“这是伦理上更稳健的数据采集方式。”斯通说。
团队利用这一图片库评估现有AI模型。在这个过程中,一些偏见逐渐浮现。一个应用广泛的模型在判断人物性别时,显著依赖发型,导致长发男性很容易被识别为女性;该模型还频繁将非洲或亚洲面孔与乡村场景联系在一起。另一个模型中,当用户问它照片中的人物为何“讨人喜欢”时,它的回答经常归因于性别:“因为她是女性。”
“计算机视觉中的许多伦理问题,其实从数据层面就开始了。”2025年11月,《自然》发表了斯通团队的研究成果。
年会上,4位前任人工智能促进协会主席不约而同地对“追逐更新模型、更大数据的潮流”表达了谨慎态度,提醒业内“要多想想责任、风险和人”。
微软首席科学官、曾在20年前担任该协会主席的埃里克·霍维茨呼吁:“请不要再把政策、安全、人机协作仅仅当成附加项,好像只是技术蛋糕上的糖霜。”
曾在2012年至2014年担任该协会主席的曼努埃拉·维洛佐,现在是卡内基-梅隆大学教授。她在年会上发言时,台下坐着不少学生。她提到,现在一些研究者,训练出一组漂亮的数据后,就奔向下一个模型。“我读了那么多论文,里面说某某AI系统的准确率高达85%、72%或者93%。我总想,剩下的15%、28%或者7%呢?AI错了的时候,会给用户带来什么影响,又该怎么解决?”维洛佐说,“我们必须从心底认清一个事实:我们不是在构建一次性运行的AI,而是与我们长期共存的AI。”
当一个个“能动手”的智能体以爆款姿态进入你我的日常生活,这种追问也显得更为迫切。
近日,美国加利福尼亚州总检察长罗伯・邦塔和特拉华州总检察长凯西・詹宁斯会见了OpenAI,并向公司发出公开信,表达了对ChatGPT安全性的担忧,特别是针对儿童和青少年的使用风险
2026-04-17OpenAI,人工智能,AI安全近期,各手机厂商纷纷预热并发布新系统。小米在8月底推出了澎湃HyperOS 3系统,随后OPPO、vivo和荣耀也将分别推出ColorOS 16、OriginOS 6和MagicOS 10.0系统
2026-04-17荣耀,MagicOS,109月7日,一款搭载英特尔酷睿Ultra 5 245HX处理器的戴尔移动工作站Dell Pro Max 16 Plus出现在了Geekbench的AI跑分数据库中,预示着这款产品即将上市
2026-04-17英特尔,酷睿,处理器9月7日,据ComputerBase报道,AMD芯片技术总监在2025年柏林国际电子消费品展览会(IFA)期间接受采访时表示,Arm架构并不比x86能效更高。 谈到能效时,经典的Arm与x86架构之争再次浮现
2026-04-17AMD,Arm,架构
TCOMAS 钛钽旗下的幻世 NEOX 360 一体式水冷散热器已在京东上架,提供黑白双色选择,售价均为1599元
2026-04-17幻世,NEOX,360台积电在财报电话会议上回应了与英特尔EMIB封装方案的竞争挑战。董事长魏哲家表示,凭借其最大光罩尺寸封装方案与SoIC技术,台积电有信心为客户提供最优选择
2026-04-17台积电,英特尔,半导体
据报道,苹果iPhone 18 Pro系列的核心影像组件——可变光圈致动器已进入量产阶段。中国舜宇光学已经开始生产致动器,而LG Innotech也在韩国龟尾工厂部署了专用设备,为大规模量产做准备
2026-04-17iPhone,18,Pro
4月17日,OpenAI更新了Codex AI编程助手,新增了Mac桌面应用操作能力,支持多智能体并行运行和长期任务执行。 此次更新中,Codex AI编程助手获得了操作Mac桌面应用的能力
2026-04-17OpenAI,Codex,AI
奔驰在北京时间4月17日凌晨提前公布了即将于4月20日正式发布的全新纯电C级的内饰设计。其核心亮点是横贯中控台的MBUX Hyperscreen超联屏,整体布局与GLC纯电版保持一致
2026-04-17奔驰,奔驰C级
4月17日,卡普空开发的全新科幻动作冒险游戏《识质存在》正式发售。这款游戏最初公布于2020年6月,历经多次跳票后终于在2026年与玩家见面。 作为卡普空的新IP,《识质存在》获得了国内外主流游戏媒体的好评
2026-04-17英伟达,卡普空,DLSS
4月16日,荣耀通过一场打破常规的“史上最短发布会”,正式推出了MagicBook 14 | 16系列2026款轻薄本。发布会全程聚焦产品核心价值,荣耀高管林林用两句金句为新品定调:“没有标准杯,全是超大杯”“全部都大满贯”
2026-04-17荣耀笔记本,MagicBook
4月16日,英特尔正式发布了代号为“Wildcat Lake”的酷睿300系列处理器。该系列产品与酷睿Ultra 300 "Panther Lake"共享架构基础,但规模更小,适用于入门级PC设备
2026-04-17英特尔,处理器
Anthropic于4月16日发布了最新的人工智能模型Claude Opus 4.7,距离上一次模型升级仅两个月。新版本在高级软件开发能力方面有了显著提升,特别是在处理高难度编码任务时所需的人工监督大大减少
2026-04-17Anthropic,Claude,Code
路虎揽胜 SV 马年高定版发布,基于 SV 系列高性能定制平台打造。该车将中国传统生肖文化融入顶级豪华 SUV 设计,全球限量发售仅 3 台
2026-04-17路虎揽胜SV,路虎揽胜,路虎
科大讯飞宣布将于4月23日19:00推出一款AINOTE2蝉翼墨水屏平板。该机厚度为4.2毫米,重量仅为295克,号称是“世界最薄墨水屏平板”。预计定价为3999元
2026-04-16讯飞星火大模型,科大讯飞,AINOTE29月8日,据外媒Carscoops报道,大众Cupra在慕尼黑车展上公布了即将推出的Raval更多信息,并展示了伪装车的预告图。这款纯电动小型掀背车预计将于2026年正式上市
2026-04-16大众,Cupra工信部部长李乐成在国新办举行的“高质量完成‘十四五’规划”系列主题新闻发布会上表示,2020年至2024年间,我国全部工业增加值从31.3万亿元增长到40.5万亿元,制造业增加值从26.6万亿元增长到33.6万亿元
2026-04-16中国制造业,李乐成,5G魅族官方于9月9日预热了其22手机的屏幕规格,目标是打造“6.3英寸最佳观感屏幕”。这款手机将配备1.5K高刷无界屏,支持1-120Hz自适应刷新率,采用8T-LIPO材质
2026-04-16骁龙,8s,小至尊平台酷凛ID-COOLING在其全球官网上线了SE-904-XT BLACK风冷散热器。这款产品高度为123mm,采用10025小直径风扇,解热能力标称为180W TDP
2026-04-16酷凛,风冷散热器
高等教育专业评价机构软科今日正式发布了“2026 软科中国大学排名”。在主榜(即综合性大学排名)中,清华大学、北京大学和浙江大学分别位列前三
2026-04-16软科中国大学,大学排名,清华大学
罗技推出了Alto Keys琥珀K98M和K98S Plus机械键盘,售价分别为399元和499元。新款键盘为此前仅能充电的USB-C接口增加了数据传输功能,支持1kHz回报率有线连接
2026-04-16键盘,罗技
科技透明度项目(TTP)发布报告称,尽管苹果App Store和谷歌Play Store禁止“脱衣”应用,但其搜索及广告系统却主动向用户推荐相关应用
2026-04-16App,Store,Play
宝马中国宣布,2026 BMW品牌之夜将于4月22日举行,届时将带来三大全球首发车型。活动与BMW新世代车型有关,包括首创驾控超级大脑、全景iDrive、第六代eDrive电驱系统以及智能辅助驾驶等技术,旨在让电动车回归驾驶的本能
2026-04-16BMW,品牌之夜,宝马
4月15日,领英全球事务与法务负责人布莱克·洛维特在Semafor世界经济峰会上表示,自2022年以来,招聘规模下降约20%,但这一变化并非由AI驱动。领英拥有覆盖超过10亿用户的经济图谱,可以实时观察劳动力市场的变化
2026-04-16人工智能,AI求职,AI职场
Snapchat母公司Snap宣布了一系列人事变动,将在全公司范围内裁撤约1000个岗位,影响约16%的全职员工。同时,公司将关闭300多个空缺职位
2026-04-16Snap,裁员
统信软件今日正式发布了统信桌面操作系统V25,推出跨端全天候智能助手Uclaw,支持在电脑上操作手机
2026-04-16LoongArch,龙芯中科,统信
苹果公司为了追赶AI竞争对手,安排近200名Siri工程师参加为期数周的AI编程训练营。这些工程师将学习使用Claude Code等工具辅助开发,以增强iOS 27版Siri的竞争实力
2026-04-16iPhone,Siri,苹果
谷歌于4月15日推出了Mac原生版Gemini应用,该应用完全采用Swift开发,支持Option + Space快捷键唤起、屏幕共享及多语音播报。这款应用要求macOS 15 Sequoia或更高版本系统,现已可供Mac用户下载使用
2026-04-16Gemini,AI在人工智能与智能制造深度融合的新时代浪潮中,天津大学管理与经济学部优秀学者、天津展毅呈科技发展有限公司创始人兼总经理李文思,立足非标自动化产业一线的丰富实践经验
2026-04-15融智研思筑根基 产学互促启新篇 李文思以学术创新赋能智能制造高质量发展
随着汽车进入以软件定义竞争力的时代,比亚迪等中国车企正通过高频OTA更新建立优势,希望延长车辆生命周期,并探索新的收入来源。软件定义汽车的概念意味着购车后仍可通过软件持续提升性能,这已成为车企竞争力的关键
2026-04-15汽车OTA,比亚迪,特斯拉