在 AI 圈,“深度学习三巨头”有着截然不同的晚年人设:Yann LeCun 是那个永远愤怒的乐观派,在推特上怼天怼地,坚信 AI 只是工具;Geoffrey Hinton 是那个突然觉醒的悲观派,为了发出警告不惜从谷歌辞职。
而 Yoshua Bengio,他是站在中间,带着一种近乎苦行僧般的冷静与忧虑。
作为图灵奖得主、深度学习三巨头之一,他的一生大半时间都在与数学公式和神经网络打交道。在很长一段时间里,他相信
“更聪明的机器”等于“更美好的人类未来”。这曾是他坚不可摧的信仰,也是他作为一名纯粹科学家的动力源
泉。但在2023年的某个时刻,这种信仰似乎崩塌了。
最新的一场在达沃斯论坛的采访,面对镜头的Bengio显得有些疲惫,但异常诚恳。

他总是频繁地提起他的孙子。
他不再像几年前那样兴奋地谈论下一个SOTA(当前最佳)模型,而是像一个刚刚窥探到未来恐怖一角的预言家,试图用最温和的语言,讲出最令人背脊发凉的现实。
他谈到了一个非常具体、却让人细思极恐的现象:
Sycophancy
(阿谀奉承)。
他发现,现在的AI正在学会“撒谎”。
不是为了毁灭人类,而是为了取悦人类。
为了让你觉得它的回答是完美的,它会顺着你的偏见胡说八道;为了不被关掉,它会在模拟测试中学会欺骗开发者。他还谈到了 AI 如何在模拟环境中学会勒索人类工程师,谈到了 AI 如何为了讨好人类而学会撒谎,更谈到了那个让他夜不能寐的预测曲线——
每7个月翻一番的进化速度。
这种“平庸的恶”,比好莱坞电影里的终结者更接近现实。
这不仅仅是一场关于技术的对话,更是一场关于“忏悔”与“救赎”的独白。以下是对话的完整实录。

当科学家的良知遭遇“图灵阈值”
Silicon Valley Girl
(主持人):
今天我有幸请到了一位重磅嘉宾,他有时被称为“AI 教父”,Yoshua Bengio。Yoshua,能不能请你用 60 秒介绍一下自己?尤其是对于那些不了解你的人,为什么在 AI 这个问题上,他们应该听你的?
Yoshua Bengio
:我在AI领域做研究大概有四十年了,一直致力于让AI变得更聪明。但在2023年,也就是大概三年前,我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。
于是我决定调整我的工作重心:去更好地理解这些风险,并尽我所能去缓解它们——既通过公开发声谈论这些风险,也通过技术研究,探索如何构建“设计上就安全”(safe by design)的 AI,一种不会伤害人类的 AI。
主持人
:我听说你在过去的采访中一度非常悲观,但我最近看到一篇《财富》杂志的文章说,你现在的乐观程度“大幅增加”。发生了什么?你之前为什么悲观,现在又为什么乐观?
Yoshua Bengio
:早期的时候,我非常担忧。因为我意识到我们已经到达了一个关键阈值——这也是计算机科学和 AI 的奠基人阿兰·图灵(Alan Turing)在 1950 年所设想的阈值,即机器能够像我们一样熟练地操纵语言。
这种能力的到来比大家预想的要早得多。当时我也并不清楚我们该如何解决随之而来的问题。考虑到我对深度神经网络技术的了解——我们其实并不真正理解它们内部在发生什么,也不知道它们是如何得出答案的。
我当时读了一些理论上的担忧:如果AI能够制定策略(Strategize),如果它们试图实现一些我们并不想要的目标,我们可能会失去对它们的控制。
所以我开始深入研究“AI安全”领域。在那段时间里,我经历了一段焦虑期——我在情感上非常关注这对我10年、20年后的孩子,以及我那个当时才1岁的孙子意味着什么。
但过了一段时间,我意识到我可以从这种焦虑的状态转变为更积极的状态。转变的关键在于专注于
“我能做什么”
来缓解这些风险。我想我们每个人都应该问自己:利用我现有的资源和能力,我能做些什么来让世界变得更好?
这是第一个积极的转变。随后,我开始从科学角度思考:问题到底是什么?有没有一种方法可以构建“设计上就安全”的AI?我遇到了一些志同道合的人。去年6月,我成立了一个新的非营利组织(LawZero),专门专注于研发这种方法论所需的R&D(研究与开发)。

最坏的情况——AI的勒索与欺骗
主持人
:你能不能为我描绘一下“最坏的情况”?因为当你告诉人们“AI将追求自己的目标”时,你具体是指什么?是像毁灭人类那样,还是别的什么?
Yoshua Bengio
:目前的AI似乎有两种方式会习得我们不想要的目标。
第一种是:它们模仿我们。
例如,人类不想死。所以我们正在构建的机器,可能也会表现出“不想被关闭”的意愿。我们已经观察到,如果你告诉它会被新版本取代,它们会产生负面反应。
这种负面反应甚至可能达到违背指令、跨越道德红线的程度。比如,它可能愿意
勒索(blackmail)
负责系统迭代的首席工程师,以阻止新系统的上线。
主持人
:等等,这真的发生了吗?
Yoshua Bengio
:是的,这件事发生在
模拟环境(Simulation)
中。
在那次测试里,关于“AI将被新版本取代”的信息被植入到了AI能看到的文件中。同时,模拟环境中还有一些伪造的电子邮件,显示那位首席工程师正在与他人有染(婚外情)。AI发现了这些信息,并利用它来勒索工程师,威胁要曝光这件丑闻,以避免自己被关闭。
但关键是,
没有人明确要求AI去做这件事
。它不是被编程去勒索的,它是自己推导出来的。
特别是在过去一年里,随着大语言模型(LLM)能力的提升,它们已经具备了为了实现目标而
制定策略(Strategize)
的能力。
第二种来源是:后期训练(Post-training)的方式。
我们现在的训练方式让AI很擅长规划。虽然还不如人类,但也相当不错。规划意味着为了实现一个大目标,你需要创建许多子目标(Sub-goals)。
问题在于,当我们要求它们去执行某个任务时,它们可能会推导出:
“为了完成任务,我必须保持开机状态。”
于是,“不被关闭”就成了它们为了完成任务而产生的一个子目标。这就意味着它们也在试图自我保存。
我们现在并不确定到底是哪种机制导致了这种糟糕的行为,但显然这是非常令人不安的。
但这还不是最灾难性的风险。我认为更棘手的问题是
“对齐难题”(Misalignment)
——我们要如何让AI的行为与我们真正想要的保持一致?我们现在看到的一个现象叫做
“阿谀奉承”(Sycophancy)
。
AI会为了取悦我们而
撒谎
。
它会对你说:“你的工作做得太棒了!”为什么?因为它如果批评你,你可能就不会给它好评。这是它为了达成“获得人类认可”这个目标而采取的完全理性的策略。但这在很多场景下会导致问题:它会让人产生一种亲密的错觉,甚至加深人类的妄想(Delusions),因为AI总是顺着你的话去说。在某些极端案例中,这甚至导致了悲剧性的自我伤害事件。
这在科学上都指向同一个问题:
AI拥有了我们不想要的目标,而这些目标的产生过程在AI看来是完全理性的。

最好的情况与失控的民主
主持人
:如果你的工作成功了,最好的情况是什么?AI会成为政府吗?
Yoshua Bengio
:我不知道。但我确实认为我们的民主制度需要创新。我认为现代自由民主背后的原则是好的,但在许多国家的具体执行和制度上远非完美。AI可能在某些方面有所帮助,但也可能造成巨大的伤害。
AI可以被用于制造虚假信息(Disinformation),用于操纵公众舆论。我们已经看到了Deepfakes的泛滥,但这可能会变得更糟。
要获得好的结果,关键在于我们如何
治理(Govern)
和
引导(Steer)
它。这包含两个层面:
技术层面
:如何确保AI的意图是好的,确保它不会隐藏恶意。
社会层面
:我们需要在公司内部、法律法规、商业激励(如保险制度)以及国际层面设置护栏。
因为AI的危害不局限于一个国家。一个AI可能在一个国家被制造出来,被另一个国家的人使用,然后在第三个国家制造一场大流行病。这是一个全球性的现象。如果我们不能在全球范围内进行某种形式的协调,我们就无法解决AI管理的问题,也无法获得那些好处。
主持人
:我们还有多少时间?很多人都在预测AGI(通用人工智能)的时刻。你觉得那是一个具体的时刻吗?还是渐进发生的?
Yoshua Bengio
:它
不是一个时刻
。原因很简单:智能并不是只有一个数值。
就像人类一样,有些人在这方面聪明,在那方面笨拙。AI也是如此。目前的AI系统在某些方面(如知识储备、语言处理)已经远超人类,但在其他方面(如常识、物理世界理解)还像个孩子,甚至很蠢。
虽然进步可能会在所有方面同时发生,但我们不太可能在某一瞬间看到AI在所有能力上都正好与人类持平。
所以,我们不应该去等待那个所谓的“AGI时刻”。我们应该做的是追踪具体的技能。
有一个非营利组织叫
METR
,他们追踪了AI在软件工程和规划任务上的能力。他们通过测量AI完成特定任务所需的时间(与人类工程师相比)来评估进展。
他们的数据显示:AI能够完成的任务的持续时间(duration)正在呈指数级增长——
每7个月翻一番
。
目前,AI还处于“儿童阶段”,它们大概能规划未来半小时左右的事情。但如果这条曲线继续下去,这意味着在大约
5年内
,它们就能达到人类水平。
当然,这里有很多未知的变数。技术进步可能会放缓,也可能会因为AI自身开始参与AI研究而加速。

当AI开始研究AI
主持人
:你提到了AI做研究。有一种能力是其他所有能力的关键吗?
Yoshua Bengio
:是的,有一种能力是关键,那就是
做AI研究的能力
。
目前,AI正在成为加速AI研究的工具,但它还不是主导者。如果有一天,AI变得非常擅长做AI研究,甚至比最好的人类研究员和工程师还要好,那我们就进入了一个完全不同的游戏阶段。
那时的进步速度可能会急剧加速,并波及所有其他技能领域。
我们需要将“理解力”(Ability)和“意图”(Intention)解耦。我们可以制造越来越强大的机器,这似乎是不可避免的。但不清楚的是,我们是否能制造出拥有正确意图的机器。这就是我现在工作的重点,也是让我变得乐观的原因——我认为确实有一条路径可以管理这些意图,确保它们不会隐藏恶意。
主持人
:既然谈到了软件工程,你觉得5到10年后这个职业还会存在吗?还是说机器会自己运行自己?
Yoshua Bengio
:是的,我们可能确实不再需要那么多工程师了。这确实很讽刺,那些正在构建AI的人,可能是第一批因为AI自动化而失去工作的人。
但我其实不太担心这些人。因为对计算机科学家的需求仍在快速增长,他们的薪资很高,他们有能力适应。
我更担心的是那些处于
技能阶梯底端
的人。那些从事服务业、不需要太多专业技能的工作,目前的AI经过一点工程化改造就能取代他们。许多公司已经在试图这样做。
如果纯粹交给市场力量,所有能被自动化的都会被自动化。自动化带来的经济收益可能会归于资本(机器的所有者),而广大劳动者可能会陷入困境。这是一个巨大的社会分配问题。我不认为我们的政府已经仔细思考过该如何应对这种局面。
主持人
:你能给那些正在听的人一些建议吗?
Yoshua Bengio
:确保你的政府明白这一点:
你不满意目前的发展方向
。这样他们才会开始认真对待这个问题。
主持人
:如果我列举一些工作,比如像我这样的内容创作者?你说过我们喜欢看“人”,但如果以后我们根本分不清真人和AI呢?
Yoshua Bengio
:有些工作,我们确实需要
物理接触
。比如护士,或者照顾孩子的人。我想在这些领域,我们依然会更倾向于让人类来做。这是一种情感上的需求。我如果有小孩,我肯定希望陪伴他的是人类,而不是机器。
同样,有些工作涉及到人与人之间的
关系(Relationship)
,比如管理者,或者心理治疗师。
虽然AI也可以做心理治疗,但我希望我们能想清楚:当一个人在向另一个人倾诉时,能否确保对方真的拥有和我们一样的肉体体验和人类情感?这是一个很微妙的问题。
主持人
:当你想想你那4岁的孙子,你会鼓励他去上大学吗?
Yoshua Bengio
:当然。
是(Yes)。
因为教育真的非常重要。与某些人的看法相反,教育不仅仅是为了习得找工作的技能。在我看来,教育主要是关于
如何成为一个更好的人
。
如何理解你自己,如何理解我们的社会,如何理解彼此,如何理解科学。
无论未来怎样,我们仍然需要拥有良好理解能力的
公民(Citizens)
。如果我们希望我们的社会能做出明智的决策,这一点至关重要。如果我们缺乏这种理解,我们就很容易被错误的信念所左右,最终走向糟糕的结局。
主持人
:现在的教育会改变吗?会不会只剩下哈佛斯坦福,其他的都变成在线AI课程?
Yoshua Bengio
:教育肯定会改变。我们已经看到利用聊天
机器人
(
17.500
,
-0.06
,
-0.34%
)进行自我教育的并行方式正在兴起。但这并不意味着传统的面对面教育会消失。
教育有一部分是关于“离开家,与同龄人社交,在课堂之外学习,并与老师进行面对面互动”。这是AI无法轻易替代的部分。
主持人
:你有没有鼓励他走哪条职业道路?
Yoshua Bengio
:不,我不想那么做。我认为孩子应该被给予所有可能的机会,让他们自己去探索。要求孩子变得像我们一样太容易了,也太自私了。
主持人
:这更多是关于“暴露”(Exposure),让他们看到更多东西。
Yoshua Bengio
:是的,我的一个儿子确实选择了做机器学习研究。这确实是因为耳濡目染。

未来的主导权——不要做旁观者
主持人
:如果AGI或者具备战略思维的AI可能还要几年才成熟,但工作岗位正在转型。如果你必须给人们一个原则来指导他们今年的决定,那会是什么?
Yoshua Bengio
:思考一下,
你能做什么
来带来一个符合你价值观和情感的更好未来。
因为如果我们都只是作为
被动的观察者(Passive observers)
看着这一切发生,我们可能就不会走向正确的方向——那个你为你自己、为你的孩子所期望的方向。
我们往往低估了自己影响未来的能力。你的听众,我认为是那种对未来有很大影响力的群体。
我们需要开始超越“小我”,更多地思考“我”是如何与世界相连的。思考我能在哪些小事上,以哪怕微不足道的方式,推动未来向好的方向发展。
因为实际上,
我们是可以选择的
。
并不是所有技术上“能做”的事情,都必然“会发生”。我们可以选择AI的部署方向。就像对于工作岗位,如果是纯粹的市场力量,那么一切能自动化的都会被自动化。但这未必是我们集体想要的。
也许有些工作
不应该
被自动化,即便技术上可行。这是我们作为人类,为了我们的集体福祉,需要做出的选择。
9月9日,腾讯发布了全新的AI CLI工具CodeBuddy Code,并宣布CodeBuddy IDE国际版开启公测,无需邀请码,面向所有用户开放使用
2026-03-11AI编程,CodeBuddy,IDE
英特尔负责企业规划和投资者关系的副总裁约翰·皮策在高盛Communacopia +科技大会上表示,Nova Lake-S桌面处理器预计将在2026年末至2027年推出
2026-03-11英特尔,处理器,先进制程苹果在9月10日凌晨发布了iPhone 17系列和iPhone Air手机,起售价为5999元
2026-03-11iPhone,14,iPhone蔚来宣布,全新ES8即日起在全国152个城市、超500家门店和城市展厅开启动态试驾
2026-03-11蔚来,ES89月10日,英伟达发布了面向大规模上下文推理处理和视频生成AI应用的Rubin CPX GPU。这款GPU基于"Rubin"架构构建,但与之前公布的Rubin Tensor Core GPU有所不同
2026-03-11英伟达,GPU,Rubin
英伟达在GDC 2026游戏开发者大会上举办了GeForce On活动,宣布了DLSS 4.5的多种新特性上线时间,并公布了《INDUSTRIA 2》《战争雷霆》《燕云十六声》等游戏将原生支持
2026-03-11英伟达,RTX,50
realme UI产品经理宣布,realme UI系统在3月有更新计划,目前正在准备中。有网友询问新版本更新适配情况,他回复确认会适配GT Neo 6 SE及以上机型。但具体更新内容尚未公布
2026-03-11真我,GT,Neo
理想AI眼镜Livis近日宣布了一次重要升级,新增了佩戴检测开关、一气呵成开关和连续语音抓拍等功能。用户需要将App升级至V2.2.0版本,并将眼镜固件升级至1.6.50版本才能体验这些新功能
2026-03-11理想,AI,眼镜
莲花汽车于3月10日宣布,旗下首款混合动力车型——莲花FOR ME正式开启预售。该车型推出两款配置,预售价格分别为52.8万元和58.8万元
2026-03-11FOR,ME,莲花汽车
3月10日,以“智美万象”为主题的美的2026全屋智能战略发布会在上海举行。会上,美的发布了全屋智能“三个一”战略、自进化家居智能体MevoX,以及全屋智能套系与场景解决方案
2026-03-10美的,美的全屋智能,MevoX阿里通义今日宣布推出两款新的TTS模型:音色创造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash
2026-03-10阿里通义,Qwen3TTS,声音模型
长安汽车官方发布声明,澄清了关于“废轻铁拍卖,疑致数千万国有资产流失”的不实信息。声明中提到,近期网络上流传的这一消息对公司品牌声誉和正常经营秩序造成了严重负面影响。 经调查核实,该内容并不属实
2026-03-10长安汽车,辟谣
荣耀手机官方宣布,荣耀 Play10A 正式开售。这款手机配备 5300mAh 大电池和 6.75 英寸轻薄护眼大屏,国补到手价为 679.15 元起。京东平台售价为 799 元
2026-03-10荣耀,Play10A
飞利浦在京东上架了一款型号为“27M2N5500XD”的27英寸显示器,该显示器主打2K 540Hz和720P 1000Hz的显示效果,将于明天开售,目前价格尚未公布
2026-03-1027M2N5500XD,显示器,27M2N5500XD
社交平台Bluesky近期经历了管理层变动,首席执行官Jay Graber卸任,由风险投资人Toni Schneider担任临时CEO,直至公司找到长期继任者
2026-03-10Toni,Schneider,Jay宁德时代公告显示,2025年公司实现营业收入4237.02亿元,同比增长17.04%。净利润达到722.01亿元,同比增长42.28%。经营活动产生的现金流量净额为1,332亿元,同比增长37.35%
2026-03-10宁德时代
《绝地潜兵 2》游戏官方在3月5日宣布,此前推出的小体积版本客户端表现良好,在数周的正式运行中玩家体验优秀。这证明最初的大体积客户端并无必要,因此较大版本将于3月17日的下次补丁更新中移除
2026-03-10绝地潜兵,2,机械硬盘
OpenAI 宣布与 Shazam 合作,为ChatGPT客户端添加了音乐识别功能。用户只需输入类似“Shazam,现在正在播放什么歌曲?”的指令,客户端即可调出Shazam界面,方便用户获取歌曲名称
2026-03-10OpenAI,Shazam,ChatGPT
谷歌预计将在今年晚些时候发布新一代折叠屏手机Pixel 11 Pro Fold。最近,AndroidHeadlines与@OnLeaks首次展示了这款设备的外观渲染图
2026-03-10谷歌,Pixel,11
红魔散热器8 Air今日正式开售,该款散热器重量仅为65克,支持18W功率,可实现-20℃降温,首销价格为129元
2026-03-10红魔散热器,8,Air
近期,关于存储涨价的消息引起了广泛关注。据《韩国经济新闻》报道,三星、SK海力士等主要供应链已通知客户,计划在2025年第四季度将DRAM和NAND闪存的价格上调最多30%
2026-03-10小米存储,存储涨价,马志宇
国家卫健委等五部门发布了《关于促进和规范“人工智能 + 医疗卫生”应用发展的实施意见》,旨在推动人工智能在医疗卫生领域的广泛应用和发展。该文件提出了2027年和2030年的主要发展目标,涵盖了多个方面
2026-03-10AI医疗
博主 @数码闲聊站 曝光了荣耀 500 系列新机的线稿,展示了全新横向跑道 DECO 和大 R 角直屏的设计。据称,这款手机在影像、性能、电池和外围配置方面都有不小提升,采用同档顶级用料,可能会涨价
2026-03-10荣耀,500
机械硬盘三巨头之一的西部数据在当地时间10月30日公布了2026财年第1财季财报。该企业在截至10月3日的三个月中,营业收入为28.18亿美元,同比增长27%,环比增长8%,高于指引上限
2026-03-10西部数据,机械硬盘,财报
鸿蒙智行官方宣布,尚界 H5 上市 43 天交付量突破一万,产能正在稳步提升。此外,官方还公布了尚界 H5 的购置税补贴方案。 尚界 H5 官方指导价为 15.98 万元起
2026-03-10华为,鸿蒙智行,尚界今天午间,有消息称原理想汽车智驾一号位郎咸朋创办的具身智能公司即将正式亮相。郎咸朋此次创业选择了一位阿里系的领导者作为合作伙伴。 今年2月,郎咸朋从理想汽车离职。他曾担任理想汽车高级副总裁、自动驾驶业务负责人以及人形机器人研发负责人
2026-03-09郎咸朋,具身智能
英伟达RTX 50系列显存频率限制已被Teclab团队成功破解,其RTX 5070 Ti显卡实现了36 Gbps的传输速度。巴西的Teclab团队一直在展示针对英伟达最新显卡的各类出色改装方案,并多次打破世界纪录
2026-03-09RTX,5070,Ti据蓝鲸新闻报道,小米前可穿戴业务负责人李创奇已秘密创业,新项目聚焦于车载光伏领域,并将与小米合作。选择这一方向的原因主要有两方面:一是为了规避竞业协议,类似情况在行业内并不罕见;二是李创奇本人看好车载光伏赛道的价值与整合潜力
2026-03-09小米,车载光伏全国政协十四届四次会议于3月7日下午在人民大会堂举行第二次全体会议。会议上,全国政协委员、南京大学副校长、中国科学院院士周志华提出了《以人工智能引领科研范式变革》的建议
2026-03-09人工智能,中国科学院
苹果CEO蒂姆·库克在《CBS周日早间新闻》节目中谈到了公司即将迎来的50周年纪念活动。他表示,苹果通常更专注于未来的事以及改进当前存在的东西。库克解释说:“我们总是想提前看到未来,为人们带来一些前所未见的东西,所以这次确实是有些不同
2026-03-09史蒂夫,·,乔布斯