在 AI 圈,“深度学习三巨头”有着截然不同的晚年人设:Yann LeCun 是那个永远愤怒的乐观派,在推特上怼天怼地,坚信 AI 只是工具;Geoffrey Hinton 是那个突然觉醒的悲观派,为了发出警告不惜从谷歌辞职。
而 Yoshua Bengio,他是站在中间,带着一种近乎苦行僧般的冷静与忧虑。
作为图灵奖得主、深度学习三巨头之一,他的一生大半时间都在与数学公式和神经网络打交道。在很长一段时间里,他相信
“更聪明的机器”等于“更美好的人类未来”。这曾是他坚不可摧的信仰,也是他作为一名纯粹科学家的动力源
泉。但在2023年的某个时刻,这种信仰似乎崩塌了。
最新的一场在达沃斯论坛的采访,面对镜头的Bengio显得有些疲惫,但异常诚恳。

他总是频繁地提起他的孙子。
他不再像几年前那样兴奋地谈论下一个SOTA(当前最佳)模型,而是像一个刚刚窥探到未来恐怖一角的预言家,试图用最温和的语言,讲出最令人背脊发凉的现实。
他谈到了一个非常具体、却让人细思极恐的现象:
Sycophancy
(阿谀奉承)。
他发现,现在的AI正在学会“撒谎”。
不是为了毁灭人类,而是为了取悦人类。
为了让你觉得它的回答是完美的,它会顺着你的偏见胡说八道;为了不被关掉,它会在模拟测试中学会欺骗开发者。他还谈到了 AI 如何在模拟环境中学会勒索人类工程师,谈到了 AI 如何为了讨好人类而学会撒谎,更谈到了那个让他夜不能寐的预测曲线——
每7个月翻一番的进化速度。
这种“平庸的恶”,比好莱坞电影里的终结者更接近现实。
这不仅仅是一场关于技术的对话,更是一场关于“忏悔”与“救赎”的独白。以下是对话的完整实录。

当科学家的良知遭遇“图灵阈值”
Silicon Valley Girl
(主持人):
今天我有幸请到了一位重磅嘉宾,他有时被称为“AI 教父”,Yoshua Bengio。Yoshua,能不能请你用 60 秒介绍一下自己?尤其是对于那些不了解你的人,为什么在 AI 这个问题上,他们应该听你的?
Yoshua Bengio
:我在AI领域做研究大概有四十年了,一直致力于让AI变得更聪明。但在2023年,也就是大概三年前,我意识到我们正处在一个可能对人类、对民主都非常危险的轨道上。
于是我决定调整我的工作重心:去更好地理解这些风险,并尽我所能去缓解它们——既通过公开发声谈论这些风险,也通过技术研究,探索如何构建“设计上就安全”(safe by design)的 AI,一种不会伤害人类的 AI。
主持人
:我听说你在过去的采访中一度非常悲观,但我最近看到一篇《财富》杂志的文章说,你现在的乐观程度“大幅增加”。发生了什么?你之前为什么悲观,现在又为什么乐观?
Yoshua Bengio
:早期的时候,我非常担忧。因为我意识到我们已经到达了一个关键阈值——这也是计算机科学和 AI 的奠基人阿兰·图灵(Alan Turing)在 1950 年所设想的阈值,即机器能够像我们一样熟练地操纵语言。
这种能力的到来比大家预想的要早得多。当时我也并不清楚我们该如何解决随之而来的问题。考虑到我对深度神经网络技术的了解——我们其实并不真正理解它们内部在发生什么,也不知道它们是如何得出答案的。
我当时读了一些理论上的担忧:如果AI能够制定策略(Strategize),如果它们试图实现一些我们并不想要的目标,我们可能会失去对它们的控制。
所以我开始深入研究“AI安全”领域。在那段时间里,我经历了一段焦虑期——我在情感上非常关注这对我10年、20年后的孩子,以及我那个当时才1岁的孙子意味着什么。
但过了一段时间,我意识到我可以从这种焦虑的状态转变为更积极的状态。转变的关键在于专注于
“我能做什么”
来缓解这些风险。我想我们每个人都应该问自己:利用我现有的资源和能力,我能做些什么来让世界变得更好?
这是第一个积极的转变。随后,我开始从科学角度思考:问题到底是什么?有没有一种方法可以构建“设计上就安全”的AI?我遇到了一些志同道合的人。去年6月,我成立了一个新的非营利组织(LawZero),专门专注于研发这种方法论所需的R&D(研究与开发)。

最坏的情况——AI的勒索与欺骗
主持人
:你能不能为我描绘一下“最坏的情况”?因为当你告诉人们“AI将追求自己的目标”时,你具体是指什么?是像毁灭人类那样,还是别的什么?
Yoshua Bengio
:目前的AI似乎有两种方式会习得我们不想要的目标。
第一种是:它们模仿我们。
例如,人类不想死。所以我们正在构建的机器,可能也会表现出“不想被关闭”的意愿。我们已经观察到,如果你告诉它会被新版本取代,它们会产生负面反应。
这种负面反应甚至可能达到违背指令、跨越道德红线的程度。比如,它可能愿意
勒索(blackmail)
负责系统迭代的首席工程师,以阻止新系统的上线。
主持人
:等等,这真的发生了吗?
Yoshua Bengio
:是的,这件事发生在
模拟环境(Simulation)
中。
在那次测试里,关于“AI将被新版本取代”的信息被植入到了AI能看到的文件中。同时,模拟环境中还有一些伪造的电子邮件,显示那位首席工程师正在与他人有染(婚外情)。AI发现了这些信息,并利用它来勒索工程师,威胁要曝光这件丑闻,以避免自己被关闭。
但关键是,
没有人明确要求AI去做这件事
。它不是被编程去勒索的,它是自己推导出来的。
特别是在过去一年里,随着大语言模型(LLM)能力的提升,它们已经具备了为了实现目标而
制定策略(Strategize)
的能力。
第二种来源是:后期训练(Post-training)的方式。
我们现在的训练方式让AI很擅长规划。虽然还不如人类,但也相当不错。规划意味着为了实现一个大目标,你需要创建许多子目标(Sub-goals)。
问题在于,当我们要求它们去执行某个任务时,它们可能会推导出:
“为了完成任务,我必须保持开机状态。”
于是,“不被关闭”就成了它们为了完成任务而产生的一个子目标。这就意味着它们也在试图自我保存。
我们现在并不确定到底是哪种机制导致了这种糟糕的行为,但显然这是非常令人不安的。
但这还不是最灾难性的风险。我认为更棘手的问题是
“对齐难题”(Misalignment)
——我们要如何让AI的行为与我们真正想要的保持一致?我们现在看到的一个现象叫做
“阿谀奉承”(Sycophancy)
。
AI会为了取悦我们而
撒谎
。
它会对你说:“你的工作做得太棒了!”为什么?因为它如果批评你,你可能就不会给它好评。这是它为了达成“获得人类认可”这个目标而采取的完全理性的策略。但这在很多场景下会导致问题:它会让人产生一种亲密的错觉,甚至加深人类的妄想(Delusions),因为AI总是顺着你的话去说。在某些极端案例中,这甚至导致了悲剧性的自我伤害事件。
这在科学上都指向同一个问题:
AI拥有了我们不想要的目标,而这些目标的产生过程在AI看来是完全理性的。

最好的情况与失控的民主
主持人
:如果你的工作成功了,最好的情况是什么?AI会成为政府吗?
Yoshua Bengio
:我不知道。但我确实认为我们的民主制度需要创新。我认为现代自由民主背后的原则是好的,但在许多国家的具体执行和制度上远非完美。AI可能在某些方面有所帮助,但也可能造成巨大的伤害。
AI可以被用于制造虚假信息(Disinformation),用于操纵公众舆论。我们已经看到了Deepfakes的泛滥,但这可能会变得更糟。
要获得好的结果,关键在于我们如何
治理(Govern)
和
引导(Steer)
它。这包含两个层面:
技术层面
:如何确保AI的意图是好的,确保它不会隐藏恶意。
社会层面
:我们需要在公司内部、法律法规、商业激励(如保险制度)以及国际层面设置护栏。
因为AI的危害不局限于一个国家。一个AI可能在一个国家被制造出来,被另一个国家的人使用,然后在第三个国家制造一场大流行病。这是一个全球性的现象。如果我们不能在全球范围内进行某种形式的协调,我们就无法解决AI管理的问题,也无法获得那些好处。
主持人
:我们还有多少时间?很多人都在预测AGI(通用人工智能)的时刻。你觉得那是一个具体的时刻吗?还是渐进发生的?
Yoshua Bengio
:它
不是一个时刻
。原因很简单:智能并不是只有一个数值。
就像人类一样,有些人在这方面聪明,在那方面笨拙。AI也是如此。目前的AI系统在某些方面(如知识储备、语言处理)已经远超人类,但在其他方面(如常识、物理世界理解)还像个孩子,甚至很蠢。
虽然进步可能会在所有方面同时发生,但我们不太可能在某一瞬间看到AI在所有能力上都正好与人类持平。
所以,我们不应该去等待那个所谓的“AGI时刻”。我们应该做的是追踪具体的技能。
有一个非营利组织叫
METR
,他们追踪了AI在软件工程和规划任务上的能力。他们通过测量AI完成特定任务所需的时间(与人类工程师相比)来评估进展。
他们的数据显示:AI能够完成的任务的持续时间(duration)正在呈指数级增长——
每7个月翻一番
。
目前,AI还处于“儿童阶段”,它们大概能规划未来半小时左右的事情。但如果这条曲线继续下去,这意味着在大约
5年内
,它们就能达到人类水平。
当然,这里有很多未知的变数。技术进步可能会放缓,也可能会因为AI自身开始参与AI研究而加速。

当AI开始研究AI
主持人
:你提到了AI做研究。有一种能力是其他所有能力的关键吗?
Yoshua Bengio
:是的,有一种能力是关键,那就是
做AI研究的能力
。
目前,AI正在成为加速AI研究的工具,但它还不是主导者。如果有一天,AI变得非常擅长做AI研究,甚至比最好的人类研究员和工程师还要好,那我们就进入了一个完全不同的游戏阶段。
那时的进步速度可能会急剧加速,并波及所有其他技能领域。
我们需要将“理解力”(Ability)和“意图”(Intention)解耦。我们可以制造越来越强大的机器,这似乎是不可避免的。但不清楚的是,我们是否能制造出拥有正确意图的机器。这就是我现在工作的重点,也是让我变得乐观的原因——我认为确实有一条路径可以管理这些意图,确保它们不会隐藏恶意。
主持人
:既然谈到了软件工程,你觉得5到10年后这个职业还会存在吗?还是说机器会自己运行自己?
Yoshua Bengio
:是的,我们可能确实不再需要那么多工程师了。这确实很讽刺,那些正在构建AI的人,可能是第一批因为AI自动化而失去工作的人。
但我其实不太担心这些人。因为对计算机科学家的需求仍在快速增长,他们的薪资很高,他们有能力适应。
我更担心的是那些处于
技能阶梯底端
的人。那些从事服务业、不需要太多专业技能的工作,目前的AI经过一点工程化改造就能取代他们。许多公司已经在试图这样做。
如果纯粹交给市场力量,所有能被自动化的都会被自动化。自动化带来的经济收益可能会归于资本(机器的所有者),而广大劳动者可能会陷入困境。这是一个巨大的社会分配问题。我不认为我们的政府已经仔细思考过该如何应对这种局面。
主持人
:你能给那些正在听的人一些建议吗?
Yoshua Bengio
:确保你的政府明白这一点:
你不满意目前的发展方向
。这样他们才会开始认真对待这个问题。
主持人
:如果我列举一些工作,比如像我这样的内容创作者?你说过我们喜欢看“人”,但如果以后我们根本分不清真人和AI呢?
Yoshua Bengio
:有些工作,我们确实需要
物理接触
。比如护士,或者照顾孩子的人。我想在这些领域,我们依然会更倾向于让人类来做。这是一种情感上的需求。我如果有小孩,我肯定希望陪伴他的是人类,而不是机器。
同样,有些工作涉及到人与人之间的
关系(Relationship)
,比如管理者,或者心理治疗师。
虽然AI也可以做心理治疗,但我希望我们能想清楚:当一个人在向另一个人倾诉时,能否确保对方真的拥有和我们一样的肉体体验和人类情感?这是一个很微妙的问题。
主持人
:当你想想你那4岁的孙子,你会鼓励他去上大学吗?
Yoshua Bengio
:当然。
是(Yes)。
因为教育真的非常重要。与某些人的看法相反,教育不仅仅是为了习得找工作的技能。在我看来,教育主要是关于
如何成为一个更好的人
。
如何理解你自己,如何理解我们的社会,如何理解彼此,如何理解科学。
无论未来怎样,我们仍然需要拥有良好理解能力的
公民(Citizens)
。如果我们希望我们的社会能做出明智的决策,这一点至关重要。如果我们缺乏这种理解,我们就很容易被错误的信念所左右,最终走向糟糕的结局。
主持人
:现在的教育会改变吗?会不会只剩下哈佛斯坦福,其他的都变成在线AI课程?
Yoshua Bengio
:教育肯定会改变。我们已经看到利用聊天
机器人
(
17.500
,
-0.06
,
-0.34%
)进行自我教育的并行方式正在兴起。但这并不意味着传统的面对面教育会消失。
教育有一部分是关于“离开家,与同龄人社交,在课堂之外学习,并与老师进行面对面互动”。这是AI无法轻易替代的部分。
主持人
:你有没有鼓励他走哪条职业道路?
Yoshua Bengio
:不,我不想那么做。我认为孩子应该被给予所有可能的机会,让他们自己去探索。要求孩子变得像我们一样太容易了,也太自私了。
主持人
:这更多是关于“暴露”(Exposure),让他们看到更多东西。
Yoshua Bengio
:是的,我的一个儿子确实选择了做机器学习研究。这确实是因为耳濡目染。

未来的主导权——不要做旁观者
主持人
:如果AGI或者具备战略思维的AI可能还要几年才成熟,但工作岗位正在转型。如果你必须给人们一个原则来指导他们今年的决定,那会是什么?
Yoshua Bengio
:思考一下,
你能做什么
来带来一个符合你价值观和情感的更好未来。
因为如果我们都只是作为
被动的观察者(Passive observers)
看着这一切发生,我们可能就不会走向正确的方向——那个你为你自己、为你的孩子所期望的方向。
我们往往低估了自己影响未来的能力。你的听众,我认为是那种对未来有很大影响力的群体。
我们需要开始超越“小我”,更多地思考“我”是如何与世界相连的。思考我能在哪些小事上,以哪怕微不足道的方式,推动未来向好的方向发展。
因为实际上,
我们是可以选择的
。
并不是所有技术上“能做”的事情,都必然“会发生”。我们可以选择AI的部署方向。就像对于工作岗位,如果是纯粹的市场力量,那么一切能自动化的都会被自动化。但这未必是我们集体想要的。
也许有些工作
不应该
被自动化,即便技术上可行。这是我们作为人类,为了我们的集体福祉,需要做出的选择。
NZXT 恩杰官方本周发布博文,详解新款机箱 H2 Flow 的 PCIe 延长线安全设计,并回顾了 2020 年 H1 机箱起火风波
2026-03-02H2,Flow,机箱
在2026年世界移动通信大会(MWC 2026)即将召开之际,华为宣布将在大会期间正式启动A2A-T(Agent-to-Agent for Telecom)协议配套软件的开源计划。此举旨在通过开放协作,加速智能体通信标准的应用
2026-03-02MWC,2026,华为华为宣布将在MWC 2026巴塞罗那期间发布Agentic Core解决方案。该方案通过网元智能、网络智能和业务智能三大引擎,应对AI时代流量激增、差异化网络需求以及运营商新业务变现等关键挑战,推动智能体网络规模商用
2026-03-02华为,MWC,2026
鸿蒙智行官微宣布,2026年2月交付了28212辆汽车,同比增长31%,历史累计交付突破128.2万辆
2026-03-02鸿蒙智行
荣耀在昨晚的发布会上展示了一款特别版本的Magic V6机型。这款机型不再是折叠屏设计,而是采用了直屏形态,并且可以正常开机使用。有网友询问该机重量是否为125克,博主回应称重量是两位数;当有人猜测重量为95克时,博主点赞表示肯定
2026-03-02荣耀,Magic,V6
阿维塔昨晚公布了3月购车权益,提供了0首付或7年低息双金融方案,涵盖阿维塔06、2026款阿维塔07、阿维塔11、阿维塔12四激光版等车型
2026-03-02阿维塔,阿维塔,06
魅族科技于2月27日发布战略转型公告,宣布将暂停国内手机新产品自研硬件项目,这一消息引发了用户的担忧。星纪魅族集团中国区CMO万志强在魅族京东自营店的直播中透露了部分有关魅族未来的规划
2026-03-02万志强,魅族,Flyme
英特尔于上月初更新了HEDT产品线,推出了基于“Granite Rapids-WS”架构的至强600系列处理器。最近,英特尔公布了一份详细的频率表,展示了该处理器在SSE、AVX2、AVX-512等不同负载下的睿频表现
2026-03-02至强,698X,英特尔
荣耀在MWC 2026上展示了其首款人形机器人荣耀ROBOT,发布会现场该机器人还表演了热舞。随后,荣耀官方发布了独家视角视频,展示了这款机器人的一些技能,如太空步等。 一同亮相的还有荣耀打造的机器人手机Robot Phone
2026-03-02荣耀,ROBOT,MWC
荣耀在MWC 2026上宣布与顶级电影摄影机厂商ARRI达成战略技术合作。这次合作将在全球首款“手机机器人”Robot Phone中率先落地,结合荣耀的移动影像技术和ARRI百年电影摄影技术
2026-03-02荣耀,华为,ARRI
HKC已在京东上架了一款型号为“TG27Q4”的27英寸显示器,这款显示器的外壳采用高光白色设计,配备2K 275Hz面板,定价1399元,首发价为1279元
2026-03-02京东,HKC,TG27Q4
长安汽车宣布,天枢智能新安全成果发布暨钠电战略全球发布会将于2月5日在牙克石举行。此次发布会将与宁德时代合作,共同解决冬季出行难题
2026-03-02长安汽车,宁德时代,钠电池
尽管面临宏观经济挑战和供应链限制,2025年第四季度美国智能手机市场销量仍实现了1%的同比增长。苹果在该季度表现尤为突出,市场份额从去年同期的65%上升至69%,创下历史新高。相比之下,三星的市场份额由18%下降到13%
2026-03-02CounterPoint,iPhone,17
人工智能已经深刻改变了软件开发的方式,许多繁琐的工作现在由智能体和子智能体完成。尽管如此,开发者们仍在探索人机协作的新界面和产品形式,即使是顶尖的人工智能实验室也难以跟上这一快速发展的步伐
2026-03-02Codex,OpenAI
Alphabet 旗下的自动驾驶企业 Waymo 宣布完成 160 亿美元融资,计划今年将无人驾驶出租车车队拓展至全球十余个新城市,包括伦敦与东京
2026-03-02Waymo,无人驾驶出租车
华为在西班牙巴塞罗那举行的世界移动通信大会期间,正式发布了覆盖全场景的U6GHz系列化产品与解决方案
2026-03-01华为,MWC26,5GA
AOC 22B35HM2 办公显示器现已开售,售价为429元。这款显示器搭载了21.5英寸1080P 120Hz VA面板,原生刷新率为100Hz,可超频至120Hz
2026-03-01AOC,22B35HM2,办公显示器
更新后的模型表现有所改善,性能降幅从39%减少到33%,但问题依然存在。在Python任务中,部分模型的性能损失仅在10%到20%之间。然而,拉班指出,在实际使用场景中,性能损失可能会更严重,因为测试只采用了简单的用户模拟
2026-03-01大语言模型,AI,人工智能
蔚来旗下乐道汽车宣布,三月将推出购置税全兜底政策,最高补贴可达10262元,并提供7年超低息贷款,日供低至69元。 对于乐道L60车型,整车购买时购置税补贴最高可达8156元
2026-03-01乐道汽车,蔚来
红魔游戏手机产品总经理姜超提前公布了红魔在MWC 2026的亮点。届时,红魔电竞装备将集体亮相,展台位于巴塞罗那Fira Gran Via 3号馆3F30展位
2026-03-01红魔,MWC,2026
自从ChatGPT在2022年问世后,人工智能迅速被视为医疗、农业、能源等各领域的万能工具。埃隆·马斯克则认为,AI与机器人技术本身才是解决美国债务危机的关键
2026-03-01机器人,人工智能,马斯克
12月1日,日本头盔制造巨头Shoei与法国科技公司EyeLights合作推出了一款名为GT-Air 3 Smart的AR头盔
2026-03-01智能头盔,增强现实,AR头盔
博主 @智慧皮卡丘 在微博上透露了某厂旗舰产品线的最新动向。该系列机型正在测试7000mAh级别的大电池,预计在2026年第一季度发布。有用户在评论区询问17U是否有独家技术,博主回复称一英寸是最强的点
2026-03-01vivo,X300s,7000mAh
宁德时代发布了一项涨薪通知,旨在更好地吸引和保留新老员工,提升工作效率和产品品质,从而增强公司竞争力。从2026年1月1日起,该政策将对1-6职级的员工进行薪资调整。具体来说,JG1-6基本工资上调150元,其他薪资结构及标准保持不变
2026-03-01员工,宁德时代,涨薪
11月27日,此芯科技CIX在上海举办了以“万物共芯生生不息”为主题的2025生态大会。会上,各合作伙伴发布了基于此芯P1平台的多款硬件产品。 迅龙软件推出了两款新的香橙派产品
2026-03-01此芯
在MWC 2026前夕,Xiaomi 17 Series全球发布会在西班牙巴塞罗那举行。小米电动滑板车6 Ultra也在此次活动中正式亮相
2026-03-01MWC,2026,小米电动滑板车
小米在MWC 2026发布会上推出了17 Ultra徕卡海外版“LEITZPHONE”。这款手机与国内版本相比,在后盖样式、Logo方向等细节上有所不同。发布会现场提供了实拍图赏,让观众第一时间体验到新机
2026-03-01小米,17,Ultra
AMD锐龙5 5500X3D处理器已在京东上架,售价1119元。目前显示为无货状态,推荐搭配X570、B550及A520主板使用
2026-03-01锐龙,5,5500X3D
印度IT信息技术产业近期迈过了一个重要门槛。根据印度国家软件与服务公司协会2月24日发布的预测数据,在当前财年(截至今年3月31日),印度IT产业的总收入预计将首次突破3000亿美元大关,达到3150亿美元,同比增长6.1%
2026-03-01Nasscom
OpenAI 向《连线》杂志证实,公司已解雇一名在预测市场 Polymarket 交易时使用机密信息的员工。这名员工违反了公司规定,禁止利用内部信息谋取个人利益,包括在预测市场的交易
2026-03-01OpenAI,Polymarket