嘉宾简介:
俞凯,上海交通大学计算机科学与工程系特聘教授、博导,思必驰联合创始人、首席科学家,国家“万人计划”科技创新领军人才。清华大学自动化系本科、硕士,英国剑桥大学工程系博士,长期从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作,《强化学习》(2019年版)的中文译者。
出品 | 搜狐科技
作者 | 梁昌均
编辑 | 杨锦
继九年前的AlphaGo之后,强化学习的力量再一次显现在公众面前。无论是ChatGPT的出圈,还是DeepSeek的爆火,底层都有强化学习的支撑。
英伟达CEO黄仁勋认为,强化学习是AI的重大突破,它可以让AI几乎拥有无限数据,并会在代理AI和物理AI领域发挥重要作用。
这离不开强化学习先驱理查德·萨顿(Richard S. Sutton)及其导师安德鲁·巴图(Andrew G.Barto),自80年代以来所做的持续性探索。两人不久前,还因此获得图灵奖。
这两位先驱的理论思想集中体现在1998年第一次出版的《强化学习》,时至今日其仍被视为强化学习领域的经典教材。
“思想总是走在行动的前面,就好像闪电总是走在雷鸣之前。”作为《强化学习》第二版的中文译者,俞凯在前言中用德国诗人海涅的这句诗,描述了首次读到该书英文原版时的感受。
俞凯兼具学者和创业者双重身份,目前是上海交通大学计算机系教授,同时是思必驰公司联合创始人、首席科学家。
近日,他在与搜狐科技的交流中,谈及再次爆火的强化学习难掩兴奋。“这不只是公众认知的更大认可,也是计算机领域对行为主义的巨大认可。”
俞凯本硕毕业于清华大学自动化系,2006年获得剑桥大学语音识别博士学位,2012年回国,成为把基于强化学习框架的对话管理决策的理论方向引入到国内的第一人。
俞凯介绍,强化学习最早的基本理念来源于上世纪四五十年代的控制论,并成为AI三大学派之一——行为主义的核心理论,发展也是历经起伏。
其中特别重要的突破是2016年的围棋机器人AlphaGo,这是深度学习和强化学习结合的一次胜利。后来的AlphaZero,则完全用强化学习达到了更高的水平。
当时,这给了俞凯很大信心。“我一直坚信强化学习会有重大作用,也鼓舞我们要更扎实做好自己的研究,并希望让更多的人知道强化学习的作用。”
于是,他有了想去翻译《强化学习》的念头,并得到作者支持,2019年中文译本出版。他在前言写道:“本书所介绍的强化学习,是后深度学习时代技术发展的重要火种之一。”
如今,这个火种照亮了人类通往AGI的前行之路——OpenAI、DeepSeek等都在用这个火种,探索AGI的实现路径。
“OpenAI和DeepSeek的贡献并不是基础理论,而是关键技术和工程尺度。”在俞凯看来,相比OpenAI,DeepSeek更激进,完全不用SFT(监督微调),这更接近强化学习的本质。
俞凯表示,强化学习和之前所有的范式不同,它可以在与环境交互中自己造数据,实现数据产生和模型优化的闭环,这是整体范式的变化。
这打破了深度学习的数据瓶颈。不过,俞凯强调,这并不意味强化学习未来会一统天下。“强化学习的思想,深度学习的手段,符号主义的理论,这些一定会交叉融合。”
这也是AGI能够实现的必要条件。“AGI的实现,已经走到了基础理论框架比较明确的阶段,但真正的关键技术和工程尺度问题解决,以及和真实世界融合方面,还有非常大的挑战。”
对于未来应用,俞凯认为,机器人会是强化学习最典型的领域,而AI将从生成智能变成执行智能,分布式、可控可靠和多模态系统将是重点,同时软硬结合也是趋势。
从杰弗里·辛顿(Geoffrey Hinton)到萨顿和巴图,他们的理论一度都不被重视,俞凯则把他们称为“非主流方向上的执着甚至孤独的思想者”。现在,这些智慧都发出耀眼的光芒。
谈及基础理论创新的突破,俞凯表示,这需要非功利性的目标,必须重视基础学科以及学科交叉融合。同时,还要鼓励独立探索,而参与者要做好长期坚持的准备。
以下是搜狐科技和俞凯教授的对话精编:
搜狐科技:DeepSeek让强化学习再显威力,为什么它再次受到关注?
俞凯:强化学习比人工智能这个词出现的都要早,最早的基本理念来源于四五十年代的控制论,和自动化、最优控制有本质联系,这条线叫行为主义。
后来,联结主义(深度学习)和符号主义都出现了,联结主义也是几起几落。直到语音和图像识别的突破,深度学习才被广泛认知,另外两个也开始和联结主义结合。
强化学习主要在工业自动化领域,不是特别突出。后来被人注意,特别重要的点是,公众认知中最难的智能任务——下棋博弈,强化学习异军突起。所以2016年的AlphaGo特别有影响力,它把强化学习和深度学习结合在一起,但解决的是科学问题。
这波大语言模型,又是强化学习和深度学习的结合,能够广泛应用了。本质讲,就是强化学习在关键的科学问题和产业问题的解决上产生了放大效应,使它获得了几次重大关注。
搜狐科技:最近的图灵奖授予Andrew Barto与Richard Sutton,包括去年杰弗里·辛顿等AI科学家获得了诺贝尔奖,您怎么看?
俞凯:这是巨大的认可,现在认为AI是各行各业都必须要掌握和发展的基础技术。所以图灵奖和诺贝尔奖,本质上都是对AI能够改变一切的认可。
我觉得可以认为AI是用机器对人类智力活动的模仿,本质还是计算。这个背景下,AI会融入一切,包括计算融入一切,网络连接一切,数据表征一切,软件定义一切。
搜狐科技:这两位图灵奖得主的《强化学习》,2019年第二次出版的时候您是中文译者,当时是什么样的机缘去翻译这本书?
俞凯:我是自动化的本硕,后来在英国剑桥待了十年,前五年做语音识别,后五年做对话系统,在世界上最早开始用强化学习框架去做建模对话。2012年我把这个理论带回国,开始做全链路对话系统的研究。
那时我们还在做深度学习,Yann LeCun的CNN是我们最早用在语音识别里。我们明确意识到再往下走,一定是行为主义和深度学习结合,强化学习会有重大推动,但很多人不了解。
所以我们想去翻译《强化学习》,这本书讲的是理论,讲的是基础原则和技术思想。能够成为textbook,就和paper不同,因为它具备基础性,新的东西都是在这上面长出来的。
搜狐科技:您刚才也提到AlphaGo,它被视为AI史上的标志性的事件,您当时怎么看?
俞凯:第一,不意外,对强化学习这件事能有重大作用,我们一直很坚信。第二,还是要更扎实做好自己的事儿,希望用深度学习和强化学习去做交互对话的突破。第三,希望能让更多的人知道强化学习的作用。
搜狐科技:大语言模型这波,ChatGPT用了RLHF,DeepSeek用了纯强化学习,您这么看这些突破?
俞凯:OpenAI和DeepSeek的贡献并不是基础理论,而是关键技术和工程尺度。RLHF很多人在研究,但因工程尺度没上去,用户体验和影响力远不能和OpenAI相比。
相比OpenAI采用的RLHF,DeepSeek更激进,完全不用SFT,之前的人不太敢想,他们敢试,就试出来了。这更接近于强化学习的本质,它把序列决策过程明确显示出来了。
搜狐科技:强化学习未来在模型智能提升上会不会发挥更大作用?
俞凯:我认为这是必然。监督学习需要标注数据,但数据已经用光。强化学习最重要的特点是,训练过程通过与环境交互不断产生新数据,数据产生和模型优化形成闭环,之前是开环。
强化学习不同于其它机器学习范式,其中特别重要的概念叫Bootstrapping(自举),就是自己去造数据,由弱变强,都是自己实现,这才是整体的范式变化。
搜狐科技:从应用领域看,强化学习在哪些领域有优势?
俞凯:强化学习一直都是控制系统的分支,所以机器人是最典型的领域。现在通用机器人非常少,严格来说还没有,它对做推理、做智能体也会有巨大的作用。
现在的智能体,很多还是基于大语言模型。现在看,强化学习不是唯一提升它性能的手段,其它手段如果还没用尽,可能强化学习还得需要时间才能深度应用。
搜狐科技:波士顿动力、宇树等都有在用强化学习,它能提升机器人什么能力?
俞凯:它可以提升机器人对复杂环境的决策和适应能力,很多机器人,屋里面挺好,到野外就出问题。强化学习能让机器人在新环境里,对感受到的情况做及时调整,和有监督系统相比,具备更强的环境适应能力和环境探索能力,能让机器人更稳定、更普适。但从我们的经验来看,宇树等公司一定是传统方法和强化学习的结合,纯强化学习不是那么容易做。
搜狐科技:您提到强化学习不会再有数据瓶颈,再往下发展面临哪些挑战?
俞凯:强化学习本质是试错学习,在仿真环境里容易做,各种算法已经很好,要解决的是仿真和真实世界如何有效融合,出错了成本很高。所以如何有效和低成本地去做真实世界的强化学习,是个巨大难题。
搜狐科技:过去十多年是深度学习的黄金时期,强化学习会迎来这样的阶段吗?
俞凯:现在强化学习,不只公众认知更大,还让这帮偏控制的人,被计算机领域认可。但我觉得下一步不是说强化学习就一统天下,后深度学习时代是两个融合。
第一个是从黑箱到白箱,深度学习与符号主义的融合,典型就是Diffusion Model(扩散模型)。另一个是开环变闭环,深度学习和强化学习的融合。从方向上讲,强化学习的思想,深度学习的手段,符号主义的理论,这些一定会交叉融合。
搜狐科技:所以AGI的实现,可能需要各取所长,并不是单纯靠某个路线就可以。
俞凯:这是必要性条件,更重大的条件是,真实场景的融合优化会是AGI真正实现的关键点。AGI的实现,我觉得已经走到了基础理论框架比较明确的阶段,但真正的关键技术和工程尺度问题解决,以及和真实世界融合方面,还有非常大的挑战。
搜狐科技:这波大模型竞争已经持续两年,您认为接下来的重要发展方向是什么?
俞凯:现在绝大部分大模型都在解决生成问题,如果要做通用智能,一定会往执行智能走。所以我们强调的是,第一是分布式架构,现在的大模型都是集中式。
第二,可控和可靠,要用在真实场景里,必须解决这些问题。第三,多模态系统化,这是通用人工智能走向物理世界的关键,要让不同模态和真实环境进行交流和反馈。
搜狐科技:您还创立了思必驰,去做技术的落地,您怎么看接下来的AI应用?
俞凯:现在应用已经爆发,大模型把热潮带起来了。思必驰一直坚持面向智能硬件交互去做对话式人工智能,在智能汽车、智能IoT、会议办公等领域落地,我们希望通过技术让用户感受到更加自然、流畅的交互体验。
下一个阶段,我认为是从生成智能变成执行智能,或者两者结合,同时一定会软硬结合。在大模型加持下,在云边端结合的趋势下,我们的生活环境,生产环境,一定会被智能化连接在一起。未来的应用,是智能硬件与通用人工智能结合的普世的人机交互和机器与机器交互。
搜狐科技:这些年AI技术不断演化,这对您的研究重心有什么影响?
俞凯:我具体研究点会有变化,但从本科自动化,到后来的模式识别,再到做对话系统、深度学习、跨媒体,主线就是要研发一种可以和环境自由交互,能够个性化表达,并且持续进化的信息智能体。思必驰也一直坚持做对话式人工智能,这也没有变过。
搜狐科技:深度学习和强化学习一度都不被看好,后来都逐渐受到认可。这对做基础创新的启示是什么?中国AI层面的创新,应该从哪些方面着手?
俞凯:杰弗里·辛顿和理查德·萨顿都是心理学,还跨了很多学科。真正的理论创新,需要有一些非功利性的目标。有时候我们不注重基础理论,再想去做创新的时候,思维就很狭窄。如果想做基础理论创新,就必须重视基础学科和学科交叉融合。
同时,要鼓励去做火种般的独立探索,相信会有不同的东西会出来,资源要分配在不同的路线上。参与的人,也要做好可能很长时间都没有结果的准备,要有很强的长期探索的精神。