划重点:
1.“从0到1”难,“从1到100”其实也一样难。说DeepSeek只是工程上的技术拼接,并不公平。
2.DeepSeek从来没想过“弯道超车”。它的想法很简单,就是在保证大模型性能的前提下,把高昂的训练成本打下来。
3.很多机器学习做得好的都是年轻人。
4.中国人才很多,但如果用KPI给研究人员“拴死”在那,“带着脚镣跳舞”,他一定跳得不好。
出品|搜狐科技
作者|郑松毅
编辑|杨锦
所谓“人红是非多”,国产AI“黑马”DeepSeek,在震惊海内外科技圈后,正在引发争议和质疑。
随着市场逐渐平静下来,业界质疑DeepSeek技术创新性的声音不断袭来,以及中美之间的AI差距是否真的在缩小找齐。
DeepSeek被捧得太过了吗?马斯克、奥特曼等对其训练产生的质疑,该作何解释?中美在AI竞技打法上有哪些新思考,差距几何?
近日,搜狐科技与有着近20年学术积累,身处AI浪潮一线的,美国杜克大学电子与计算机工程系杰出教授陈怡然,进行了深度对话。
以下为对话实录(经整理编辑)
搜狐科技:外界对DeepSeek有很多不同的声音。Scale AI创始人认为,“DeepSeek的出现或将一改美国在过去十几年的AI领先位置。” 但谷歌DeepMind 首席执行官却直言,“其技术无本质创新,是外界炒作过头了。” 您怎么看?
陈怡然:DeepSeek是工程上的成功,它用到的技术基本没有什么是大家以前都不知道的,或者说是“石破天荒”的。
搜狐科技:该怎么理解“工程上的成功”?
陈怡然:目前对于大模型训练,有很多种方法,当然不同的方法也会组合到一起,尝试训练效果。
DeepSeek其实是把这点做到了极致,不断尝试不同的方法组合、方法优化,最后能把训练成本降到现在这么低的水平,并且愿意把找到的好方法开源分享,我觉得这其最主要的贡献。
搜狐科技:您更倾向于强调它在工程上的成功,是暗指技术创新上没做出太多贡献吗?
陈怡然:不能这么说,工程上的成功也是建立在技术创新基础之上的。
就算用到的技术大家都知道,但怎么有效地组合在一起,变成一个真实可用的优秀架构,实际上是很难的一件事。
大家常说“从0到1”难,但“从1到100”其实也一样难。只认为DeepSeek是工程上的技术拼接,并不公平。
搜狐科技:大家认为DeepSeek这次用到的“MoE”等亮点技术,之前早有企业用到,技术本质并无创新,没任何科学进步,您怎么看?
陈怡然:“MoE”是很早之前就有的技术,我们团队在研究中也用过,这都不是秘密。但不能说,有人现在用更好的方式去重新用一遍就不是创新。
尤其现在很多技术都是开源的,很难说谁能找到一本大家从未见过的“武林秘籍”,大多技术都是有迹可循的,这也是科研过程中的正常轨迹。
搜狐科技:对DeepSeek提出质疑的还有马斯克,不相信他们只有极少的芯片,也不相信官方披露的只用了600万美元训练成本。您怎么看?
陈怡然:整体研发成本肯定是高于600万美元的,这个毫无疑问。因为想把模型做成现在这样,肯定是经过了无数次试错的。
就像做菜,你之前试菜用了多少食材,多少成本并不清楚。600万美元指的是最后一次把菜炒成功,用了这么多钱。
搜狐科技:有人认为DeepSeek的团队整体很年轻,DeepSeek的领先优势也很快可能被其他人超越。您觉得呢?
陈怡然:后面有团队会做出超越DeepSeek的模型是肯定的,而且不会太久。现在相关技术已经开源,很多人已经上手研究这个事,做出来不奇怪。
但从年龄角度讲,机器学习做的好的人都很年轻。比如何恺明那群人,很多有影响力的想法都是他们在二十多岁时就提出来的。
搜狐科技:回到对技术的讨论,奥特曼说“DeepSeek用低成本训练大模型只是小打小闹,要想做最智能的模型,就需要继续在资金和算力上投入。”揭示了OpenAI与DeepSeek在技术路线上的分歧。您怎么看中美在AI竞技打法上的博弈?
陈怡然:我觉得很多人对DeepSeek有一个很深的误解,DeepSeek从来没想过“弯道超车”。他的想法很简单,就是要找到一个方法,在保证大模型性能的前提下,把高昂的训练成本打下来。
整体而言,DeepSeek和OpenAI走的不是一条路。OpenAI仍然相信用Scaling Law “大力出奇迹”,目标是造出新模型解决当前模型解决不了的问题。而DeepSeek实际是在已有框架下,探寻解决问题的更好方法,比如造出同样性能模型的前提下,怎么做得更便宜。
搜狐科技:硅谷一直推崇“烧钱模式”,堆资金和算力训练大模型。DeepSeek的出圈有改变硅谷的风向吗?
陈怡然:我其实不觉得。准确来说,在找到极简的有效模型表达前,通常会先使用一个比较复杂带有冗余的模型来完成想要表达的事,就像OpenAI最早公布的模型,再由繁化简。
为了探究AI的下一阶段水平,这个事肯定还是要有人来做的。且新技术探寻的开始阶段,肯定还是倾向于用更大的模型和数据进行训练,硅谷仍然在做这件事。
搜狐科技:所以像OpenAI这类玩家,更像技术“开拓者”,冲在最前面。像DeepSeek这类玩家,更像是工程师,来优化现有解决方案?
陈怡然:可以这么理解,但不能说工程师好像没有开拓者重要。因为开拓往往意味着要消耗大量资源成本,要想让技术真正做到普惠,让大众大规模使用,还要靠工程师多下功夫。
所以完全没有像大家想的有一个什么高下之分,无论是开拓还是优化,都需要有人去做。
搜狐科技:聊一个比较轻松的话题,为什么感觉这一波西方的反应比国内更夸张?
陈怡然:我觉得中美都挺上头的。从国内来讲,希望让大家都看到中国出现了一个特别好的技术,尤其是在训练效率和开源方面,是非常自豪的一件事。
从美国来讲,有一部分是对之前策略的反思,复盘之前AI技术策略的对与错,并规划下一步需要更多投入的是什么。再有就是华尔街的操作,要去炒作散播这些事,从而影响美股来挣钱。
我觉得大家还是要保持一个相对客观冷静的头脑去看这个事,尤其是做技术的人。
搜狐科技:美国、日本、印度等国家法案提议,要限制DeepSeek的下载使用,最高处罚面临监禁。这又是一次技术制裁吗,您怎么看?
陈怡然:不排除这种可能性,但也有逻辑在里面。一方面是出于安全的考虑,另一方面是DeepSeek火的太突然,可能连这个团队都没想到能到今天这个地步,像数据合规等操作可能并没来得及做完,其他国家在审核的时候材料不全。
搜狐科技:总的来看,您觉得DeepSeek的出圈,预示着中美AI差距在缩小吗?
陈怡然:我觉得这其实是一个伪命题。从技术角度来说,唯一的差距可能就是谁先一步做出来了,但这又不是其他团队真正的落后。因为其他人可能在模型基础上加以改进,过段时间又做出了更好的作品。永远是这样交替的,很难有人永远领先。
未来就是看谁能够在商业模式上,或者在不断的技术创新上能持续的往下走。
至于算力和芯片,是另外一个问题。中国的算力肯定还是远小于美国的,但不至于说就把国内的研发进度锁死了。国产芯片也正在努力做AI训练的适配工作,并且大模型训练所需的成本后面一定会继续周期性下降。
搜狐科技:您怎么看AGI(通用人工智能),现在又近了一点吗?
陈怡然:如果你看过一些采访,比如李飞飞,她觉得谈论AGI没有任何意义,这是一个Moving Target(永远在变动的目标)。
什么是AGI?每个人都有不同的理解。之前说是通过图灵测试就可以,现在又要用更高阶的测试来考验。我觉得大家对这个不用太上心。
搜狐科技:前两天看您在微博上又提起了“AI人才”话题,您觉得当前中国的AI人才储备怎么样?
陈怡然:中国人才很多,这是肯定的。那如果说是一个开放的环境,一个开放的心态,一个宽松的研发场所,相信这些人才能做得更好。
我觉得科研就是这样的,如果你用一个KPI给研究人员“拴死”在那,“带着脚镣跳舞”,他一定跳得不好。相反,当让他去自由发挥的时候,反而会带来更多惊喜。
搜狐科技:最后一个问题,您认为DeepSeek的爆发,给中国AI大模型发展带来了什么启发?百度、腾讯、阿里、“AI六小龙”,可以在哪些方面多下功夫,多些思考?
陈怡然:这是一个特别好的问题。我个人判断,会让很多大厂更关注于模型的效率,而不是一味地追求模型的大和高性能。
很多模型可以说已经超过人类智能水平,但可能受运行效率影响,让用户难以抉择用不用。其实对于普通用户来说,模型的准确率是71.9%还是72%并没那么重要。
反观训练和使用成本,如果一下降了10倍,这可能是一个巨大的影响。我觉得大家会对这种实际的成本问题更加敏感,这也会在一定程度上影响模型的铺开应用。
就是大家别老想着说做一个像“天网”似的supercomputer(超级计算机),实际上我们需要的是千千万万个跟人类一样聪明的AI在身边,执行不同的任务,各有所长。