OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录
座无虚席,过道里也站满了人。
甚至你会以为这是一场明星见面会。
但这其实是一场在硅谷进行的GenAI大会的其中一个圆桌。
它被安排在“副舞台”,时间在人们最昏昏欲睡的中午,另一间大会议室的台上坐着不少硅谷明星公司的CEO和创始人们,而这个圆桌“只是”一些研究员们,但人们依然不停涌入这个小房间。
他们的目标,是三个华人研究员。过往在硅谷,这样的场景总是发生在“硅谷公司最高位置的华人高管”出现时,但这一次,人们追逐的是三个年轻人。
Xinyun Chen,Chunting Zhou和Jason Wei 。
三家硅谷最重要的明星AI公司里的华人年轻研究员们。
这三个名字对于紧密跟随大模型浪潮的人们,绝对不会陌生。
Xinyun Chen(陈昕昀)是谷歌大脑和DeepMind推理团队的高级研究科学家。她的研究兴趣是神经程序合成和对抗性机器学习。她曾经在加州大学伯克利分校获得计算机科学博士学位,在上海交通大学ACM班获得计算机科学学士学位。
她参与的包括让LLM自己创造工具,教LLM自己进行代码debug的论文等,都是在AI代码生成领域十分重要和关键的论文。她也被一些媒体有些夸张的形容为“谷歌Deepmind华人天团”的成员之一。
Chunting Zhou是Meta AI的研究科学家。 2022 年 5 月,她在卡内基梅隆大学语言技术研究所获得博士学位,目前的主要研究兴趣在于自然语言处理和机器学习的交叉领域,以及对齐的新的方法。她主导的,尝试用更少的更精致的样本训练大模型的论文,被Yann Lecun大加赞赏,发文推荐,论文给业界在RLHF等主流方法之外提供了更新的思路。
而最后一位更是备受国内外AI社区推崇的明星研究员,OpenAI的 Jason Wei。大名鼎鼎的COT(Chain of Thoughts,思维链)开发者。他 2020 年本科毕业后,就成为谷歌大脑的高级研究员,在任职期间提出了思维链的概念,这也是LLM走向涌现的关键之一。 2023 年 2 月他加入OpenAI,进入ChatGPT团队。
人们冲着这些公司而来,但更冲着他们的研究而来。
在这场论坛里很多时候他们就像是学生,你仿佛在看一场大学里的讨论会,聪明的头脑,快速反应的逻辑,略显紧张,但也妙语连珠。
“为什么一定要认为幻觉是个坏事情呢?”
“但特朗普就天天幻觉。”
现场一片笑声。
这是一场很难得的对话,以下是对话实录,硅星人也参与并提出了问题。
问:我们来讨论一个LLM里非常重要的问题,就是幻觉(hallucination)。幻觉的概念早在曾经模型参数还很少,大小还很小的时候就提出来了,但现在随着模型越来越大,幻觉的问题又有了哪些改变?
Chunting:我可以先谈谈。我三年前做过一个项目,关于幻觉。当时和现在我们面对的幻觉问题很不一样,当时我们做很小的模型,并且讨论幻觉也是在具体的领域,比如翻译或者文档总结等功能。但现在显然这个问题的范畴更大了。
为什么大模型依然产生幻觉,我觉得有很多个原因。首先在训练数据方面,因为人类有幻觉,所以数据也出现问题。第二个原因是因为模型训练的方式,它没法回答实时的问题,那就会回答错。以及在推理等能力上的缺陷都会导致这个问题。
Xinyun:其实我会用另一个问题来开始这个回答。为什么人类认为幻觉是个坏事。
我有一个故事,我同事问过模型一个问题,这也是从一些评估题库里来的,当公主亲了青蛙,会发生什么。模型的回答是,什么都不会发生。
在很多模型评估的答案里,回答“会变成王子”才是那个正确答案,而什么都不会发生的这个答案都会标记为错误。但对我来说,我其实认为这是个更好的答案,很多有意思的人类也会这样回答。
为什么人们认为这是幻觉,是因为大家没有思考AI在什么场合不应该有幻觉,什么场合是应该有的。
比如创意的一些工作可能需要,想象力很重要。现在我们在不停的把模型做大,但这里的一个问题是,不管多大,它都不能准确的记住所有事情。人类其实也会有同样问题。我认为一个可以做的工作是,给模型辅助一些加强的工具,比如搜索,计算,编程的一些工具等。人类在这些工具帮助下可以很快解决幻觉的问题,而模型目前看起来还不太好。这也是一个我自己很想研究的问题。
Jason:要我说,特朗普就是天天在产生幻觉。(笑)你说好还是不好。
不过我觉得这里另一个问题是,人们对语言模型的预期在改变。2016 年,一个RNN生成一个URL,你的预期是它一定是个错误的,不值得信任。但今天呢,我估计你会期待模型在很多事情上都是正确的,所以你也会认为幻觉是更危险的。所以这其实是个很重要的背景。
(Jason Wei列出的有潜力的研究方向)
问:下一个问题先问Xinyun,现在行业一个很重要的话题是模型自我提高和比如说自我debug。你可以分享一下你的研究么。
Xinyun:模型自我debug的启发其实来自人类如何编程。我们知道人类编程,如果一次就结束,肯定也会出问题,一定需要debug。对于很厉害的程序员,debug也是很重要的技能。我们的目标是,没有任何外部指示的情况下,没有人类告诉它哪里错了的情况下,模型自己去看自己生成的代码,看操作出来的结果,然后判断哪里出了问题。有问题就去debug。
而为什么代码生成这件事会从自我debug中得到帮助,我认为有两个原因。第一,代码生成基本都是基于开源代码训练,它可以生成符合你大概要的方向的代码,但代码可能非常长,并且有不少错误,无法运行。但我们也没有必要从零开始编程而不用现有的代码库,因为无论你从零开始多少次问题同样无法避免,所以在已有的代码资源上去做代码生成是必须的,而debug就变得重要。第二,debug过程持续得到一些外部的反馈,对于模型的理解能力提高很有帮助。
问:一个后续问题是,把模型交给它自己,让它自我提升,但是否就不会出现问题了?
Chunting:我们曾做过一个奇怪的实验,结果agent在执行完了代码后删除了python的开发环境,如果这个agent进入真实世界,它可能会带来不好的影响。这是我们开发agent的时候需要考虑的东西。我也发现基础模型越小,能力越小,也很难做自我的提高和反思。也许我们能在对齐的过程中让模型看到更多的“错误”,来教会它自我提高。
问:Jason呢,对于评估模型你们如何做和如何看。
Jason:我个人的看法是,评估模型越来越有挑战,尤其在新的范式下。这背后有很多原因,一个是语言模型现在被用在无数的任务里,你甚至不知道它的能力范围到底多大。第二个原因是,看看AI的历史,我们主要在解决传统经典的问题,目标都是很短期,文本很短。但现在解决文本更长,即便人类都需要很长时间去判断。也许第三个挑战是,对于很多事情,所谓正确的行为并没有被很清晰的定义。
我认为一些事情我们可以去做来提高评估能力。第一个最明显的是从更广的范围来评估,遇到一些有害的行为时候能否更具体的拆解成更小的任务来评估。另外就是对于具体的任务能不能给出更多的评估方式,也许人类给一些,然后也可以用AI也给一些。
问:用AI评估AI的路线,你怎么看。
Jason:它听起来很棒。我认为我最近在关注的一个趋势是,用来评估模型的模型能否表现更好。比如宪法AI训练的思路,即便现在不是表现的很完美,但有很大可能等到下一代的GPT后,这些模型的表现会比人类更好。
硅星人:你们都是很年轻的研究员。我想知道你们作为在企业里的研究员,如何看待现在企业和学术界在GPU以及算力上的严重不匹配。
Jason:如果你在一些有约束的环境里工作,确实可能会产生负面影响,但是我认为很多工作还是有空间可以做的,比如算法的部分,那些对GPU可能不是非常需要的研究课题,永远是不缺少的。
Chunting:我也觉得有很多空间,有值得去探索的地方。比如对于对齐的方法的研究,其实就可以在有限的资源里进行研究。而且也许在湾区,对于学术界的人来说机会也更多。
Xinyun:总的来说,对于LLM研究来说,有两个大的方向,一个是提高结果表现,另一个是理解模型。我们看到很多好的框架,基准等,以及一些很好的算法都是来自学术界。
比如说,当我从博士毕业时候,我的导师给了一个建议——AI研究者要拉长到未来很多年的时间维度来思考研究,也就是不只是考虑对现在的一些东西的改进,而是未来可能带来彻底改变的技术理念。
- 0000
- 0007
- 0000
- 0000
- 0000