最近,OpenAI高级研究副总裁Mark Chen在炉边谈话中,正式否认「Scaling Law撞墙论」。
他表示,并没有看到Scaling Law撞墙,甚至OpenAI还有两个范例——o系列和GPT系列,来保持这种Scaling。
用他的话说,「我们准确地掌握了需要解决的技术挑战」。
o1不仅是能力提升,也是安全改进
从经济角度看,OpenAI已经是最有价值的科技公司之一,因为他们为真实用户提供了数十亿美元的价值。
两年前,AI最前沿的任务还是小学数学题;而今天,它们已经可以做最难的博士生题目。
因此,我们正处于这样一个阶段:AI模型能够解决人类有史以来最困难的考试。
一旦这些模型解决了博士级别的问题,下一步,即使为世界提供实用性和价值。
当所有基准测试饱和之后,需要考虑的就是是否为最终用户提供了价值。
虽然今天AI通过了基准测试,但它并没有完全捕捉到AGI应该做的事。
好在,在过去一年里,OpenAI内部发生了最令人兴奋的进展——o1诞生了。
这不仅是一种能力上的提升,从根本上来说也是一种安全改进。
为什么这么说?
想象我们试图对一个模型进行越狱,旧的GPT系统必须立即做出回应,所以可能更容易被触发。
但当我们有一个推理器时,模型却会反思:这个问题是不是试图让我做一些与我要做的不一致的事?
此时,它获得的额外思考和反思的时间,会让它在很多安全问题上更稳健。
这也符合OpenAI研究者最初的预期。
当我们谈到推理时,这是一个广泛的概念,不仅仅用于数学或编程。
在编程中使用的推理方法,可能也适用于谈判,或者玩一个很难的游戏。
而说到基准测试,在安全性上也有同样的挑战。
安全性有点类似于这种对抗性攻击框架。在这种情况下,攻击是非常强烈的,因此我们在这方面还有很长的路要走。
如何到达五级AGI
AGI从一级到五级,关键推动因素是什么呢?
OpenAI提出的框架中,定义了AGI的不同级别,具体来说,就是从基本推理者发展到更智能的系统,再到能在现实世界里采取行动的模型,最终到达更自主、完全自主的系统。
在这个过程中,稳健性和推理能力是关键。
今天我们还不能依赖很多智能体系统,原因是它们还不够可靠。这就是OpenAI押注推理能力的原因。
OpenAI之所以大量投资,就是对此极有信心:推理能力将推动可靠性和稳健性。
所以,我们目前正处于哪一阶段呢?
OpenAI研究者认为,目前我们正从第一阶段向第二阶段过渡,朝着更智能系统的方向发展。
虽然目前,许多智能体系统仍然需要人类监督,但它们已经变得越来越自主。模型可以自行原作,我们对于AI系统的信任也在逐渐增加。
合成数据的力量
合成数据,就是不由人类直接产生的数据,而是模型生成的数据。
有没有什么好的方法,来生成用于训练模型的合成数据呢?
我们在数据稀缺或数据质量较低的数据集中,可以看到合成数据的力量。
比如,在训练像DALL-E这样的模型时,就利用了合成数据。
训练图像生成模型的一个核心问题是,当我们去看互联网上带标题的图片时,标题和它所描述的图片之间通常关联性很低。
你可能会看到一张热气球的照片,而标题并不是描述气球本身,而是「我度过最好的假期」之类的。
在OpenAI研究者看来,在这种情况下,就可以真正利用合成数据,训练一个能为图片生成高保真标题的模型。
然后,就可以为整个数据集重新生成捕获了,OpenAI已经证明,这种方法非常有效。
数据集中某方面较差的其他领域,也可以采用这个办法。
Scaling Law没有撞墙
最近很火热的一个观点是,Scaling Law已经撞墙了,许多大型基础实验室都遇到了预训练的瓶颈。
果真如此吗?