投稿问答最小化  关闭

万维书刊APP下载

中科院院士陈润生:大语言模型存在“涌现”和“顿悟”现象

2023/7/27 15:30:25  阅读:88 发布者:

近日,由中国智能计算产业联盟组织召开的2023中国算力发展研讨会”在中科院计算所召开。此次研讨会以 ChatGPT下算力的机遇与挑战 为主题,汇集了业内多位权威专家学者,从技术、生态等多维度展开深度交流研讨,厘清算力产业的发展风向,并就当下人工智能基础设施及算力服务建设等课题给出应对之策。

研讨会上,中国科学院院士 陈润生 表示,人工智能的发展不是人所能阻挡的,这是科学发展的本质。他同时指出,大语言模型中出现的“涌现(Breakthroughness)”和“顿悟(Grokking)”现象,值得大家思考。

何为“涌现”?一个复杂系统由很多微小个体构成,这些微小个体凑到一起,相互作用,当数量足够多时,在宏观层面上展现出微观个体无法解释的特殊现象,即为“涌现”。陈润生形象地解释说,“我给它(大模型)很多学习数据,结果它的答案里面会出现学习数据里没有的事,这种现象叫涌现。”大模型的运算表明,当训练数据很大时(比如超过了1000亿),就会出现涌现现象,规模小的时候不会出现这个现象。

需要明确的是,目前科学界对涌现现象是有争论的。比如,斯坦福大学某教授认为这是度规问题,牵扯到度量、基本物理坐标系等。

“自然语言处理过程中,由于整个计算量的迅速增加而出现的涌现现象,这个是新问题,值得思考”,陈润生说。

何为“顿悟”?陈润生解释,“你训练一个神经网络的过程中,一遍它不懂,两遍也不懂,第四遍还不懂,第五遍一下学会了,就像小孩学东西一样,教一两遍不懂,教到N+1遍突然就学会了。”

他认为,这是人脑学习的一种模式,“学到某一个时间开窍了”,“计算机不可能出现顿悟,但是大模型会出现顿悟的情况”。

不久前,ChatGPT的主要竞争对手之一Claude将语境窗口token数扩展到10万,相当于7.5万个单词,大大超越GPT-4语境窗口的8192 tokens。这意味着用户可以将高达500页的文档上传到Claude,它可以在不到1分钟之内就理解、消化这些信息,并基于上传的信息回答用户的问题。

ClaudeAnthropic公司推出的,这家公司由前OpenAI员工创立,自2022年底以来,谷歌已向该公司投资了近4亿美元。

对此,陈润生认为,目前大模型的学习速度比我们想象中快得多,“这两家公司(OpenAIAnthropic)你追我赶,说不定再过一段时间,GPT-5出来之后又比Claude强了,它发展那么快,将来人们赶不上。”

“更麻烦的是,这些大模型公司都在考虑去操纵第三方设备”,陈润生说,“能够去操纵第三方设备是令人担忧的一件事情,如果操纵和安全、国防相关的东西,那就不得了了。”

陈润生坦言,人类的神经网络结构远比目前的大模型复杂得多,人工智能的发展还有很长的路要走,“现在的(人工智能)神经网络在空间结构模型上应该有革命性的变化,也许那个时候,(AI)真的能够超越人的智力。”

来源:光明日报

中科国鼎数据科学研究院

转自:“学术世界”微信公众号

如有侵权,请联系本站删除!


本文评论

暂无相应记录!

首页<<1>>尾页共0页共0条记录
  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com