人工智能 频道

大语言模型学习意外技能的速度有多快?

两年前,一项名为“超越模仿游戏基准”(BIG-bench)的项目中,集结了450名研究人员,他们精心编制了一份涵盖204项任务的清单,旨在全面测试大语言模型的能力。在多数任务中,模型的性能随着规模的扩大而稳步提升,呈现出可预见的增长趋势——规模越大,表现越佳。然而,在其他任务中,性能的提升并不总是如此顺利,有时成绩长时间停滞在近乎零的水平,随后又突然跃升。这种现象在其他研究中也有所发现,引发了广泛关注。

研究人员将此类现象描述为“突破性”行为,有的学者甚至将其比作物理学中的相变,如同液态水凝结成冰的过程。在2022年8月发表的一篇论文中,研究人员强调,这些行为不仅令人惊讶,而且难以预测,它们应当为围绕人工智能的安全性、潜力和风险的讨论提供重要信息。他们将这些能力称为“突发性”,用以描述系统达到高度复杂后所展现出的集体行为。

然而,事情或许比我们想象的要复杂。斯坦福大学的三位研究人员最近发表了一篇新论文,提出了不同观点。他们认为,这些能力的突然涌现并非模型本身的不可预测性,而是研究人员衡量LLM性能的方式所产生的结果。资深作者、斯坦福大学计算机科学家桑米·科耶乔(Sanmi Koyejo)指出:“过渡的可预测性比我们想象的要高得多。”他进一步解释,我们观察到的这种突变现象与我们选择的测量方式以及模型所执行的任务密切相关。之所以现在才开始注意到并研究这种行为,是因为这些模型已经达到了前所未有的庞大规模。

大语言模型通过分析海量的文本数据集(包括书籍、网络搜索和维基百科等在线资源中的词汇)进行训练,以发现单词之间频繁出现的联系。模型的大小以参数来衡量,这些参数大致相当于单词连接的所有可能性。参数数量越多,LLM能够发现的联系也就越丰富。GPT-2拥有15亿个参数,而支持ChatGPT的GPT-3.5则高达3,500亿个参数。GPT-4于2023年3月首次亮相,如今已成为微软Copilot的基础,据传其参数数量更是达到了惊人的1.75万亿个。

这种规模的快速增长带来了性能和效率的显著提升,无人质疑足够大的LLM能够完成小型模型无法胜任的任务,甚至包括那些它们未曾接受过训练的任务。然而,斯坦福大学的三位研究者将这种现象视为一种“海市蜃楼”。他们承认,随着规模的扩大,LLMs确实会变得更加高效;大模型的复杂性增加,理应能够更好地解决更复杂、更多样化的问题。但他们坚持认为,这种改进看起来是平滑还是锯齿状,更多取决于我们选择的度量标准和测试实例的丰富程度,而非模型本身的内部运作机制。

三位数加法是其中一个显著例证。在2022年的BIG-bench研究中,研究人员发现,在参数较少的情况下,无论是GPT-3还是另一款名为LAMDA的大语言模型(LLM),都无法精确完成加法运算。然而,随着GPT-3采用130亿个参数进行训练,它的性能仿佛瞬间跃升,竟能进行加法计算。同样,当LAMDA的参数数量增至680亿时,它也展现出了加法运算的能力。这一转变表明,加法能力似乎是在某个特定的参数临界点突然涌现的。

然而,斯坦福大学的研究团队指出,当前对LLMs的评判标准仅限于准确性:它们的表现要么是完美的,要么就是不完美的。这种标准显得过于苛刻,因为即使LLM能够准确预测大部分数字,只要存在些许偏差,便被视为失败。以计算100加278为例,答案376显然比-9.34要准确得多,但按照现有标准,两者都会被同等对待。

鉴于此,科耶霍及其合作者们尝试采用一种更为细致的评估方法,即给予部分分数的指标来测试相同的任务。他们提出:“我们可以逐位评估预测的准确性——首先看第一位数字预测得有多准,然后是第二位,最后是第三位。”这种方法不仅能够更全面地衡量LLM的性能,还能更准确地揭示其加法运算能力的实际情况。

科耶霍将新工作的创意归功于他的研究生雷兰-谢弗,后者敏锐地观察到LLM的性能会因衡量标准的不同而有所变化。他们与斯坦福大学的另一名研究生布兰多-米兰达联手,采用新的衡量标准后,发现随着参数的增加,LLM在加法问题中预测的数字序列准确性逐渐提升。这揭示了加法能力的提升并非突发性的、不可预测的跳跃,而是渐进的、可预测的。他们进一步发现,通过调整衡量标准,这种突发性现象便不复存在。

然而,其他科学家对此持保留意见。东北大学计算机科学家李天石指出,这篇论文并未完全消除“涌现”的概念。她认为,论文未能解释如何预测LLM中何时或哪些指标会出现突然改善,因此这些能力在某种意义上仍然是不可预测的。OpenAI的计算机科学家Jason Wei也持类似观点,他作为BIG-bench论文的作者之一,认为早期关于新兴能力的报告有其正确性,因为对于如算术这样的能力来说,最终结果的正确性才是最重要的。

人工智能初创公司Anthropic的研究科学家亚历克斯-塔姆金评价道:“这确实是一场引人入胜的讨论。”他赞赏新论文巧妙地分解了多步骤任务,以识别各组成部分的贡献。但他也强调:“这还不是全部。我们不能简单地将所有跳跃都视为幻象。我认为,文献显示,即使采用一步预测或连续指标,仍会存在不连续性,而且随着模型规模的扩大,我们仍然可以看到它以类似跳跃的方式取得进步。”

对于未来更大、更复杂的LLMs,今天的问题可能无法单纯依靠更换测量工具来解释。莱斯大学的计算机科学家胡夏指出:“随着我们将LLM发展到更高水平,它们不可避免地会从其他任务和其他模型中汲取知识。”

对于研究人员而言,不断发展的涌现问题并非抽象的理论探讨。对塔姆金而言,它直接关系到目前预测LLM行为方式的工作。他强调:“这些技术具有广泛的适用性。我希望研究界能以此为契机,更加重视为LLM建立预测科学的重要性。我们如何确保不被下一代模型所震惊呢?”

0
相关文章