人工智能 频道

训练人工智能模型的更智能的方法

  人工智能领域长久以来被视为美国实验室和研究人员的领地,但即便是如DeepSeek的R1这样的创新模型,也仍受限于当前范式的诸多陷阱。R1的发布虽引人注目,却也揭示了除大型现有模型外,仍有巨大的创新空间等待挖掘。而今,人工智能模型正触及计算的极限,其规模已远超摩尔定律和AI训练芯片的进步速度。训练大型模型的费用可能高达数千万美元,这一现实已得到包括Ilya Sutskever在内的顶尖AI工程师的承认。Anthropic估计,更新Claude模型的成本可能与开发它时相当,而亚马逊等巨头则不惜投入数十亿美元建造新的人工智能数据中心,以追赶前沿模型的发展步伐。 

  DeepSeek的尝试表明,单纯增加计算力并非破解之道。尽管它在成本上有所改进,但仍深陷深度学习的范式之中,只是对现有模型训练技术进行了优化。包括R1在内的所有现有模型,都受深度学习缩放规律的束缚,这正是Sutskever等人所言的“壁垒”。我们似乎在黑暗中摸索,找到有效的方法后又迅速耗尽其潜力,而在AI广泛部署后,又不得不应对其带来的负面后果,如幻觉问题。

  这与电磁学等理论与实践并重的科学领域形成了鲜明对比。然而,或许这一切并非必然。若我们能更深入地理解AI的工作原理,或许能以更少的精力和计算资源,通过全新的方式进行AI模型的训练和部署。一种以原则为先的方法,将其他科学的严谨性引入AI领域,正呼之欲出。

  作为加州大学圣地亚哥分校的捐赠主席研究员,我过去五年一直致力于此。以下是我的一些见解:

  深度神经网络的黄昏将至

  尽管AI近年才崭露头角,但其历史可追溯至50多年前。AI领域的发展历程充满了起伏,与今日的繁荣形成了鲜明对比。最早的“寒冬”之一便涉及Frank Rosenblatt和他的感知器机器,几乎所有现代机器学习都可追溯至此。Marvin Minsky的一本书指出了感知器的诸多不足,导致神经网络研究和资金大幅缩减。然而,许多问题后来通过更大、更复杂的感知器得到了解决。Rosenblatt的研究在加州大学圣地亚哥分校得到了延续,Hinton、Rumelhart和Williams在1986年关于反向传播的开创性工作,为现代AI奠定了基础。

  如今,AI的商业发展似乎陷入了“苦涩的教训”。在Nvidia的CUDA在GPU上实现高效张量操作,以及AlexNet等深度网络的崛起后,各个领域取得了前所未有的进步。然而,各种方法已同质化,几乎全部投入到深度学习中,只为追求更多的计算力。

  大型语言模型或许是这一“苦涩教训”的例证。过去十年中,大型语言模型在扩展中展示了惊人的新兴能力。但我们真的能通过不断增加参数和GPU,达到通用人工智能(AGI)的境界吗?就像《银翼杀手》或《太空漫游2001》中的人工智能原型那样?

  在加州大学圣地亚哥分校,我坚信这种扩展并不会带来真正的智慧。而且,从OpenAI等AI实验室,以及François Chollet等知名人士的近期报告中,我们也看到了深度学习面临的挑战。Sutskever曾直言:“现在每个人都在寻找下一个大事件。”我们是否忽略了苦课中的智慧,比如通过强化学习等技术应用于大型语言模型(尽管这些技术无疑计算密集型)?如果我们试图理解学习的“一切理论”,然后加倍努力呢?

  解构与重建:AI模型训练的新路径

  在加州大学圣地亚哥分校,我们开发了突破性技术,以揭示神经网络实际学习的机制,而非仅仅将其视为黑匣子。深度学习模型的特点在于其人工神经元,这些神经元通过过滤数据并进行反向传播来学习数据中的特征(尽管这一步骤与生物学无关)。正是这种特征学习机制推动了AI在金融、医疗保健等领域的成功。

  想象一下区分猫和狗的场景。在几分之一秒内,你的大脑会利用两个类别的习得特征(如猫有胡子)来做出判断。传统的神经网络则通过人工神经元经历上述的反向传播过程。我们能够隔离这种对AI至关重要的特征学习过程,摒弃深度学习模型的外部方面,并深入研究这一现象。这推动了一种全新的、无反向传播的AI堆栈的诞生,其性能远超当前先进的方法数倍。

  通过避免深度学习的低效率和理论上不太合理的部分,我们为下一代真正智能的AI开辟了一条前进的道路。我们已经看到了超越深度学习所遭遇的障碍的可能性。我们必须深入理解学习的本质,并从头开始构建具有可解释性和效率的模型。特别是在金融、医疗保健等高风险领域,AI的应用需求远超过我们习惯的非确定性行为。虽然过去十年我们在深度学习方面取得了令人瞩目的进步,但现在我们需要构建深度学习之外的人工智能的下一个进化阶段。

0
相关文章