人工智能 频道

人工智能的未来是混合的

  今天的人工智能在很大程度上发生在云中,在云中,巨大的人工智能模型被训练并部署在巨大的GPU机架上。但是,随着人工智能不可避免地迁移到人们每天使用的应用程序和设备,它需要在部署到边缘并以混合方式连接到云的较小计算设备上运行。

  这是华盛顿大学计算机科学教授兼Octo AI首席执行官Luis Ceze的预测,他在过去几年中密切关注着人工智能空间的发展。根据Ceze的说法,如果人工智能工作负载要产生许多人预见的影响,就需要从云中突破并在本地运行。

  在最近接受Datanami采访时,Ceze给出了这种转变的几个原因。首先,伟大的GPU挤压迫使人工智能从业者在他们能找到的地方搜索计算。找到新的,使边缘在今天看起来彻头彻尾的好客,他。

  Ceze说:“如果你考虑一下这里的潜力,那就是我们将在与计算机的几乎每次交互中使用生成性人工智能模型。”“我们将从哪里获得所有这些的计算能力?云中没有足够的GPU,所以你自然想开始使用边缘设备。”

  Ceze说,Nvidia的企业级GPU继续推动加速计算的界限,但边缘设备的计算能力也大幅加快。苹果和安卓设备通常配备GPU和其他人工智能加速器,这将为本地推理提供计算能力。

  Ceze说,依赖云数据中心为人工智能体验提供动力所涉及的网络延迟是推动人工智能走向混合模式的另一个因素。

  他说:“你不能让光速更快,也不能让连接绝对得到保证。”“这意味着,如果您考虑延迟、连接性和可用性,在本地运行将成为一项要求。”

  早期的GenAI采用者在开发人工智能应用程序时经常将多个模型链接在一起,这只会加速。无论是OpenAI的大规模GPT模型、Meta流行的Llama模型、Mistral图像生成器,还是Huggingface上可用的数千个其他开源模型中的任何一个,未来都正在形成多模型。

  Ceze说,相同类型的框架灵活性使单个应用程序能够利用多个人工智能模型,也使混合了混合本地和云模型的人工智能基础设施成为可能。这并不是说模型在哪里运行并不重要;它确实很重要。但开发人员可以选择在本地或云端运行。

  他说:“人们正在用相互交谈的模特鸡尾酒来建造。”“它很罕见地只是一个模型。其中一些模型可以在本地运行,当隐私和安全等存在一些限制时......但当计算能力和可以在边缘设备上运行的模型功能不足时,您就会在云端运行。”

  在华盛顿大学,Ceze领导了创建Apache TVM(Tensor虚拟机)的团队,这是一个开源机器学习编译器框架,允许AI模型在不同的CPU、GPU和其他加速器上运行。该团队现在在OctoAI,维护TVM,并用它来提供其人工智能服务的云可移植性。

  “我们一直积极参与使人工智能能够在各种设备上运行。我们的商业产品发展成为OctoAI平台。我为我们在那里建造的东西感到非常自豪,”Ceze说。“但现在我们肯定有明显的机会使模型在本地运行,然后将其连接到云端,这是我们一直在做很多公共研究的事情。

  除了TVM,其他工具和框架正在出现,使人工智能模型能够在本地设备上运行,如MLC LLM和谷歌的MLIR项目。根据Ceze的说法,该行业现在需要的是一个层来协调在prem和云中运行的模型。

  他说:“堆栈的最低层是我们构建的历史,所以这些是人工智能编译器、运行时系统等。”“从根本上说,这就是允许你很好地使用硅来运行这些模型的原因。但除此之外,你仍然需要一些编排层来弄清楚你什么时候应该调用云?当你调用云端时,有一整个服务堆栈。”

  Ceze说,在过去的四分之一世纪里,人工智能开发的未来将与Web开发并行,除了HTML渲染外,所有处理都始于服务器上,但也逐渐转移到在客户端设备上运行。

  “第一批网络浏览器非常愚蠢。他们没有运行任何东西。一切都在服务器端运行,”他说。“但随着事情的发展,越来越多的代码开始在浏览器本身中运行。今天,如果您要运行Gmail并在浏览器中运行Google Lives,那么会有大量的代码被下载并运行在您的浏览器上。许多逻辑在您的浏览器中运行,然后您根据需要转到服务器。”

  “我认为这将在人工智能中发生,也会在生成性人工智能中发生,”Ceze继续说道。“它将从,好吧,这个东西完全[在]云中的大量GPU农场上运行。但是,随着这些创新的发生,就像较小的模型一样,我们的运行时系统堆栈,加上手机上的人工智能计算能力和更好的计算,现在允许您将部分代码转移到本地运行。”

  大型语言模型已经在本地设备上运行。OctoAI最近演示了Llama2 7B和13B在手机上运行。Ceze说,没有足够的存储和内存在个人设备上运行一些更大的LLM,但现代智能手机可以有1TB的存储空间和大量的AI加速器来运行各种型号。

  这并不意味着一切都会在本地运行。Ceze说,云对于构建和培训模型至关重要。他说,大规模推理也将被降级到大规模云数据中心。所有云巨头都在开发自己的自定义处理器来处理这个问题,从带有Inferentia和Trainium的AWS到Google Cloud的TPU,再到Microsoft Azure Maia。

  他说:“一些模型会在本地运行,然后当他们需要超出边缘设备能力范围的计算能力时,或者当他们需要本地不可用的数据时,它们只会调用云中的模型。”“未来是混合的。”

1
相关文章