在云平台上部署LLM必须关注的五大要素-人工智能专区

在云平台上部署LLM必须关注的五大要素

作者：卢敏【编辑】编辑：卢敏 2024-04-24 11:08 IT168网站原创

　　前言：我们不要犯10年前犯的错误，才有可能以更具成本效益和更低的风险在云中部署大型语言模型。

　　在过去的两年里，我参与了比传统系统更多地使用大型语言模型（LLM）的生成性人工智能项目。我怀念无服务器云计算。他们的应用范围从增强会话人工智能到提供跨行业和许多其他功能的复杂分析解决方案。许多企业在云平台上部署这些模型，因为有一个现成的公共云提供商生态系统，这是阻力最小的路径。然而，它并不便宜。

　　云还提供其他优势，如可扩展性、效率和高级计算能力（按需GPU）。公共云平台上的LLM部署过程具有鲜为人知的秘密，可能会对成功或失败产生重大影响。也许是因为没有多少人工智能专家可以处理法学硕士，也因为我们已经很久没有这样做了，所以我们的知识有很多差距。

　　随着生成式人工智能的兴起，许多人都急于投身其中，然而，在追求这一技术的过程中，错误也层出不穷。为了帮助大家更好地在云上部署大型语言模型（LLM），我们来探讨三个鲜为人知的“技巧”以及两个常被忽视的安全问题。这些信息或许连专业的人工智能工程师都未必了解，尤其是那些年薪在30万美元以下的工程师们，现在正是时候深入探讨这些细节。

　　管理成本效益和可扩展性

　　使用云平台部署LLM的主要吸引力之一是能够根据需要扩展资源。我们不必成为优秀的容量规划师，因为云平台有我们可以通过单击鼠标或自动分配的资源。

　　但等等，我们即将犯第一次使用云计算时犯的错误。在扩展的同时管理成本是许多人需要帮助才能有效导航的技能。请记住，云服务通常根据消耗的计算资源收费；它们作为实用程序发挥作用。你处理得越多，付出的就越多。考虑到GPU的成本会更高（并消耗更多电力），这是公共云提供商的LLM的核心问题。

　　确保您使用成本管理工具，包括云平台提供的工具和可靠的第三方成本治理和监控参与者（finops）提供的工具。示例是实现自动缩放和调度，选择合适的实例类型，或使用可抢占的实例来优化成本。此外，请记住持续监控部署，以根据使用情况调整资源，而不仅仅是使用预测的负载。这意味着不惜一切代价避免过度配置（看看我在那里做了什么？）。

　　多租户环境中的数据隐私

　　部署LLM通常涉及处理大量数据和训练有素的知识模型，这些模型可能包含敏感或专有数据。使用公共云的风险在于，您有邻居以处理在同一物理硬件上运行的实例的形式。因此，公共云确实存在这样的风险，即随着数据的存储和处理，公共云数据中心在同一物理硬件上运行的另一台虚拟机会以某种方式访问它。

　　询问公共云提供商，他们将运行以获取更新的PowerPoint演示文稿，这将表明这是不可能的。虽然这主要是事实，但并不完全准确。所有多租户系统都存在这种风险；您需要减轻它。我发现，云提供商越小，例如许多仅在单一国家运营的云提供商，就越有可能成为问题。这是用于数据存储和LLM。

　　秘诀是选择符合严格安全标准的云提供商，他们可以证明：静态和传输中加密、身份和访问管理（IAM）以及隔离策略。当然，对于您来说，实施安全策略和安全技术堆栈是一个更好的主意，以确保在云上多租户使用LLM的风险较低。

　　处理有状态模型部署

　　LLM大多是有状态的，这意味着它们需要在不同交互间保持信息。在云环境中管理这些有状态模型颇具挑战，因为云实例可能是短暂的或无状态的。

　　为了有效处理这一问题，我们可以利用如Kubernetes等编排工具来支持有状态部署。这类工具能够利用LLM的持久存储选项，并配置为跨会话维护和操作模型状态，从而确保LLM的连续性和性能。

　　在当前生成人工智能的热潮中，云平台上部署LLM已成为众多企业的必然选择。云平台的便捷性使得这一趋势愈发明显。然而，笔者的担忧是，在这股热潮中，我们可能会忽视一些易于解决的问题，从而犯下重大且代价高昂的错误。这些错误在仔细审视和规划后，其实是完全可以避免的。

　　因此，在云平台上部署有状态的LLM时，我们应充分利用编排工具，确保模型的连续性和性能，同时谨慎规划，避免不必要的错误。

　　多重云LLM与影子LLM的潜在风险

　　随着大型语言模型（LLM）的广泛应用，企业在云环境上托管多重LLM版本已成为常态。然而，这种做法不可避免地带来了云安全风险。无论是在一个还是多个云环境上，企业都面临着相似的威胁，无论CISO和CIO如何努力管理和部署。

　　一个常被忽视的问题是“影子LLM”的使用。即使企业有严格的IT政策和规则，员工和部门负责人仍可能轻松地访问公共模型，如ChatGPT等，并将其用于各种工作任务。这种行为不仅可能导致数据泄露，还可能使企业面临敏感商业信息被竞争对手获取的风险。

　　当员工使用这些公共模型时，他们可能会无意中输入公司的内部数据。由于这些模型具有学习能力，它们可能会根据输入的数据向提出相似问题的其他用户泄露敏感信息。这种无意间的数据泄露可能会给企业带来巨大的损失。

　　为了降低这种风险，云安全平台在访问控制、用户认证、数据加密等方面发挥着重要作用。此外，数据发现工具也至关重要，它们可以帮助企业识别和定位存储在各类数据仓库中的敏感信息。

　　然而，即使企业采取了这些措施，员工在自己的设备上使用未经授权的影子LLM仍然是一个难以管理的问题。目前，很难有效区分AI生成的内容和用户自己创造的内容，这增加了数据泄露和误用的风险。

　　因此，企业在依赖授权的LLM中的安全控制的同时，也需要对AI供应商及其产品进行全面的第三方风险评估。随着AI威胁的不断变化，企业应持续更新应对策略，并将补救措施直接嵌入到AI/LLM的算法中，或者通过用户政策和培训来帮助识别并应对威胁。

　　总的来说，多重云LLM和影子LLM的使用带来了显著的云安全风险。企业需要采取综合措施来降低这些风险，包括加强云安全平台的建设、利用数据发现工具、进行第三方风险评估以及持续更新AI安全策略。

　　AI因素在安全测试和决策中的重要性

　　理想情况下，安全团队需要确保对AI有充分的认识，并将这种认识融入到每一项安全决策中。在实施零信任策略的环境下，这一点尤为重要。传统的安全工具，如EDR、XDR和MDR等，主要针对常规IT基础架构和终端的安全威胁进行检测和应对。然而，这些工具在处理云端或本地部署的AI应用时所面临的安全挑战时，往往力不从心。

　　因此，现代的安全测试必须特别关注AI的特定漏洞。例如，提示劫持、有意破坏模型对齐以及数据泄漏等问题都带来了新的安全风险。为了解决这些问题，安全团队需要对AI模型进行持续性的重新评价，以确保模型的稳定性和安全性。同时，数据安全和遵守数据保护法规也是不可忽视的重要方面。

　　为了加强AI开发者与安全团队之间的合作，安全开发流程应贯穿于开发生命周期的每一个阶段。这意味着从需求分析、设计、开发到测试和维护，都需要密切关注AI安全问题。此外，在进行风险评估时，应特别注意AI所特有的问题，如数据泄漏和偏见的产生，以确保AI系统的公正性和可靠性。

　　综上所述，将AI因素纳入到安全测试和决策中是确保企业数据安全、合规性和业务连续性的关键。通过加强AI开发者与安全团队之间的合作，并持续关注AI的特定安全问题，企业可以更好地利用AI技术推动业务发展，同时降低潜在的安全风险。

参考链接：https://www.infoworld.com/article/3715282/3-secrets-to-deploying-llms-on-cloud-platforms.html

关注我们