人工智能 频道

如今,企业如何使用云?

  经过15年的云广泛采用,出现了一些明确的项目类别。每个类别都有具体的经验教训——这些教训决定了成功与代价高昂的失败之间的区别。

  在过去15年中,云计算已成为一项基础技术。它最初只是一种租用服务器的方式,但已发展成为一个复杂的生态系统,支持从基础架构到变革性人工智能项目的所有场景。多年来,我为数千个云项目提供了咨询建议,发现大多数项目都可以归入少数几个类别。可以肯定地说,成功的关键不在于追逐炒作,而在于理解每个项目的性质、风险、成本和教训。

  云迁移

  企业继续将现有工作负载从数据中心迁移到公有云、私有云或混合云环境。这可能涉及直接迁移(即“提升并转移”)、经过少量修改的平台化迁移,或完全重构为云原生架构。目标通常是降低成本、提升可扩展性,或结束硬件更新周期。这类项目的风险已有充分记录:许多项目低估了系统间的依赖关系,导致性能意外下降或集成失败;数据迁出费用和意外的运营成本可能会抵消预期的节省。

  成本差异可能很大。由于需要发现架构差异并进行测试,初次迁移通常会超出预算20%至50%。通过合理调整实例规格和利用预留实例,持续支出可以得到控制,但管理不善往往会导致25%至35%的资源闲置浪费。这些经验教训强调了提前进行总拥有成本(TCO)建模的重要性——包括人员、培训和变更管理。

  经验教训:纯粹的“提升并转移”很少能实现承诺的投资回报。成功的组织将迁移视为现代化改造的契机,而不是简单的搬家动作。采用分阶段的方法,配合强有力的治理和FinOps实践,可以最大限度地减少成本超支——这一问题历来困扰着大多数迁移项目。

  云原生应用

  团队在Kubernetes、AWS Lambda或Azure Functions等平台上构建微服务、无服务器函数或容器化应用。这种方法利用弹性伸缩、开发管道和托管服务来加快上市速度。

  风险集中在架构复杂性和技能差距上。过度工程化——使用过多的微服务——会造成运维噩梦;而工程不足则会导致无法扩展的单体应用。分布式系统需要持续的安全监控。新应用往往开局良好,但当团队将功能开发置于可观测性和弹性之上时,就会积累技术债务。按使用量计费的模式听起来很诱人,但由于设计不佳,成本常常会大幅飙升。

  经验教训:根据我多年的观察,成功的团队会将成本意识嵌入到CI/CD流程中,策略性地使用Spot实例,并从第一天起就设计好可观测性。当云原生开发与有纪律的架构设计相结合时,就能加速创新。

  数据分析项目

  企业正在将数据湖、数据仓库和ETL流程迁移到Snowflake、BigQuery或Redshift等云服务上。通过这种方式,实时分析、仪表板和预测建模可以大规模实现。主要风险在于数据量巨大以及数据质量问题。移动PB级数据既昂贵又复杂;治理不善会导致合规问题或“垃圾进,垃圾出”的结果。与遗留系统集成往往会延迟价值实现。

  经验教训:15年后的今天,我们知道集中式数据策略优于碎片化策略,但前提是必须与尊重域所有权的数据网格(Data Mesh)或数据编织(Data Fabric)方法相结合。成本构成包括存储、查询计算和数据出站费用。通过分区和物化视图进行优化是值得的,但许多组织仍在未使用的数据上浪费资金。教训是:从小处着手,选择高价值用例,尽早建立治理,不要等到后期。

  人工智能项目

  AI和机器学习项目代表了当前云领域的前沿方向。这包括训练模型、部署推理端点,以及将机器学习集成到应用程序中。托管服务降低了入门门槛,但定制需求通常需要GPU集群或专用硬件。风险不容小觑:模型漂移、可解释性问题、高昂的计算需求以及伦理问题。许多项目在概念验证后停滞不前,因为生产部署暴露了可扩展性或成本方面的挑战。供应商的托管AI产品有所帮助,但企业仍然难以将它们整合到核心业务流程中。

  成本很高,尤其是训练阶段。推理可以进行优化,但它常常成为账单的主要部分。我们的经验是:当AI被视为更广泛云原生架构的一部分,而不是一个独立的科学项目时,它才能成功。混合方法和成本控制是必不可少的。

  生成式AI项目专注于大语言模型、图像生成、代码助手,以及通过Bedrock、OpenAI集成或微调开源模型等服务的定制化代理。企业正在尝试使用检索增强生成(RAG)技术来实现更可靠的响应和智能工作流。风险包括模型幻觉、数据隐私泄露、知识产权问题以及失控的token成本。许多早期采用者构建了令人印象深刻的演示,但在生产中却面临治理和合规方面的障碍。

  经验教训:在观察了多波浪潮之后,教训已经明确:从狭窄、高价值的用例开始,并构建强大的提示工程、评估机制和人工监督框架。成本由使用量驱动,随着规模扩大而迅速上升。通过缓存、使用更小的模型以及混合本地推理进行优化,都能起到作用。当生成式AI嵌入到现有工作流程中,而不是作为独立工具使用时,它能最快地带来投资回报。

  其他项目类型

  传统主机或单体应用的现代化改造,介于迁移和新开发之间。物联网(IoT)项目利用云进行设备管理和边缘分析。灾难恢复和备份项目借助云来提升恢复能力。边缘计算项目将处理能力推向离用户或设备更近的地方。以合规为重点的主权云部署满足数据驻留要求。最后,可持续发展项目侧重于通过高效架构来减少碳足迹。

  经验教训:每种类型都有各自的风险和成本特性。现代化改造往往会暴露出隐藏的依赖关系。物联网需要可靠的连接。边缘计算会引入延迟方面的考量。所有类型的经验都凸显了多云策略在谈判杠杆和风险分散方面的价值——尽管它会增加复杂性。

  共同主题

  大多数项目的失败并非因为技术本身,而是由于规划不足、文化阻力或忽视运维现实。成本超支通常源于缺乏严格的FinOps纪律。安全与合规问题持续存在,需要在设计阶段就进行综合考量。技能短缺阻碍了进展,这使得托管服务具有吸引力,尽管存在供应商锁定的担忧。

  成功的云案例具有共同特征:强有力的高管支持、迭代交付、跨职能团队以及持续优化。那些将云视为业务转型而非IT项目的企业表现优秀。他们使用业务指标来衡量成果——例如收入影响、客户满意度和上市速度,而不仅仅是正常运行时间或实例数量。

  随着容量市场、新兴云厂商以及AI驱动的运维方式提供新的选择,云格局仍在不断演变。然而,云的基本原理依然适用:根据您的云成熟度和目标选择合适的项目类型;全面理解风险;对成本进行现实建模;应用此前数千次云部署中积累的经验教训。

  我的建议听起来很简单,但它将决定哪些云项目和企业能够在云计算的未来十年中蓬勃发展。而那些不加节制地追逐炒作的项目,只会成为又一个警示故事。

0
相关文章