又到了一年一度做预测的时候了!让我们来展望2025年的数据分析领域。
如今,我们已经见证了各种数据分析模式的兴起:数据湖、数据仓库、内存分析以及嵌入式分析。然而,开源编排平台开发商Kestra的首席执行官兼联合创始人Emmanuel Darras指出,到2025年,数据分析的标准将会是数据湖屋(Lakehouse)架构。
Darras表示:“预计到2025年,超过一半的分析工作负载将在湖屋架构上运行,这得益于其提供的成本节约和高度灵活性。目前,许多公司正在从云数据仓库向湖屋架构转型,这不仅是为了降低成本,更是为了简化数据访问模式,并减少对重复数据存储的需求。一些大型组织已经报告了超过50%的成本节省,这对于那些需要处理大量数据的企业来说,无疑是一个巨大的胜利。”
数据湖屋架构的一大推动力在于开放数据格式的标准化。Confluent技术战略小组的首席技术专家Adam Bellemare预测,这一趋势将在2025年继续发展并成形。
(图片来源:FlorentinCatargiu/Shutterstock)
2025年Lakehouses(数据湖屋)将迎来激增
Bellemare表示:“在未来一年,我们将见证Apache Iceberg、Delta Lake和Apache Hudi等开放数据格式的广泛标准化进程。这一趋势将受到企业对互操作性需求的更强烈推动,他们渴望在不同平台、合作伙伴和供应商之间实现数据的无缝整合。随着企业日益重视及时、高质量的数据访问,开放数据格式将不再是可选项,而是企业取得成功的关键因素。那些未能采纳这些开放标准的企业可能会失去竞争优势,而采纳这些标准的企业则能够提供高品质的产品和实时的跨平台数据洞察。”
在数据湖屋领域,Snowflake和Databricks是两大鼎力支持者。然而,Dremio的技术传播者、同时担任南新罕布什尔州和大峡谷大学数据与分析教授的Andrew Madson预测,到2025年,人们将对Snowflake与Databricks之间的竞争感到厌倦,并期待通过联合IT来推动数据架构的进化。
Madson指出:“中央IT团队将继续将责任下放给业务部门,推动形成更加联合的运营模式。同时,来自Snowflake和Databricks等主要供应商的整体架构将整合更多旨在提高成本效益和性能的工具,从而创建一个既注重创新又兼顾实用性的混合生态系统。”
多年来,数据建模一直相对默默无闻。但Confluent的倡导和开发人员体验工程总监Adi Polak预测,到2025年,这一做法将崭露头角,迎来其发展的黄金时期。
冰山使数据湖屋传播成为可能
Polak表示:“数据建模长久以来一直是数据库管理员(DBA)的专属领域,但随着Apache Iceberg等开放表格式的日益普及,数据建模已成为更多工程师必备的技能之一。在应用程序开发中,工程师们越来越多地承担起创建可重复使用的数据产品的责任,这些产品需要同时支持实时和批处理工作负载,并预测下游的消费模式。为了高效地构建这些数据产品,工程师们必须深入理解数据的使用方式,并在早期阶段就设计出适合消费的正确数据结构或模型。因此,数据建模将成为工程师们在未来一年内必须掌握的一项基本技能。”
展望2025年,有一个话题无法回避:人工智能(没错,我们很快就会推出一篇关于人工智能2025年的预测文章)。Altair的分析和物联网高级副总裁Christian Buckner指出,人工智能的影响将渗透到各个领域,包括数据分析堆栈。
Buckner说道:“如今,许多商业领袖难以确定应该向他们的数据提出什么问题,或者在哪里寻找答案。而人工智能代理正在通过自动提供见解和建议来改变这一现状,无需任何人主动提问。这种高度的自动化对于帮助组织从数据中解锁更深入的理解和联系,以及使他们能够做出更具战略性的业务决策至关重要。对于企业而言,建立护栏来控制人工智能驱动的建议,并保持对结果的信任,这一点至关重要。”
过去,当我们提到“分析”时,人们往往会联想到有人启动桌面BI工具来处理仓库中的一段数据。但时代已经变了。据Sisense的首席执行官Ariel Katz预测,2025年将见证传统BI的消亡,在每个应用程序中,传统BI将被API优先和生成式人工智能(GenAI)集成分析所取代。
Katz表示:“到2025年,传统的BI工具将变得过时,因为API优先架构和GenAI将实时分析无缝嵌入到每个应用程序中。数据洞察将直接流入客户关系管理、生产力平台和客户工具中,使各级员工都能立即做出数据驱动的决策,而无需具备专业技术知识。接受这一转变的公司将解锁前所未有的生产力和客户体验,将静态仪表板和孤立的系统抛诸脑后。”
据预测,嵌入式分析将在2025年大放异彩
大数据之所以被称为“大”,自然有其道理——嗯,这点毋庸置疑(相信我们的判断)。但Amplitude的首席产品官Francois Ajenstat预测,在2025年,大数据领域将迎来一个新篇章,那就是被称为“小数据”的大数据亲戚。
Ajenstat表示:“过去几年,数据量确实有所增加,但2025年将把焦点从‘大数据’转移到‘小数据’上。随着大型语言模型逐渐让位于小型语言模型,我们已经看到了这种思维方式的转变。组织开始意识到,他们并不需要把所有数据都拿来解决问题或完成计划——他们需要的是正确的数据。数据过于庞杂,常常被称为‘数据沼泽’,这使得从中提取有意义的见解变得更加困难。通过专注于更有针对性、更高质量的数据——或称之为‘数据池’——组织可以确保数据的可信度和准确性。这种向更小、更相关数据的转变将有助于加快分析进程,让更多人能够利用数据,并从数据投资中获得更大的回报。”
拥有高质量的数据一直都很重要。但DataPelago的首席执行官兼联合创始人Rajan Goyal表示,在2025年,拥有高质量的数据将成为商业上的必要条件。
Goyal指出:“我们看到越来越多的报道称,法学硕士(此处可能指某种专业服务或数据分析领域的提供商)提供商正在与模型性能下降作斗争,人工智能的扩展定律也越来越受到质疑。随着这一趋势的持续,明年将成为公认的知识:开发、培训和微调更有效的人工智能模型的关键不再是更多的数据,而是更好的数据。特别是,与模型预期用例一致的高质量上下文数据将是关键。这一趋势不仅影响模型开发人员,还将给拥有大量数据的最终客户带来更大的压力,迫使他们调整数据管理架构以适应当今的人工智能需求,从而能够有效地微调模型并为RAG(可能是指某种基于检索的增强或生成式人工智能工作负载)提供支持。”
数据孤岛就像蘑菇一样:它们在没有任何人为干预的情况下自然形成。Hammerspace的全球营销高级副总裁Molly Presley表示,在2025年,企业如果想要取得成功,就需要掌控数据孤岛的增长。
Presley撰文指出:“在2025年,打破数据孤岛将成为数据工程师和人工智能架构师面临的关键架构挑战。” “能够聚合和统一组织内部不同的数据集,对于推动高级分析、人工智能和机器学习项目至关重要。随着数据源数量和多样性的持续增长,克服这些孤岛现象,对于实现现代人工智能系统所需的全局洞察力和决策支持至关重要。”
管理用户对数据的访问有时感觉像是一场无处不在的混战。Arcitecta的首席执行官Jason Lohrey预测,到2025年,团队将学会如何更有效地利用流式数据等工具来提升自己的生产力,而不是与繁琐的工作流程和数据泛滥作斗争。
Lohrey表示:“远程工作的兴起和地域分布团队的普及改变了企业的运营模式。实时数据流允许组织在全球范围内记录事件并共享实时信息,使员工能够在无需面对面交流的情况下,就连续的数据流进行协作。随着越来越多的公司采用促进无缝广播和数据分发的工具,这一趋势有望在2025年进一步加速。通过实现分布式团队之间的实时协作,企业可以降低差旅成本,提高效率,并做出更快、更明智的决策。数据流技术的全球覆盖范围将不断扩大,使组织能够利用更广泛的人才资源,并构建更具活力和灵活性的运营结构。”