大数据的挑战——我们如何存储、管理、管理和使用它——从未如此紧迫。人工智能的进步可能是2024年的驱动力,但如果你的大数据失控,这并不意味着什么。
大数据将在新的一年给我们带来什么?这真的是任何人的猜测,因为过去事实证明,未来很难预测。对于大数据预测,我们寻求行业专家的见解。
数据库提供商Percona的技术传播者Dave Stokes表示,对向量数据库的兴趣将激增。然而,它不会持续整整一次环绕太阳的旅行。
Stokes预测:“向量数据库将成为许多人讨论的热门新领域,但几年后最终会被关系数据库吸收。”“每隔10年左右,就会宣布一种'新'数据库技术是关系数据库的终结,开发人员会加入这一潮流,只是重新发现关系模型非常灵活,关系数据库供应商可以轻松地将新技术纳入其产品中。
不同数据孤岛的存在一直是数据工程师的眼中钉。但根据Hammerspace的营销高级副总裁Molly Presley的说法,随着数据编排的集中形式占据中心位置,2024将带来一线希望。
普雷斯利说:“组织将开始从'存储和复制'转向数据编排的世界。”“在人工智能进步的推动下,现在存在强大的工具来分析数据并梳理出可操作的见解。然而,文件存储基础设施没有跟上这些进步的步伐。与试图通过将文件副本从一个地方移动到另一个地方来管理存储孤岛和分布式环境的解决方案不同,数据编排帮助组织将数据整合到来自不同孤岛和位置的单个命名空间中,并在数据最有价值的时间和地点自动放置数据,从而更容易分析和获得见解。”
我们存储的大多数数据都是非结构化的。MinIO的联合创始人兼首席执行官Anand Babu “AB” Periasamy说,随着它堆积,它成为管理的真正挑战,但2024年将带来管理这一切的新方法。
“在2024年,随着人工智能应用程序的飞行,我们将看到企业真正非结构化数据(音频、视频、会议录音、会谈、演示)的爆炸性增长。从人工智能的角度来看,这是高度“可学习”的内容,将其收集到人工智能数据湖中将大大提高整个企业的智能能力,但它也带来了独特的挑战,”Periasamy说。“将性能保持在数十PB存在明显的挑战。这些通常无法用传统的SAN/NAS解决方案来解决——它们需要现代、高性能的对象存储的属性。这就是为什么大多数AI/ML技术(即OpenAI、Anthropic、Kubeflow),利用对象存储以及为什么大多数数据库都以对象存储为中心。”
据Forrester称,由企业管理的非结构化数据将在2024年翻一番,为人工智能开辟潜在有利可图的新选择。
分析小组表示:“全球数据和分析决策者表示,他们组织管理的数据中只有27%是非结构化的。”“随着公司为客户和员工推出更多的对话体验,生成人工智能将增加一倍。企业将争先恐后地存储、分析和理解这大量非结构化数据。这一趋势将出现在数据管道空间中,2024年构建的新数据管道中,80%将用于摄取、处理和存储非结构化数据。
Faction, Inc.技术和运营副总裁Jeff Heller表示,到2024年,全球许多企业将实施数据优先架构,以简化其数据管理策略。
Heller说:“公司正在经历范式转变;他们要么选择一个云,要么选择架构师来满足他们的需求。”“在2024年,组织将需要研究哪种云最适合他们,以充分利用他们的数据。基于短期目标而不是长期增长做出的决定,将导致数据锁定。数据需要准确且可访问,才能及时做出决策。对于组织来说,管理数据变得越来越复杂。对高效数据管理策略的需求至关重要。企业将转向解决方案,提供从所有云的首选位置访问单个数据集,确保数据准确性和效率。”
数据管道商店Matillion的首席产品官Ciaran Dynes表示,人工智能革命正在触及生活的各个方面,包括大数据管理。
Dynes说:“在过去十年中,数据工程师的角色从根本上扩大了。”“未来12个月将是科技公司让数据工程师的生活更简单的一年。工具将进入市场,集成到现有平台中,以便能够为现有数据管道添加生成性人工智能,并能够在内部部署这些模型,以便用户可以像已经使用ChatGPT一样与这些模型进行实时交互。无论市场上有什么工具,明年也将看到对数据工程师进行重新培训以掌握提示工程的巨大需求,如何微调这些模型,如何大幅提高其生产力。明年,数据工程师的生活将变得更加有趣。”
你对数据工程师的重视程度如何?根据Snowflake产品管理总监Jeff Hollan的说法,在2024年,您将更加重视它们。
Hollan说:“人们一直在喋喋不休地谈论人工智能革命将取代数据工程师的角色。”“事实并非如此,事实上,他们的数据专业知识将比以往任何时候都更加重要——只是以新的和不同的方式。为了跟上不断变化的格局,数据工程师需要了解生成性人工智能如何增加价值。由数据工程师构建和管理的数据管道可能是与大型语言模型连接的第一个地方,以便组织解锁价值。数据工程师将了解如何使用模型并将其插入数据管道以自动提取价值。他们还将被期望监督和理解人工智能的工作。”
当数据由第三方在云端管理时,您可能会觉得数据失控。Ngrok首席技术官Peter Shafton预测,2024年将是您开始重新控制数据的一年。
Shafton说:“2024年的数据管理将显著转向更大的可访问性和控制性。”“虽然过去十年见证了基于云的数据解决方案的热潮,但钟摆正在转向更多的自我管理。这种转变背后的原因有两个:隐私和成本效益。数据泄露的持续威胁和更严格的访问控制需求使企业对仅依赖外部云平台持谨慎作用。此外,云数据存储和处理成本的不可预测性导致组织寻求更可预测和更具成本效益的解决方案。可访问和用户友好的数据管理工具的激增也促进了这一趋势,这些工具通常源于优步、Netflix和Airbnb等科技巨头开创的开源解决方案。
“数据智能”一词多年来一直在增长,指组织对其数据产生影响的各种数据管理工具。Nasuni的首席创新官Jim Liddle说,未来12个月将是这个概念的成败之作。
Liddle说:“数量惊人的公司存储了大量数据,只是因为他们不知道其中有什么,也不知道他们是否需要它。”“数据是否准确且最新?它是否正确分类和“可搜索”?它合规吗?它是否包含个人身份信息(PII)、受保护的健康信息(PHI)或其他敏感信息?它是按需提供还是存档?在未来一年,公司将被迫接受人工智能的数据质量、治理、访问和存储要求,然后才能推进数字化转型或改进计划,以赋予他们所需的竞争优势。”
Coalesce首席执行官兼联合创始人Armon Petrossian说,如果未能保持数据的质量和完整性,你可以告别你的2024 GenAI计划。
他说:“2024年,随着数据从宝贵的资产演变为蓬勃发展的企业的命脉,技术格局将出现变革性转变。”“忽视数据质量、完整性和血统的组织将面临挑战,不仅要做出明智的决策,还要充分发挥生成AI、LLM和ML应用程序和用例的潜力。随着这一年的展开,我预测,忽视制定强大数据基础和战略的组织将发现在快速发展的科技行业中生存越来越具有挑战性。那些未能适应和优先考虑数据基本面的人将很难超过竞争对手,甚至可能在这个竞争激烈的环境中冒着生存的风险。”
数据血统构成了持续的挑战。Altair云首席工程师Yeshwant Mummaneni预测,到2024年,区块链将到来救援。
Mummaneni说:“由于AI/ML模型在关键决策中发挥着关键作用,无论是由人类监督还是以完全自主的方式监督,模型来源/血统都变得至关重要。”“推动区块链利用密码学提供记录、数字身份、签名和验证的不变性的基础技术将成为企业人工智能提供篡改证明模型来源的关键方面。”
另一个大数据趋势将在2024年寒冷的冬夜像冰晶一样增长:合成数据。这是给SAS高级分析产品经理Spiros Potamitis的。
Potamitis说:“随着组织面临更严格的监管,跨境共享敏感数据变得更加具有挑战性,合成数据将获得很大的牵引力。”“合成数据可以高精度捕获原始数据源的统计属性,以克服监管障碍并为组织解锁创新。”
ALTR首席执行官James Beecham表示,虽然您的大数据存储库感觉正确,但2024年将是数据治理“向左转移”的一年。
Beecham说:“组织将在数据旅程的早期实施数据治理和安全措施,位于云数据仓库的左侧,这不仅将保护敏感信息,还将提高所收集数据的整体质量。”“随着有关数据隐私和安全的法规越来越多,早期优先考虑数据治理和安全的公司将更好地遵守这些法规。2024年,预计大量公司将优先考虑左转数据治理和安全——允许他们在云数据仓库和湖屋上启动强大的数据访问治理和数据安全功能,并在离开源系统时将其扩展到数据。”