人工智能 频道

数据质量研究揭示了不良数据对业务的影响

如果您的数据仓库开始看起来像 Havisham 小姐的腐朽豪宅,那么您可能遇到了数据质量问题。

开源数据质量工具 Great Expectations 对 500 名数据专业人员进行的一项新调查显示,77% 的人存在数据质量问题,91% 的人表示他们正在影响公司的业绩。只有 11% 的人没有报告与数据质量相关的问题。

“糟糕的数据质量和管道债务在利益相关者之间造成了组织摩擦,导致信心下降等后果,”创造远大期望的公司 Superconductive 的首席执行官兼联合创始人 Abe Gong 说“这项调查清楚地表明,数据质量问题很普遍,它们正在损害业务成果。”

作为数据治理和管理的一个组成部分,数据质量是衡量数据集整体完整性的指标,以一致性为目标。在 Great Expectations 最近的一篇博文中,作者 Sam Bail 列出了数据质量的六个维度:


您的数据是否类似于郝薇香小姐的破旧豪宅?

  • 准确性:数据是否准确反映了现实?
  • 完整性:用例所需的所有数据是否可用?
  • 唯一性:数据是否没有不需要的重复项?
  • 一致性:数据是否没有相互冲突的信息?
  • 及时性:对于所需用例,数据是否足够新?
  • 有效性:数据是否符合预期的格式?

不满足这些属性的数据可能会给组织带来问题,包括使“难以或不可能看到最终用户或服务的‘单一视图’、降低生产力、模糊可靠的性能指标,以及用数据压倒开发团队和预算迁移任务,”该公司表示。

根据调查,数据从业人员表示,低质量数据导致缺乏文档(31%)、缺乏工具(27%)和团队之间缺乏理解(22%)。太多时间花在数据准备上,导致生产和分析团队出现重大延误。

此外,该研究发现,不到一半的受访者表示对他们公司的数据高度信任,13% 的受访者表示他们的信任度很低。这些不信任的专业人士指责应用程序或仪表板损坏、基于不可靠数据的决策结果不佳、缺乏对指标的共同理解以及数据在不同地方孤立,这可能导致不同团队之间的冲突和不和谐。

数据质量计划可以提供帮助,它们通常从全面评估当前数据状态开始。有了这些信息,公司可以定义和应用某些规则或期望,以解决数据质量差异,然后继续监控整个组织的系统和管道。在接受调查的人中,89% 的人表示公司领导层支持他们在数据质量方面的努力,52% 的人认为他们的领导者高度信任数据质量的重要性。该研究提到数据质量工作包括制定范围和预算的数据质量计划 (22%)、使用特定的数据质量工具 (19%)、手动检查数据 (14%) 和构建自己的系统 (15%)。

Great Expectations 将自己标榜为“通过数据测试、文档和分析来消除管道债务的开源工具”,其使命是“彻底改变数据协作的速度和完整性”。去年 2 月,该公司在 B 轮融资中筹集了 4000 万美元,计划增强开源版本并开发付费的 Great Expectations Cloud 版本,其中包含一套用于管理数据质量的协作编排工具。

数据质量对于促进整个组织充满信心地做出决策至关重要,有助于对数据的含义和用途有统一的理解。这就是为什么应该在组织的各个层面找到对数据质量工作的支持,从数据科学家和工程师到对决策结果有信心的最高管理层和董事会。


0
相关文章