什么时候有足够的数据？-人工智能专区

什么时候有足够的数据？

作者：翻译编辑：卢敏 2022-10-31 17:32 来源：佚名

　　人工智能 (AI) 的问题和前景是人。无论我们对机器人霸主接管的希望（和恐惧）如何，这一直是正确的。在人工智能和更普遍的数据科学中，诀窍是融合人类和机器的精华。一段时间以来，人工智能行业的拉拉队一直倾向于强调等式的机器方面。但正如 Spring Health 数据科学家 Elena Dyachkova 所暗示的那样，数据（及其背后的机器）只有在解释数据的人聪明时才有用。

　　让我们打开它。

　　不完善的数据，好的决策

　　Dyachkova 正在回复 Amplify Partners 的普通合伙人、Mattermark 的前数据主管 Sarah Catanzaro 的评论。在讨论不完善的数据和分析在决策制定中的效用时， Catanzaro 说：“我认为数据社区经常忽略那些有缺陷但方向正确的报告和分析的价值。” 然后她继续争辩说，“许多决策不需要高精度的洞察力；在许多情况下，我们不应该回避快速和肮脏的行为。”

　　这是一个很好的提醒，我们不需要完美的数据来为决策提供信息。那挺好的。 2016 年被 Uber 收购的机器学习公司 Geometric Intelligence的科学家和创始人 Gary Marcus 坚持认为，欣赏人工智能及其子集机器学习和深度学习的关键是要认识到这种模式识别工具处于“状态”当我们只需要粗略的结果时，风险很低，完美的结果是可选的。” 尽管如此，在我们寻求更强大的人工智能驱动应用程序的过程中，我们一直在寻找越来越多的数据，并期望在有足够的数据的情况下，机器学习模型会以某种方式为我们提供比“粗略的结果”更好的结果。

　　CSO 执行会议/东盟：David Walker 谈数据、安全和创新

　　唉! 在现实世界中，它根本不会那样工作。虽然更多的数据是好的，但对于许多应用程序来说，我们不需要更多的数据。相反，我们需要人们做好更好的准备来理解我们已经拥有的数据。

　　正如 Dyachkova 指出的那样，“产品分析 80% 是快速而肮脏的。但是判断何时快速和肮脏是合适的能力需要对统计数据有很好的理解。” 了解？Indeed.com 的数据科学家文森特·道林 (Vincent Dowling)更清楚地表明了这一点：“成为一名经验丰富的分析师/科学家的很多价值在于确定做出决定所需的严谨程度。”

　　他们都在谈论如何做出决策，在这两种情况下，查看数据的人的经验比数据本身更重要。机器永远无法弥补运行它们的人的不足。正如《卫报》的一篇社论所说，“人工智能的前景是，它将赋予机器从数据中发现模式并比人类更快、更好地做出决策的能力。如果他们更快地做出更糟糕的决定会发生什么？”

　　如果人们放弃所有权，认为数据和机器会以某种方式为自己说话，这是一种非常现实的可能性。

　　在实践中，让人民负责并不是那么容易实现的。正如 Gartner 研究副总裁 Manjunath Bhat 所说，人工智能受到人类输入的影响，包括我们选择输入机器的数据。反过来，我们算法的结果会影响我们做出决策的数据。“人们以数据的形式消费事实。但是，数据可以被变异、转换和更改——所有这些都是为了使其易于使用。那时我们别无选择，只能生活在高度情境化的世界观的范围内。”

　　亚马逊应用科学家 Eugene Yan 认为，对于一个成功的机器学习项目，“你需要数据。您需要一个强大的管道来支持您的数据流。最重要的是，您需要高质量的标签。” 但如果没有经验丰富的人，就无法正确标记这些数据。要很好地标记它，您需要了解数据。

　　这可以追溯到Gartner 分析师 Svetlana Sicular 十年前提出的观点：企业中充满了了解其业务细微差别的人。他们最有能力找出正确的问题来询问公司的数据。他们可能缺乏的是对 Dyachkova 指出的统计数据的额外理解——知道何时“足够好”的结果实际上足够好的能力。

　　当然，这就是数据科学困难的原因。在每次关于采用 AI/ML 的主要障碍的调查中，“人才”总是位居榜首。有时我们认为这是由于缺乏数据科学人才，但也许我们应该担心缺乏对统计、数学和特定公司业务的基本理解。

关注我们