人工智能 频道

10 个机器学习错误以及如何避免这些错误

机器学习是一项价值数十亿美元的业务,看似潜力无穷,但也存在一些风险,以下是如何避免最常见的机器学习错误。

随着机器学习技术的应用越来越广泛,它正在许多领域占据一席之地。研究公司 Fortune Business Insights 预测,全球机器学习市场将从 2023 年的 260.3 亿美元扩大到 2030 年的 2259.1 亿美元。机器学习的用例包括产品推荐、图像识别、欺诈检测、语言翻译、诊断工具等。

作为人工智能的一个子集,机器学习指的是利用大量数据集训练算法以做出预测性决策的过程。机器学习的潜在优势似乎是无限的,但它也带来了一些风险。

我们向技术领导者和分析师询问了他们所见过的机器学习项目最常见的失败方式。以下是他们告诉我们的内容。

机器学习项目失败的 10 种方式:

  • 人工智能幻觉

  • 模型偏差

  • 法律和道德风险

  • 数据质量差

  • 模型过拟合和欠拟合

  • 遗留系统集成问题

  • 性能和可扩展性问题

  • 缺乏透明度和信任

  • 特定领域知识不足

  • 机器学习技能短缺

人工智能幻觉

在机器学习中,幻觉是指大型语言模型(LLM)感知到不存在或人类无法感知的模式或对象。当幻觉在生成的代码或聊天机器人响应中表现出来时,就会导致无用的输出。

“在当今的环境中,幻觉之类的问题达到了前所未有的高度。“统一数据平台提供商 New Relic 的人工智能/机器学习主管Camden Swita说,他指出,最近的研究表明,绝大多数机器学习工程师观察到了幻觉的迹象。

Swita说,要消除幻觉,就不能只关注生成内容。“相反,开发人员必须强调总结任务,并利用检索增强生成(RAG)等先进技术,这可以大大减少幻觉。”此外,将人工智能的输出固定在真实、经过验证和规范的数据源上,可以降低产生误导性信息的可能性。

模型偏差

企业需要注意模型偏差,即模型中存在系统误差,可能导致其持续做出不正确的预测。这些错误可能来自用于算法、训练数据的选择、创建模型时使用的特征选择或其他问题。

“用于训练机器学习模型的数据必须包含准确的群体代表性和多样化的数据集,”StaffDNA 公司首席执行官 Sheldon Arora 说,该公司利用人工智能帮助医疗保健行业的求职者匹配工作岗位。“任何一个特定群体的代表性过高,都会导致无法准确反映整个群体。持续监控模型性能可确保所有人口群体的公平代表性。”

解决偏见问题是现代人工智能领域取得成功的关键,Swita 说,最 佳做法包括实施持续监控、警报机制和内容过滤,以帮助主动识别和纠正有偏见的内容。“通过这些方法,企业可以制定人工智能框架,优先处理经过验证的内容。”

要解决偏见问题,企业需要采用动态方法,包括不断完善系统,以跟上快速发展的模式,Swita 说,需要为消除偏见精心定制战略。

法律和道德风险

机器学习存在一定的法律和道德风险。法律风险包括因模型偏差导致的歧视、数据隐私侵犯、安全泄露和知识产权侵犯。这些风险和其他风险会对机器学习系统的开发者和用户产生影响。

道德风险包括潜在的伤害或利用、滥用数据、缺乏透明度和缺乏问责制。基于机器学习算法做出的决策可能会对个人产生负面影响,即使这并非其本意。

Swita重申,必须将模型和输出建立在可信、经过验证和受监管的数据之上。他说,通过遵守有关数据使用和隐私的法规和标准,企业可以降低与机器学习相关的法律和道德风险。

数据质量差

与任何依赖数据产生积极结果的技术一样,机器学习需要高质量的数据才能取得成功。数据质量差会导致模型缺陷和无法接受的结果。

研究公司 Gartner 的市场分析表明,大多数组织的数据都存在问题,许多组织将数据不可靠和不准确作为不信任人工智能的首要原因。Gartner分析和人工智能团队高级总监兼分析师Peter Krensky说:“领导者和从业者都在为原型准备数据和确保为现实世界做好准备之间挣扎。”

“为了应对这些挑战,企业必须务实,采用与数据预期目的相一致的管理方法,促进信任和适应性,"Krensky 说。

在线娱乐网站 Online Games 的首席执行官 Marin Cristian-Ovidiu 表示,机器学习在很大程度上依赖于数据质量。他说,糟糕的数据[导致]不准确的预测,就像一个推荐系统因为有偏见的输入而推广不相关的内容一样。

要解决这个问题,企业必须采用强大的数据清理流程和多样化的数据集,Cristian-Ovidiu 说。Arora补充说,高质量的数据对于建立可靠的机器学习模型至关重要。他说,应定期对数据进行清洗,并采用预处理技术以确保准确性,良好的数据是有效训练模型并获得可靠输出的关键。

除了不准确或存在其他缺陷的数据外,企业还可能发现自己需要处理一些对特定任务没有意义的数据点。团队可以利用数据可视化和统计分析等功能识别无关数据。一旦识别出这些数据,就可以在训练模型之前将其从数据集中删除。

模型过拟合和欠拟合

除了使用的数据外,模型本身也可能成为机器学习项目中的故障源。

当模型在训练时过于贴近训练集,就会出现过度拟合的情况。这会导致模型在新数据上表现不佳。模型通常在已知数据集上进行训练,以便对新数据进行预测,但过度拟合的模型无法很好地泛化到新数据上,也就无法完成预期任务。

谷歌软件工程师、PressPulse 公司创始人Elvis Sun说:“如果一个模型在训练数据上表现良好,但在新数据上表现不佳,那么这个模型就被称为过拟合模型。”PressPulse 是一家利用人工智能帮助记者和专家建立联系的公司。“当模型变得过于复杂时,它就会'记忆'训练数据,而不是找出模式。”

欠拟合是指模型过于简单,无法准确捕捉输入和输出变量之间的关系。结果是模型在训练数据和新数据上表现不佳。Sun 说,“当模型过于简单,无法代表数据的真实复杂性时,就会出现欠拟合。”

Sun 说,团队可以使用交叉验证、正则化和适当的模型架构来解决这些问题。他说,交叉验证可以评估模型在保留数据上的表现,从而证明模型的泛化能力。企业可以在模型的复杂性和泛化之间取得平衡,从而产生可靠、准确的机器学习解决方案。他说,L1 或 L2 等正则化技术通过惩罚模型的复杂性和促进更简单、更广泛适用的解决方案来阻止过度拟合。

遗留系统集成问题

将机器学习集成到遗留IT系统中可能需要评估现有基础设施对机器学习的适应性、创建集成流程、使用应用程序编程接口(API)进行数据交换以及其他步骤。无论涉及什么内容,确保现有系统能够支持新的基于机器学习的产品至关重要。

软件人才中介机构Scalable Path的创始人兼首席执行官Damien Filiatrault表示:“遗留系统可能无法满足机器学习工具的基础设施要求,这可能会导致效率低下或集成不完整。”

Filiatrault说:“例如,一个需求预测机器学习模型可能与零售公司当前使用的库存管理软件不兼容。因此,要进行此类实施,必须先对系统进行彻底评估。”

Filiatrault表示,可以通过API和微服务将机器学习模型与旧系统集成,这些API和微服务能够实现它们之间的交互。“此外,数据科学家和IT团队跨职能协作,分阶段推出,可以确保更平稳的采用。”

性能和可扩展性问题

可扩展性是另一个问题,特别是随着机器学习的使用时间逐渐延长。如果系统无法在处理显著更大的数据集、增加的复杂性和更高的计算需求时保持其性能和效率,那么结果可能无法接受。

机器学习模型必须能够在处理不断增长的数据量时保持性能或速度不会大幅下降。Arora说:“除非公司使用可扩展的云计算资源,否则将无法处理波动的数据量。根据数据集的大小,可能需要更复杂的模型。分布式计算框架允许对大型数据集进行并行计算。”

缺乏透明度和信任

Filiatrault说,机器学习应用程序往往像“黑箱”一样运作,这使得解释其结果具有挑战性。

Filiatrault说:“在医疗保健和其他注重保密性的环境中,这种缺乏透明度可能会损害用户的信心。尽可能使用可解释模型或采用SHAP(SHapley Additive exPlanations)等解释框架可能有助于解决这个问题。”

Filiatrault表示,对决策过程进行适当的文档记录和可视化也有助于建立用户信任并遵守法规,以保证人工智能的伦理使用。

Cristian-Ovidiu说:“模型通常只给出结果,而不解释原因。例如,一个玩家参与度模型可能会提高留存率,但无法明确哪些因素起到了作用。使用易于理解的模型,并请专家帮忙检查结果。”

特定领域知识不足

Sun说,有效使用机器学习通常需要对所解决的问题或领域有深入了解。团队中缺乏合适人才的公司可能会发现,这种领域专业知识是一个重大问题。

Sun说:“根据行业特定的数据结构、业务程序以及法律和法规等因素,机器学习解决方案可能会成功,也可能不会成功。”

为了弥合这一差距,机器学习专业人员必须与相关领域的人员密切合作。“通过将机器学习团队的技术专长与领域专家的具体情况知识相结合,企业可以创建更好的机器学习模型,”他说,“这种合作可以采取问题定义、训练数据集创建或在模型开发和部署期间建立持续反馈循环的形式。”

机器学习技能短缺

与许多其他技术领域一样,组织面临着所需的机器学习技能短缺问题。

Krensky说:“人才挑战通常源于技能短缺以及需要弥合技术和非技术利益相关者之间的鸿沟。许多组织在变革管理方面遇到困难,这对于推动采用和使团队与不断发展的能力保持一致至关重要。”

Krensky说,组织通过专注于技能再培训、促进跨学科协作和接受新角色(如AI翻译人员)来克服这些挑战。

0
相关文章