这篇Axios文章陈述了我们已经知道的:来自许多生成AI(genAI)系统的响应具有误导性,而不是用户要求的,或者只是完全错误。公开问题是,微软软件工程负责人Shane Jones于3月6日致函联邦贸易委员会主席Lina Khan和微软董事会,称微软的AI图像生成器创建了暴力和性图像,并在收到特定提示时使用受版权保护的图像。
当然,巨大的、可公开访问的大型语言模型(LLM)得到了最负面的关注。利用生成性人工智能的业务应用程序呢?当然,较小的重点将推动更高质量的响应。不。
生成人工智能哪里出了问题
许多人告诉我,他们认为生成性人工智能应该提供信息和有帮助的响应的机会。这项技术似乎没有达到这一期望。到底发生了什么事?
生成人工智能与所有人工智能系统具有相同的局限性:它取决于用于训练模型的数据。蹩脚的数据创造了蹩脚的AI模型。更糟糕的是,你会得到错误的回复或可能会让你陷入法律麻烦的回复。重要的是要承认这些系统固有的局限性,并了解它们有时会表现出可以合理地被称为“愚蠢”的东西。这种愚蠢行为可能会让你破产,或者让你被起诉进入石器时代。
生成性人工智能模型,包括GPT等模型,根据从大量数据集中学到的模式和关联来运行。虽然这些模型可以产生连贯和上下文相关的响应,但它们缺乏适当的理解和意识,导致输出可能看起来令人困惑或荒谬。
你可以要求一个公共大型语言模型来创建一份历史文件,并得到一份解释拿破仑在美国内战中作战的论文。这个错误很容易发现,但在新的支持genAI的供应链优化系统中犯的错误可能不那么容易发现。这些错误可能会导致数百万美元的收入损失。
我发现这些系统的用户将响应视为福音,比其他系统更是如此。错误往往要等到造成很大损害后才被发现,有时是几个月后。
是数据,笨蛋
生成性人工智能的大多数业务问题是由数据不足引起的。公司花了所有的时间选择人工智能工具,包括公共云服务,但没有花足够的时间让数据变得更好,为这些人工智能模型提供可靠的训练数据。这些系统消耗“肮脏数据”,最终会从这些新建的LLM或小语言模型(SLM)中遇到各种麻烦。
企业理解这个问题,但他们似乎可以推进生成性人工智能系统,而无需修复正在摄取的数据。他们通常认为人工智能工具会发现有缺陷和错误的数据,并将其排除在考虑之外。
人工智能系统可以做到这一点,只要在从不适合依赖的特定模型查看数据之前进行验证。验证过程可以找到并消除远远不足的数据,但并非所有不足的数据都看起来像不良数据。如果错误数据被作为训练数据摄取,您的生成人工智能系统将变得越来越笨。
企业在生成性人工智能方面遇到的大多数问题都与劣质数据或最初不应该使用的数据有关。虽然您会认为解决数据问题很容易,但对于大多数企业来说,您正在花费数百万美元和数月或数年的时间来获得原始数据。相反,钱花在了人工智能上,而不是数据上。结果怎么会有什么不同呢?
此外,生成性人工智能系统容易受到偏见的影响。如果他们的训练数据包含偏差或不准确,模型可能会无意中在生成的内容中延续或放大它们,或与其他应用程序和/或人类进行自动咨询。一旦它被内置到模型中,就需要努力消除偏见。模型的不同部分可能中毒,隔离和移除具有挑战性。
生成人工智能的其他问题
缺乏常识是导致生成性人工智能感知“愚蠢”的一个主要因素。与人类不同,这些系统不具备与生俱来的关于世界的知识;它们依赖于在训练期间学到的统计模式。这个结果可能是可能需要更深入地了解现实世界的回应。
另一个需要考虑的方面是生成AI对输入短语的敏感性。该系统根据它通过提示从人类或使用API的应用程序收到的输入生成响应。措辞的轻微变化可能会导致截然不同的结果。由于这种敏感性,用户可能会发现人工智能偶尔会产生意外或无关的响应。人工智能的大部分价值只能通过提出正确的问题并使用正确的方法来解锁。
此外,无法将商业数据与可能受到版权或知识产权所有权问题影响的数据区分开来。例如,作者协会由8500多名作者签署的公开信敦促负责生成人工智能应用程序的科技公司,如OpenAI(ChatGPT)和谷歌(Gemini,以前称为Bard),在未经适当授权或补偿的情况下停止使用其作品。我问过大型公共法学硕士的问题,并多次将自己作品的片段退回给我。我相信我的书和数千篇文章(可能来自本网站)被用作这些法学硕士的培训数据。
如果将他人的知识产权用于有价值的商业目的,使用这些LLM进行部分业务处理的企业可能会提起诉讼。例如,法学硕士可能会在不知不觉中使用受版权保护的文本中描述的供应链管理流程来优化您的供应链,包括已发布的算法。这就是为什么大多数公司禁止将公共生成人工智能系统用于商业目的。这是一个重大风险。
当我们继续寻找生成性人工智能涅槃的旅程时,我相信我们需要先学习如何解决这些问题和其他问题。对不起,我是个秃头。