Gretel开源100,000个文本到SQL样本-人工智能专区

Gretel开源100,000个文本到SQL样本

作者：卢敏【翻译】编辑：卢敏 2024-04-10 17:57 IT168网站原创

　　合成数据生成公司Gretel上周宣布，它已经捐赠了超过10万个文本到SQL转换示例，并将其停放在Huggingface上，为企业提供了另一个免费的开源资源，用于构建生成性AI应用程序。

　　企业的分析部门使用结构化查询语言，但GenAI革命正在发生非结构化数据——主要是文本，但也包括图像——弥合自然语言和SQL方言之间的差距并不总是容易的。

　　企业将大量相关数据藏在数据仓库中的数百万张表中，但访问这些信息需要适当的SQL查询，将自然语言作为GenAI应用程序的一部分转换为SQL并不简单或容易。

　　例如，寻求更多销售细节的经理可能会问：“上个季度信用卡交易产生的总收入是多少，按产品类别细分？”这听起来可能很简单，但可能有几种方法可以将该问题转换为SQL查询，其中一些是正确的，一些则不是。

　　这是Gretel（一家拥有五年历史的加利福尼亚州桑尼维尔公司，专门从事创建合成数据的工具）决定开源由超过10万个文本到SQL转换示例组成的合成数据集的基本动力。

　　Gretel联合创始人兼首席产品官Alex Watson表示，数据集将帮助公司使用GenAI从复杂的数据库、数据仓库和数据湖中获得见解，而无需学习SQL或依赖技术团队。

　　Watson在一份新闻稿中说：“访问高质量的训练数据是使用生成性人工智能构建的最大障碍之一。”“通过为开发人员提供高质量的合成文本到SQL数据，我们使他们能够创建可以理解自然语言查询和生成SQL查询的人工智能模型。”

　　文本到SQL的示例包括元数据，并跨越100多个垂直领域，使它们对各种行业的公司培训大型语言模型（LLM）非常有用。它们在允许的Apache 2.0许可证下在Huggingface上提供。用户还可以在Gretel Navigator中与他们合作，Gretel Navigator是该公司用于创建和管理合成数据内容的企业产品。

　　例如，对于自然语言查询，“500美元以下的电子产品的名称和价格是什么，从最高到最低价格排序？”开源数据集包括以下SQL查询：

　　选择产品名称，价格

　　来自产品

　　WHERE类别=“电子产品”和价格<500

　　按价格DESC订购；

　　Gretel首席科学家Yev Meyer说：“数据科学家可以使用这些文本到SQL样本来训练或微调人工智能模型。”“通过为模型提供自然语言查询和相应的SQL代码的配对示例，该模型学习在两者之间映射，并为模型尚未看到的查询推广和生成SQL代码。”

　　Gretel不是第一个分享大量文本到SQL样本的机构。该公司指出，耶鲁大学耶鲁大学（LILY）实验室的语言、信息和学习创建了Spider数据集，该数据集由不同领域的7000个文本到SQL示例组成。

　　然而，Spider要求11名大学生总共工作1000小时才能完成，Meyer说，“在大型语言模型的背景下，对于相对较小的数据集来说，这是令人难以置信的努力。”（LILY说要留意Spider 2.0，该2.0即将到期，并将为LLM时代提供文本到SQL。）

　　Spider数据集的Copyleft许可证也对更广泛的采用提出了挑战，这也是Gretel为其数据集选择宽松的Apache 2.0许可证的原因之一。

　　Meyer说：“我们的数据集是同类中最大、最多样化的开源数据集。”“其他开源文本到SQL数据集要小得多（减少其实用程序），或者其许可附加了字符串。在Apache 2.0许可证下发布这个庞大的数据集，使人工智能开发人员可以自由地用它构建任何他们想要的东西。我们很高兴看到它的去向！”

关注我们