人工智能 频道

Gretel开源100,000个文本到SQL样本

  合成数据生成公司Gretel上周宣布,它已经捐赠了超过10万个文本到SQL转换示例,并将其停放在Huggingface上,为企业提供了另一个免费的开源资源,用于构建生成性AI应用程序。

  企业的分析部门使用结构化查询语言,但GenAI革命正在发生非结构化数据——主要是文本,但也包括图像——弥合自然语言和SQL方言之间的差距并不总是容易的。

  企业将大量相关数据藏在数据仓库中的数百万张表中,但访问这些信息需要适当的SQL查询,将自然语言作为GenAI应用程序的一部分转换为SQL并不简单或容易。

  例如,寻求更多销售细节的经理可能会问:“上个季度信用卡交易产生的总收入是多少,按产品类别细分?”这听起来可能很简单,但可能有几种方法可以将该问题转换为SQL查询,其中一些是正确的,一些则不是。

  这是Gretel(一家拥有五年历史的加利福尼亚州桑尼维尔公司,专门从事创建合成数据的工具)决定开源由超过10万个文本到SQL转换示例组成的合成数据集的基本动力。

  Gretel联合创始人兼首席产品官Alex Watson表示,数据集将帮助公司使用GenAI从复杂的数据库、数据仓库和数据湖中获得见解,而无需学习SQL或依赖技术团队。

  Watson在一份新闻稿中说:“访问高质量的训练数据是使用生成性人工智能构建的最大障碍之一。”“通过为开发人员提供高质量的合成文本到SQL数据,我们使他们能够创建可以理解自然语言查询和生成SQL查询的人工智能模型。”

  文本到SQL的示例包括元数据,并跨越100多个垂直领域,使它们对各种行业的公司培训大型语言模型(LLM)非常有用。它们在允许的Apache 2.0许可证下在Huggingface上提供。用户还可以在Gretel Navigator中与他们合作,Gretel Navigator是该公司用于创建和管理合成数据内容的企业产品。

  例如,对于自然语言查询,“500美元以下的电子产品的名称和价格是什么,从最高到最低价格排序?”开源数据集包括以下SQL查询:

  选择产品名称,价格

  来自产品

  WHERE类别=“电子产品”和价格<500

  按价格DESC订购;

  Gretel首席科学家Yev Meyer说:“数据科学家可以使用这些文本到SQL样本来训练或微调人工智能模型。”“通过为模型提供自然语言查询和相应的SQL代码的配对示例,该模型学习在两者之间映射,并为模型尚未看到的查询推广和生成SQL代码。”

  Gretel不是第一个分享大量文本到SQL样本的机构。该公司指出,耶鲁大学耶鲁大学(LILY)实验室的语言、信息和学习创建了Spider数据集,该数据集由不同领域的7000个文本到SQL示例组成。

  然而,Spider要求11名大学生总共工作1000小时才能完成,Meyer说,“在大型语言模型的背景下,对于相对较小的数据集来说,这是令人难以置信的努力。”(LILY说要留意Spider 2.0,该2.0即将到期,并将为LLM时代提供文本到SQL。)

  Spider数据集的Copyleft许可证也对更广泛的采用提出了挑战,这也是Gretel为其数据集选择宽松的Apache 2.0许可证的原因之一。

  Meyer说:“我们的数据集是同类中最大、最多样化的开源数据集。”“其他开源文本到SQL数据集要小得多(减少其实用程序),或者其许可附加了字符串。在Apache 2.0许可证下发布这个庞大的数据集,使人工智能开发人员可以自由地用它构建任何他们想要的东西。我们很高兴看到它的去向!”

0
相关文章