Text-to-SQL学习笔记(二)数据集
2021/7/10 19:35:56
本文主要是介绍Text-to-SQL学习笔记(二)数据集,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Text2SQL — Part 2: Datasets
你可以在没有信息的情况下拥有数据,但你不能在没有数据的情况下拥有信息。 -Daniel Moran
与其他自然语言处理任务一样,Text2SQL高度依赖所使用的数据集类型。已经创建了具有不同结构、长度和查询的不同数据集。语义解析领域共有9个数据集,其中SPIDER是当前的基准数据集。
本博客涉及的数据集:
- ATIS
- GeoQuery
- IMDb
- Advising
- WikiSQL
- Spider
每个数据集的创建都基于不同的任务。例如,设计ATIS数据集是为了测量包括语音和自然语言成分的口语系统的进展。
让我们一个接一个地了解它们…
1. ATIS (Air Travel Information System) Dataset
ATIS语料库包括从官方航空指南收集的数据,按照关系模式组织。
它由25个表组成,其中包含关于票价、航空公司、航班、城市、机场和地面服务的信息。可以使用单个关系查询回答与此数据集相关的问题。
与此数据集对应的关系数据库被设计为以直观的方式回答查询,即使用更短的表来回答。
ATIS数据集查询示例:输入为自然语言形式,输出为λ微积分形式。
2. GeoQuery Dataset
地理查询数据集包含美国地理信息。它有大约800个facts表达在Prolog。
这个数据库包含关于州、城市、河流和山脉的信息。
属性主要由首都、人口密度等地理和地形属性构成。
3. IMDb Dataset
IMDb数据集是来自IMDb的50K条评论的巨大集合。每部电影的评论限制在30条以内。
数据集由相同数量的正面和负面评论组成。
数据集的创造者考虑了高度极化的评论,即分数≤4分的负面评论和分数≥7分的正面评论。
在创建数据集时,不考虑中性评论。
数据集被平均分配用于训练和测试。
4. Advising Dataset
创建建议数据集是为了在text2SQL系统中提出改进建议。
数据集的创建者比较了人工生成和自动生成的问题,引用了与现实应用程序相关的查询属性。
数据集由来自大学生的关于课程的问题组成,这些问题会导致特别复杂的查询。数据库中学生的记录是虚构的。
数据集包括学生简介信息,如推荐的课程、成绩和学生以前的课程。
问题是由了解数据的学生提出的。
当SPIDER发布时,现有的最先进的模型给出了12.4%的精确匹配精度。这种低精确度表明SPIDER在研究中提出了一个强大的挑战。
在SPIDER上,当前的最佳精度是66%左右,而且是没有精确匹配值(指WHERE子句中的值)。而有值时大概63%左右。
更多关于SPIDER上不同模型的结果的信息可以在这里找到。
这就是所有的数据集。在第3部分中,我们将探讨在Text2SQL域的这些数据集上构建的一些高效模型。
敬请期待!
这篇关于Text-to-SQL学习笔记(二)数据集的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-12-22项目:远程温湿度检测系统
- 2024-12-21《鸿蒙HarmonyOS应用开发从入门到精通(第2版)》简介
- 2024-12-21后台管理系统开发教程:新手入门全指南
- 2024-12-21后台开发教程:新手入门及实战指南
- 2024-12-21后台综合解决方案教程:新手入门指南
- 2024-12-21接口模块封装教程:新手必备指南
- 2024-12-21请求动作封装教程:新手必看指南
- 2024-12-21RBAC的权限教程:从入门到实践
- 2024-12-21登录鉴权实战:新手入门教程
- 2024-12-21动态权限实战入门指南