text to sql 指的是将自然语言转化为能够在关系型数据库中执行的结构化查询语言（简称 sql）。近年来，伴随人工智能大模型技术的不断进步，text to sql 任务的成功率显著提升，这得益于大模型的推理、理解以及指令遵循等能力。

对于大数据平台来说，集成 text to sql 功能意义非凡。首先，这能够大幅优化用户体验；其次，text to sql 功能能够提高数据开发人员的工作效率，他们能够凭借自然语言描述来完成 sql 任务的开发，进而极大地节省学习和编写复杂 sql 语句的时间；最后，text to sql 功能降低了数据库查询的门槛，使得更多非技术人员能够参与到数据库查询工作中，让更多人得以享受大数据带来的便利。

本文将探讨袋鼠云在 text to sql 领域的探索与实践，分享如何实现更高效、更准确的自然语言到 sql 的转换。

基于 llm 实现 text to sql

设计基于大模型（llm）的 text to sql 系统是一项复杂且精细的任务，包括多个步骤和环节，每个步骤都需要我们精心设计和处理。首先，我们需要将数据库中表的元信息进行组织。此步骤涉及到将每一个表的详细信息，如字段名称、类型、关系等，写入到向量数据库中，这样就可以为后续的 sql 生成提供必要的信息，这一步对于后续的 sql 生成至关重要。

接着，我们需要对用户输入的自然语言加以理解。在这一步，我们将会运用先进的 embedding 模型。凭借这种模型，能够将用户输入的语言实施向量化处理，把每一个词或者词组转化为一个具备特定维度的向量。随后，我们会前往向量数据库中展开查找，匹配相关的表元数据信息，如此一来，我们便能知晓用户的查询意图与哪些表存在关联。

最后，我们把上一步匹配所得的表元数据信息与用户的问题加以合并，生成最终的 prompt。此 prompt 包括了全部所需的信息，涵盖角色表述、用户的初始问题、我们匹配到的相关表元数据信息以及一些约束条件。而后，我们把这个 prompt 交付给 llm 模型，让模型依据这些信息生成最终的 sql 查询语句。这一过程需要大模型（llm）强大的计算能力以及精准的理解能力，以保障生成的 sql 语句能够确切地反映用户的查询意图。

file

在数栈中实现 text to sql

● 表 schema 写入向量数据库

file

为了便于将数据库元数据置入向量数据库，在数栈中，我们研发了能够一键导入数据库表元数据信息的功能，并且支持自动刷新，如上图所示。

在此过程里，最为重要的当属如何对表的元数据信息进行组织，这一步极为关键，因为它会直接作用于 sql 生成的准确性。我们所设计的表元数据信息组织格式如下：

table_name(column_name column_type column_comment,[...]), table_comment=""

● 根据用户问题匹配相关表元数据

这一步所面临的关键问题在于如何精准匹配到与用户输入问题相关的所有表元数据信息。为此，我们选用了对中文支持良好的 bge-large-zh-v1.5 embedding 模型，来对用户输入的问题进行向量化处理，以便充分领会用户的意图。

而在检索元数据信息方面，我们采用了混合检索的模式，即将向量化检索与全文搜索相结合。具体来说，首先依据用户问题生成的向量，在向量数据库中匹配出 topk 条信息；接着运用 bm25 算法对表元信息进行一次全文搜索并获取结果；最后将向量检索和全文搜索所获取的结果予以合并，并进行一次相关性排序，从而得到最终的结果。

● 生成 prompt

构建请求大模型的 prompt。这里分享一个小技巧，就是使用 xml 标签来分隔 prompt 中的每一部分内容。这种方法非常有效，因为大语言模型已经接受了大量包含 xml 格式的网页内容的训练，因此能够理解其结构，这样就能很好的帮助大模型完整识别到 prompt 中的每一部分。

如下是我们定义生成 text to sql 的 prompt 模版，xml 标签中包含和用户问题相关的表元数据信息。xml 标签中定义了角色和一些约束信息。

<context>
  表结构信息如下：
  {{表结构信息}}
</context>
<objective>
  你是一个高级sql生成器，能够根据不同的sql方言生成相应的sql语句。你需要将用户输入的自然语言转化为sql，请按照以下步骤操作：
  1. 请一步步思考并仔细分析用户的自然语言输入，确保充分理解用户的意图。
  2. 识别目标数据库类型为{{sql方言}} sql
  3. 考虑该数据库类型的特定语法和函数。
  4. 根据理解的用户意图，设计sql查询的基本结构。
  5. 应用数据库特定的语法规则，对基本结构进行调整。
  6. 优化查询以提高性能（如适用）。
  7. 生成最终的sql语句。
  
  在生成sql时，请特别注意以下几点：
  - 使用{{sql方言}} sql特有的函数和语法结构 - 考虑该数据库类型的查询优化技巧 
  - 确保生成的sql语句在语法和逻辑上的正确性
  如果用户的请求不明确或需要额外信息，请提出澄清性问题。
</objective>

● prompt 构建完成后请求 llm，生成 sql

prompt 构建完成后将 prompt 发给大模型（llm）执行，经过大模型（llm）的推理能力生成 sql。

file

text to sql 的优化手段

上文介绍了 text to sql 的一般流程，在这个流程中还可以加入一些优化手段来进一步提高生成 sql 的准确率，下面分享两个优化技巧。

● prompt engineering - 动态少样本

medprompt 是微软提出的一种极为有效的提示策略，动态少样本则属于 medprompt 提示策略中的一项技巧。使用动态少样本可以进一步挖掘大模型的能力，提升响应的准确率。

在 text to sql 中如何使用动态少样本，首先可以结合自己的业务场景写出一些具有针对性的 sql 生成问答对，然后将生成的这些问答对写入到向量数据库中，构建 prompt 时根据用户输入问题进行一次向量检索然后将结果写入到 prompt 中。

大模型存在不能理解某些领域的专有词汇问题，这个问题也可以通过这种方法解决，对于不能识别的词汇语句可以提前生成 sql 生成问答对，生成 prompt 时进行动态匹配，作为上下文发送给 llm，这样 llm 就能理解了。

● 模型微调

大模型（llm）自身已然拥有 text to sql 的能力，而且通常模型规模越大，text to sql 的能力便越强。不管是大模型还是小模型，均能够通过微调来进一步增强 text to sql 的能力。当下，与 text to sql 相关的开源数据集众多，例如 wikisql、spider 等等。

目前我们所采用的模型为阿里开源的通义千问 qwen1.5-14b-chat ，并运用 spider 数据集进行了微调，模型微调前后在 spider 数据集上的评测数据如下：

file