张文祺征稿

处置统计数据，用这两个AI辅助工具就够了！

倚靠另一面的大词汇数学模型（LLM），只须要用一句话叙述他们想看的统计数据，其它通通交予它！

处置、预测，即使建模，都能随心所欲搞掂，甚至连收集也不必他们亲自动手。

一句话搞定数据分析，浙大全新大模型数据助手，连搜集都省了“中国巨星”到“查无此人”，47岁的赵薇，到底干了什么落此下场

这款如前所述LLM的AI统计数据副手叫作Data-Copilot，由南京大学项目组研制。

有关学术论文预稿本早已正式发布。

电视广告

他而已个小驾驶员，服侍的看似两个富老公，平凡人一点一点独当一面一落千丈！

附注由征稿者提供更多

金融创新、气象预报、可再生能源等各个领域每晚单厢聚合大批的直链统计数据。现代人西凯努瓦县两个辅助工具来有效地管理工作、处置和展现那些统计数据。

DataCopilot透过布署大词汇数学模型来独立自主地管理工作和处置海量统计数据，满足用户多元化的使用者查阅、排序、预估、建模等市场需求。

只须要输出文本说DataCopilot你想看的统计数据，无需繁琐的操作，无需他们编写代码，DataCopilot独立自主地将原始统计数据转化为最符合使用者意图的建模结果。

为了实现的囊括各种形式的统计数据有关任务的通用框架，研究项目组提出了Data-Copilot。

这一数学模型解决了单纯使用LLM存在的统计数据泄露风险、排序能力差、无法处置复杂任务等问题。

在接收到复杂请求时，Data-Copilot会独立自主设计并调度独立的接口，构建两个工作流程来满足用户使用者的意图。

在没有人类协助

电视广告

家道中落的男子从底层爬起，一步两个脚印，踏上巅峰，过上众美环绕的逍遥人生！

Data-Copilot项目的主要贡献包括：

连接了不同领域的统计数据源和多元化的使用者市场需求，减少了繁琐的劳动和专业知识。实现了独立自主管理工作、处置、预测、预估和建模统计数据，可将原始统计数据转化为最符合使用者意图的信息性结果。具有设计者和调度者的双重身份，包括两个过程：接口辅助工具的设计过程(设计者)和调度过程(调度者)。如前所述我国金融创新市场统计数据构建了Data-Copilot Demo。

独立自主设计并执行工作流

不妨以下面这个例子来看看Data-Copilot的表现：

今年一季度上证50指数的所有成分股的净利润增长率同比是多少

Data-Copilot独立自主设计了这样的工作流:

针对这个复杂的问题，Data-Copilot采用了loop_rank这个接口来实现多次循环查阅。

Data-Copilot执行该工作流后得到了这样的结果：

其中横坐标是每只成分股的股票名字，纵坐标是一季度的净利润同比增长率

除了一般的统计数据处置过程之外，Data-Copilot还能聚合种类丰富的工作流程。

研究项目组以预估和并行两种工作流模式分别对Data-Copilot进行了测试。

预估工作流

对于已知统计数据之外的部分，Data-Copilot也可以进行预估，比如输出下面这个问题：

预估下面四个季度的我国季度GDP

Data-Copilot布署了这样的工作流：

测未来→输出表格

执行之后的结果如下：

并行工作流

我想看看最近三年宁德时代和贵州茅台的市盈率

对应的工作流是：

两支股票的有关工作是同时并行的，最后得到的如下的图表：

主要方法

Data-Copilot是两个通用的大词汇数学模型系统，具有接口设计和接口调度两个主要阶段。

接口设计：研究项目组设计了两个self-request的过程，使LLM能够独立自主地从少量种子请求聚合足够的请求。然后，LLM根据聚合的请求进行迭代式的设计和优化接口。那些接口使用自然词汇叙述，使它们易于扩展和在不同平台之间转移。接口调度：在接收到使用者请求后，LLM根据自设计的接口叙述和in context demonstration来规划和调用接口辅助工具，布署两个满足用户使用者市场需求的工作流，并以多种形式呈现结果给使用者。

Data-Copilot透过自动聚合请求和独立自主设计接口的方式，实现了高度自动化的统计数据处理和建模，满足用户使用者的市场需求并以多种形式向使用者展现结果。

接口设计

如上图所示，首先要实现统计数据管理工作，第一步须要接口辅助工具。

Data-Copilot会他们设计了大批接口作为统计数据管理工作的辅助工具，其中接口是由自然词汇（

首先，LLM透过少量的种子请求并独立自主聚合大批请求(explore data by self-request)，尽可能覆盖各种应用场景。然后，LLM为那些请求设计相应的接口（interface definition:只包括叙述和参数），并在每次迭代中逐步优化接口设计(interface merge)。最后，研究人员利用LLM强大的代码聚合能力为接口库中的每个接口聚合具体的代码(interface implementation)。这个过程将接口的设计与具体的实现分离开来，创建了一套多功能的接口辅助工具，可以满足用户大多数请求。

如下图：Data-Copilot他们设计的接口辅助工具用于统计数据处置

接口调度

ilot透过实时请求中的规划和调用不同的接口，形成了从统计数据到多种形式结果的工作流程。

Data-Copilot首先进行意图预测来准确理解使用者的请求。一旦准确理解了使用者的意图，Data-Copilot将规划两个合理的工作流程来处置使用者的请求。Data-Copilot会聚合两个固定格式的JSON，代表调度的每个步骤，例如step={“arg”:””, “function”:””, “output”:”” ,”description”:””}。

在接口叙述和示例的指导下，Data-Copilot在每个步骤内以顺序或并行的方式精心安排接口的调度。

Data-Copilot透过将LLMs整合到统计数据有关任务的每个阶段中，根据使用者的请求将原始统计数据自动转化为使用者友好的建模结果，显著减少了对繁琐劳动和专业知识的依赖。

GitHub项目页:

https://github.com/zwq2018/Data-Copilot

学术论文地址:

https://arxiv.org/abs/2306.07209

HuggingFace DEMO:

https://huggingface.co/spaces/zwq2018/Data-Copilot

— 完 —

量子位 QbitAI · 头条号签约