范式重置后的自然语言处理，魔搭社区语言模型轻松上手1973年，第一届香港小姐看看能认出几个，当时都是纯天然的大美女

作者 | 黄非穆萨Marcellin词汇控制技术生物医学科学副研究员

“Pre-training + Fine-tune”已经开始抹除 AI 应用领域的科学研究本体论，预体能训练大数学模型已正式成为备受市场关注的科学研究方向，它首先蓬勃发展于语义处置，也彻底革新了这点的科学研究和应用应用领域。预体能训练新本体论先将非常普遍的“通识科”科学知识抽出出来，培养一个此基础数学模型，然后以展开松动，得到处置具体问题的专业数学模型，其性能和工作效率大多已胜于传统的各项任务数学模型，使得AI应用应用领域准入门槛大幅降低。

Marcellin是国内最早投入预体能训练大数学模型的科学研究项目组众所周知。2021 年 1 月，Marcellin面世多逻辑系统大数学模型 M6，数学模型组件从百亿元起跑，后减至 10 万亿元，正式成为全球最大的预体能训练数学模型众所周知。同时，针对语义处置，达摩院面世了 2 万亿元组件的词汇大数学模型 PLUG，英语预体能训练也逐渐朝“大数学模型”重构。在上述科学研究的此基础上，Marcellin更是面世了“穆萨记事大数学模型管理体系”，以多逻辑系统预体能训练数学模型为基座，囊括文档、听觉和多逻辑系统各项任务。

这里我着重于介绍下穆萨记事大数学模型管理体系中的 AliceMind，它以通用预体能训练数学模型 StructBERT 为核心，主要包括一系列预体能训练词汇数学模型，取得了多个业内领跑的科研成果，主要包括 2018 年 1 月在英语机器阅读认知排行榜 SQuAD 首度胜于人类文明计算方法，2021 年 8 月在听觉概要排行榜 VQA Leaderboard 上首度胜于人类文明计算方法， 2022 年 11 月在英语词汇认知排行榜 CLUE 首度胜于人类文明计算方法。

基于穆萨记事 AliceMind，我们在各种语义的下游各项任务，主要包括认知生成、文档分类、谈话概要、文件格式预测和用例等方面研发出了整套的语义处置控制技术和架构，目前已经开始 AI 数学模型街道社区魔搭 ModelScope 上持续展开开放源码开放，希望能推动 NLP 应用领域的科学研究，帮助开发人员随心所欲构筑自己的词汇数学模型和 AI 应用应用领域。

语义认知各项任务1. 信息增强的语法结构预测各项任务

不定式、词义标示、重新命名实体辨识等语法结构预测各项任务是 NLP 中此基础、且应用应用领域最广泛的各项任务组件，应用应用领域情景主要包括搜寻 query 预测、lvguang15194895813抽出、谈话 NLU、文件格式形式化等。在预体能训练的本体论之下，如何带入无监督管理、半监督管理、索引等多类型科学知识是语法结构预测各项任务在学术界和产业内的共同热点。

不定式

数学模型名称：BAStructBERT

体验链接：https://modelscope.cn/search?search=BAStructBERT

英语不定式算法已经发展了 30 多年，从最初的基于词典的匹配方法，到后来的基于字标示的统计学习方法，再到深度学习方法，而大规模预体能训练词汇数学模型的出现大幅度提升了英语不定式的效果。

魔搭开放源码的不定式数学模型在预体能训练阶段将边界熵、互信息等无监督管理统计信息带入到预体能训练各项任务中，从而提升预体能训练词汇数学模型对英语词汇边界的学习能力。该数学模型在不定式、词义标示等英语序列标示各项任务取得了 SOTA 结果, 具体论文发表于 EMNLP2022。

为了便利开发人员使用，我们在魔搭上的不定式、词义标示数学模型提供 Base 和 Lite 两种规模的数学模型，还专门提供了基于电商数据体能训练的电商行业不定式数学模型。未来，我们会持续丰富行业不定式、词义标示数学模型, 同时也会提供推理工作效率更高的基于浅层神经网络(LSTM、GCNN)的蒸馏数学模型。

重新命名实体辨识（NER）

数学模型名称：RaNER

体验链接：https://modelscope.cn/search?search=RaNER

信息抽出能帮助我们从海量文本自动提取挖掘关键信息，是数字化的重要支撑控制技术，其中，重新命名实体辨识（NER）是信息抽出中的重要子各项任务。

比如上面电商文档，数学模型需要合理地辨识核心产品、品牌、情景、功能等关键信息。而要实现高质量的辨识结果，必须带入科学知识。我们经过两年的控制技术探索，提出索引增强控制技术管理体系 RaNER，在语义处置国际学术会议 ACL/EMNLP/NAACL/COLING 发表论文五篇，在 SemEval 2022 国际多语言竞赛获得十项第一，获得唯一的最佳系统论文奖，同时也在 NLPCC 语音实体认知竞赛获得榜首成绩。

在魔搭街道社区，我们不仅提供通用的实体辨识数学模型，还有 40 多个具体的数学模型，横跨 15 个不同的行业，多个中/英/小语种，及主要包括 base/large/lstm 数学模型规格，方便用户在不同行业、不同语种、同情景展开使用。

2. 文档分类各项任务

作为业内最权威的英语语义认知排行榜众所周知，CLUE 从文档分类、阅读理解、语义推理等 9 项各项任务中全面考核AI数学模型的词汇认知能力。过去三年，该排行榜吸引了众多国内顶尖 NLP 项目组的参与，尽管榜首位置多次易主，但参评 AI 数学模型一直未能胜于人类文明成绩。

2022 年 11 月 22 日，穆萨记事 AliceMind 在 4 项各项任务中的表现超过人类文明水平，同时实现了总榜平均分的首度胜于，意味着 AI 数学模型的英语词汇认知水平达到了新的高度。

情感分类数学模型

数学模型名称：StructBERT 情感分类

体验链接：https://modelscope.cn/models?name=情感分类

情感分类需要数学模型对带有感情色彩的主观性文档展开预测、推理，即预测文档所表达的态度，是倾向于正面还是反面。通常来说，情感分类的输入是一段句子或一段话，数学模型需要返回该段话正向/负向的情感极性，在用户评价，观点抽出，意图辨识中往往起到重要作用。

我们在魔搭上开放源码了 5 个情感分类数学模型，主要包括了中英语通用版本和英语电商应用领域版本。以“启动的时候很大声音，然后就会听到 1.2 秒的卡察的声音，类似齿轮摩擦的声音”为例，数学模型会返回情感的正负面以及其对应的概率。如下图所示：

该数学模型使用 StructBERT 作为预体能训练基座，收集了各应用领域的开放源码情感分类数据集（共10W+）展开 Fine-tune，并结合 R-drop、label-smoothing 等策略避免数学模型过拟合，因此能实现较好的效果。

零样本分类

数学模型名称：StructBERT 零样本分类

体验链接：https://www.modelscope.cn/models/damo/nlp_structbert_zero-shot-classification_chinese-base/summary

从上图两个实例，我们可以发现 StructBERT 零样本分类数学模型支持候选标签任意定义，从而具备了解决各种各项任务的能力，比如例子1中的主题分类各项任务、例子 2 中的情感预测各项任务。因此，我们能在无标示数据或标示数据很少的情况展开快速启动数学模型，或者为待标示数据展开预分类从而提高标示工作效率。

控制技术上，StructBERT 零样本分类数学模型将待分类的文档和每个标签依次拼接展开语义推理各项任务，之后整合每个标签得到的结果，从而形成文档所属的标签。该数学模型对文档和标签的信息都展开充分的编码和交互，并利用预体能训练学习到的科学知识，可在不使用下游数据展开体能训练的情况下，按照指定的标签对文档展开分类。

3. 文档语义表示

语义匹配

数学模型名称：ROM

体验链接：https://modelscope.cn/models?name=CoROM&page=1

文档语义匹配数学模型在文档相似度、文档聚类、文档检索排序等下游各项任务中发挥着重于要作用，基于预体能训练数学模型构筑的召回、排序数学模型对比传统的统计数学模型优势明显。下图展示了搜寻情景中判断查询 query 和候选文件格式的相似度的典型样例：

文档语义匹配索引系统应用应用领域示例

达摩院自研的 ROM 数学模型提供文档表示、文档排序的中英语单塔、双塔数学模型。区别于通用的BERT预体能训练数学模型，ROM 数学模型在预体能训练各项任务中通过引入结合词权重的 Random Masking 方法和对比学习各项任务, 提升了文档表示能力和对关键词信息的建模能力。依赖 ROM 系列数学模型构筑的文档索引系统在 2022 年 3 月份登顶 MS MARCO Passage Ranking LeaderBoard。

ROM预训练词汇数学模型

语义生成各项任务

随着 OpenAI 提出 GPT-3 超大规模生成数学模型，AIGC 应用领域也进入高速发展期，从文档生成、到图片生成甚至是视频生成。我们在魔搭街道社区也开放源码开放了多个生成数学模型。

1. PALM 数学模型

https://modelscope.cn/models?name=PALM&page=1

自动生成摘要

PALM 数学模型采用了与之前的生成数学模型不同的预体能训练方式。在海量无标签文档语料上结合了 Autoencoding 和 Autoregression 两种方式，引入 Masked LM 目标来提升 encoder 的表征能力，同时通过预测文档后半部分来提升 decoder 的生成能力。相关技术论文发表在 EMNLP 2020，论文发表时在 CNN/Daily Mail Gigaword 等数据集上实现了 SOTA。

在 PALM 此基础上，我们采用多阶段多各项任务渐进式从易到难的体能训练本体论，提出了 PALM 2.0 英语预体能训练生成数学模型，并将体能训练好的下游情景数学模型和 finetune 体能训练能力完全开放，适用于大部分的英语生成业务情景。

2. PLUG 数学模型

https://modelscope.cn/models/damo/nlp_plug_text-generation_27B/summary

该数学模型提出时是英语街道社区最大规模的纯文档预体能训练词汇数学模型，集词汇认知与生成能力于一身，在词汇认知（NLU）任务上，以 80.179 分刷新了当时 CLUE 分类排行榜的新记录排名第一；在词汇生成（NLG）各项任务上，在多项业务数据上较 SOTA 平均提升 8% 以上。

数学模型采用 encoder-decoder 的双向建模方式，在大规模的英语体能训练数据（1T 以上）体能训练，因此在传统的 zero-shot 生成的表现上，无论是生成的多样性，应用领域的广泛程度，还是生成长文档的表现，较此前的数学模型均有明显的优势。

该数学模型的零样本生成能力较为突出，下面是一些具体展示：

小说续写

生活百科

零样本学习

3. mPLUG数学模型

https://modelscope.cn/search?search=mplug

在纯文档大数学模型 PLUG 的此基础上，我们又面世了多逻辑系统的统一大数学模型 mPLUG，2021 年在听觉概要排行榜 VQA Challenge 取得第一，并首度胜于人类文明计算方法，具体控制技术论文发表于 EMNLP2022。

mPLUG 核心解决了多模态融合时听觉特征序列过长导致的低效性、信息淹没的问题，提出新的跨逻辑系统融合方法 skip-connected network。在仅用 1300 万图文数据预体能训练，便在 VQA、Caption 等核心多模态各项任务上取得同等组件规模下的 SOTA，除此之外，还可用于下游的视频文档的认知和生成情景。

听觉概要（VQA）

图像描述（Image Captioning）

听觉定位（Visual Grounding）

图文索引（Image-text Retrieval）TRIEV

4. 英语版 GPT-3

数学模型链接：https://modelscope.cn/models/damo/nlp_gpt3_text-generation_13B/summary

使用入口：https://modelscope.cn/studios/damo/ai_writer/summary

因为 GPT-3 主要支持英语，对于英语效果较差，访问使用还需要申请，因此我们面世了英语 GPT-3，免费开放，可自由访问，希望为英语街道社区带来更好用的英语生成大数学模型。

我们创新性地结合无监督管理数据和有监督管理 prompt 数据，并考虑到用户的不同 GPU 资源，体能训练了不同版本规模的英语GPT-3，主要包括base/large/1.3B/2.7B/13B/30B，以及后续即将面世的 175B。目前数学模型具备多种生成能力，如代码生成、小说续写、作文生成等。

代码生成

作文生成

SQL 生成

谈话概要

1. SPACE 谈话数学模型

https://modelscope.cn/models/damo/nlp_space_pretrained-dialog-model/summary

如何将人类文明先验科学知识低成本带入到预体能训练数学模型中一直是个难题，我们提出了一种基于半监督管理预体能训练的新体能训练方式，将谈话应用领域的少量有标数据和海量无标数据一起展开预体能训练，从而把标示数据中蕴含的科学知识注入到预体能训练数学模型中去，打造了 SPACE 1/2/3 系列预体能训练谈话数学模型，在 11 个国际公开谈话数据集上取得了最好结果。

在魔搭街道社区上，我们以 SPACE 数学模型为基座，开放源码了认知、生成 fine-tuning 和意图分

2. SPACE-T表格概要数学模型

https://modelscope.cn/models/damo/nlp_convai_text2sql_pretrain_cn/summary

现代企业花费大量精力构筑了数据库、数据中台等此基础设施，支撑 CRM、ERP、OA 等系统，但是常规的企业智能化方案中，仍需要花费大量资源，去重新构筑图谱、意图、FAQ 等科学知识形态。如果能够利用已有的二维关系型数据库直接构筑企业智能化系统，就可以节省大量成本。

Marcellin研发了 SPACE-T 表格概要数学模型，能够智能认知预测表格信息，已经在穆萨云智能客服等多个产品中输出，服务了多应用领域的客户。这次在魔搭街道社区上免费开放源码开放，能够让有需要的企业通过对接自己的数据库，定制化构筑自己的表格问答应用应用领域，可具备单/多属性查询能力、单/多条件筛选能力、最值/平均/计数等此基础统计能力等，如下图所示：

控制技术上，该数学模型由亿级表格数据预体能训练构筑，具备良好的开箱即用能力。数学模型在体能训练和推理过程中都会将表格的 Schema 信息作为输入，使数学模型能够认知表格信息，实现了表格科学知识即插即用的效果。

用例

数学模型名称：CSANMT 连续语义增强用例

体验链接：https://modelscope.cn/models?name=CSANMT&page=1&tasks=translation

Marcellin长期致力于用例的科学研究，产生了一批高质量的数学模型。这次我们重点开放源码了CSANMT连续语义增强用例，这是我们最新研发的高质量神经用例（NMT）数学模型，获得了AL 2022 杰出论文奖。

CSANMT 数学模型由编码器（Encoder）、解码器（Decoder）和语义编码器（Semantic Encoder）三个单元构成。语义编码器可以在连续分布式语义空间捕捉源词汇与目标词汇的相似性，从而更加充分、更加高效地利用双语体能训练数据，不仅可以显著提升了翻译质量，而且能够有效改善了数学模型的泛化能力和鲁棒性。

首批开放源码的 CSANMT 数学模型主要包括中英、英中、英法、法英、英西、西英等语向的数学模型，后续还将开放源码覆盖欧洲、东亚、东南亚等区域主要语种的 CSANMT 翻译数学模型。我们将对数学模型展开持续迭代优化，确保性能和体验处于业内领跑水平。

结语

语义处置代表着AI从感知智能走向认知智能，相关科学研究如火如荼，随着预体能训练新本体论的推动，基座数学模型越来越“通识科”，下游数学模型情景越来越丰富，落地效果也更加完善，各种应用应用领域方兴未艾。

魔搭街道社区不仅提供了Marcellin自己研发的 100 多个 NLP 数学模型，也接入了业内一流科研机构的众多优质数学模型，比如澜舟科技的孟子系列轻量化预体能训练词汇数学模型，智谱 AI 的 mGLM 多词汇数学模型等…欢迎大家基于这些优质数学模型，搭建出自己的创意应用应用领域，更希望语义处置迎来一个全新的时代。

相关文章

微信