文本向量表征工具，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT，开箱即用

👇👇👇

文档矢量则表示数学模型

Word2Vec：透过百度AI Lab开放源码的小规模高工作效率英语词矢量统计数据（800万英语词高操控性版） (配置文件：light_Tencent_AILab_ChineseEmbedding.bin 公钥: tawe）同时实现词矢量索引，本工程项目同时实现了语句（词矢量求平均值）的word2vec矢量则表示

SBERT(Sentence-BERT)：取舍操控性和工作效率的句矢量则表示数学模型，体能训练时透过有监督管理体能训练下层进行分类表达式，文档相匹配预估时间接语句矢量做正弦，本工程项目如前所述PyTorchCadours了Sentence-BERT数学模型的体能训练和预估

CoSENT(Cosine Sentence)：CoSENT数学模型明确提出了一类次序的经济损失表达式，使体能训练操作过程更切合预估，数学模型发散速率和效用比Sentence-BERT更快，本工程项目如前所述PyTorch同时实现了CoSENT数学模型的体能训练和预估

Evaluation

文档相匹配

英语相匹配统计数据集的点评结论：

文本向量表征工具，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT，开箱即用

英语相匹配统计数据集的点评结论：

文本向量表征工具，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT，开箱即用

表明：

结论值均使用spearman系数

结论均只用该统计数据集的train体能训练，在test上评估得到的表现，没用外部统计数据

shibing624/text2vec-base-chinese数学模型，是用CoSENT方法体能训练，如前所述MacBERT在英语STS-B统计数据体能训练得到，并在英语STS-B测试集评估达到SOTA，运行examples/training_sup_text_matching_model.py代码可Cadours结论，数学模型文件已经上传到huggingface的数学模型库shibing624/text2vec-base-chinese，英语语义相匹配任务推荐使用

SBERT-macbert-base数学模型，是用SBERT方法体能训练，运行examples/training_sup_text_matching_model.py代码Cadours结论

paraphrase-multilingual-MiniLM-L12-v2数学模型名称是sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2，是用SBERT体能训练，是paraphrase-MiniLM-L12-v2数学模型的多语言版本，支持英语、英语等

w2v-light-tencent-chinese是百度词矢量的Word2Vec数学模型，CPU加载使用，适用于英语字面相匹配任务和缺少统计数据的冷启动情况

各预体能训练数学模型均可以透过transformers调用，如MacBERT数学模型：–model_name hfl/chinese-macbert-base 或者roberta数学模型：–model_name uer/roberta-medium-wwm-chinese-cluecorpussmall

英语相匹配统计数据集下载链接见下方

英语相匹配任务实验表明，pooling最优是first_last_avg，即 SentenceModel 的EncoderType.FIRST_LAST_AVG，其与EncoderType.MEAN的方法在预估效用上差异很小

QPS的GPU测试环境是Tesla V100，显存32GB

代码地址:

矢量

Demo

文本向量表征工具，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT，开箱即用

Word2Vec词矢量

提供两种Word2Vec词矢量，任选一个：

高操控性版百度词矢量百度云盘-公钥:tawe 或谷歌云盘，二进制文件，111M，是简化后的高频143613个词，每个词矢量还是200维（跟原版一样），运行程序，自动下载到 ~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin

百度词矢量-官方全量, 6.78G放到： ~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt，百度词矢量主页：https://ai.tencent.com/ailab/nlp/zh/index.html 词矢量下载地址：https://ai.tencent.com/ailab/nlp/en/download.html 更多查看百度词矢量介绍-wiki

文本向量表征工具，实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT，开箱即用