文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

2023-05-26 0 399

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

👇👇👇

文档矢量则表示数学模型

Word2Vec:透过百度AI Lab开放源码的小规模高工作效率英语词矢量统计数据(800万英语词高操控性版) (配置文件:light_Tencent_AILab_ChineseEmbedding.bin 公钥: tawe)同时实现词矢量索引,本工程项目同时实现了语句(词矢量求平均值)的word2vec矢量则表示

SBERT(Sentence-BERT):取舍操控性和工作效率的句矢量则表示数学模型,体能训练时透过有监督管理体能训练下层进行分类表达式,文档相匹配预估时间接语句矢量做正弦,本工程项目如前所述PyTorchCadours了Sentence-BERT数学模型的体能训练和预估

CoSENT(Cosine Sentence):CoSENT数学模型明确提出了一类次序的经济损失表达式,使体能训练操作过程更切合预估,数学模型发散速率和效用比Sentence-BERT更快,本工程项目如前所述PyTorch同时实现了CoSENT数学模型的体能训练和预估

Evaluation

文档相匹配

英语相匹配统计数据集的点评结论:

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

英语相匹配统计数据集的点评结论:

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

表明:

结论值均使用spearman系数

结论均只用该统计数据集的train体能训练,在test上评估得到的表现,没用外部统计数据

shibing624/text2vec-base-chinese数学模型,是用CoSENT方法体能训练,如前所述MacBERT在英语STS-B统计数据体能训练得到,并在英语STS-B测试集评估达到SOTA,运行examples/training_sup_text_matching_model.py代码可Cadours结论,数学模型文件已经上传到huggingface的数学模型库shibing624/text2vec-base-chinese,英语语义相匹配任务推荐使用

SBERT-macbert-base数学模型,是用SBERT方法体能训练,运行examples/training_sup_text_matching_model.py代码Cadours结论

paraphrase-multilingual-MiniLM-L12-v2数学模型名称是sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2,是用SBERT体能训练,是paraphrase-MiniLM-L12-v2数学模型的多语言版本,支持英语、英语等

w2v-light-tencent-chinese是百度词矢量的Word2Vec数学模型,CPU加载使用,适用于英语字面相匹配任务和缺少统计数据的冷启动情况

各预体能训练数学模型均可以透过transformers调用,如MacBERT数学模型:–model_name hfl/chinese-macbert-base 或者roberta数学模型:–model_name uer/roberta-medium-wwm-chinese-cluecorpussmall

英语相匹配统计数据集下载链接见下方

英语相匹配任务实验表明,pooling最优是first_last_avg,即 SentenceModel 的EncoderType.FIRST_LAST_AVG,其与EncoderType.MEAN的方法在预估效用上差异很小

QPS的GPU测试环境是Tesla V100,显存32GB

代码地址:

矢量

Demo

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

Word2Vec词矢量

提供两种Word2Vec词矢量,任选一个:

高操控性版百度词矢量 百度云盘-公钥:tawe 或 谷歌云盘,二进制文件,111M,是简化后的高频143613个词,每个词矢量还是200维(跟原版一样),运行程序,自动下载到 ~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin

百度词矢量-官方全量, 6.78G放到: ~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt,百度词矢量主页:https://ai.tencent.com/ailab/nlp/zh/index.html 词矢量下载地址:https://ai.tencent.com/ailab/nlp/en/download.html 更多查看百度词矢量介绍-wiki

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

下游任务支持库

similarities库[推荐]

文档相似度计算和文档相匹配搜索任务,推荐使用 similarities库 ,兼容本工程项目release的 Word2vec、SBERT、Cosent类语义相匹配数学模型,还支持字面维度相似度计算、相匹配搜索算法,支持文档、图像。

安装: pip install -U similarities

语句相似度计算:

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

数学模型蒸馏(Model Distillation)

由于text2vec体能训练的数学模型可以使用sentence-transformers库加载,此处复用其数学模型蒸馏方法distillation。

数学模型降维,参考dimensionality_reduction.py使用PCA对数学模型输出embedding降维,可减少milvus等矢量索引统计数据库的存储压力,还能轻微提升数学模型效用。

数学模型蒸馏,参考model_distillation.py使用蒸馏方法,将Teacher大数学模型蒸馏到更少layers层数的student数学模型中,在取舍效用的情况下,可大幅提升数学模型预估速率。

数学模型部署

提供两种部署数学模型,搭建服务的方法:1)如前所述Jina搭建gRPC服务【推荐】;2)如前所述FastAPI搭建原生Http服务。

Jina服务

采用C/S模式搭建高操控性服务,支持docker云原生,gRPC/HTTP/WebSocket,支持多个数学模型同时预估,GPU多卡处理。

安装: pip install jina

启动服务:

example: examples/jina_server_demo.py

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

机器学习算法AI大统计数据技术

datanlp

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

阅读过本文的人还看了以下文章:

TensorFlow 2.0深度学习案例实战

如前所述40万表格统计数据集TableBank,用MaskRCNN做表格检测

《如前所述深度学习的自然语言处理》中/英PDF

Deep Learning 英语版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:如前所述Python的理论与同时实现》高清英语PDF+源码

《深度学习:如前所述Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战工程项目

2019最新《PyTorch自然语言处理》英、英语版PDF+源码

《21个工程项目玩转深度学习:如前所述TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:如前所述Scikit-Learn和TensorFlow》

《Python统计数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱工程项目实战视频(全23课)

李沐大神开放源码《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习数学模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开放源码!CNN-RNN-CTC 同时实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大统计数据算法:风险概率预估

【Keras】完整同时实现‘交通标志’进行分类、‘票据’进行分类两个工程项目,让你掌握深度学习图像进行分类

VGG16迁移学习,同时实现医学图像识别进行分类工程工程项目

特征工程(一)

特征工程(二) :文档统计数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和数学模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 英语翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)透过

全球AI挑战-场景进行分类的比赛源码(多数学模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写英语网站

中科院Kaggle全球文档相匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、统计数据分析、python

datayx  

文本向量表征工具,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT,开箱即用

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务