👇👇👇
文档矢量则表示数学模型
Word2Vec:透过百度AI Lab开放源码的小规模高工作效率英语词矢量统计数据(800万英语词高操控性版) (配置文件:light_Tencent_AILab_ChineseEmbedding.bin 公钥: tawe)同时实现词矢量索引,本工程项目同时实现了语句(词矢量求平均值)的word2vec矢量则表示
SBERT(Sentence-BERT):取舍操控性和工作效率的句矢量则表示数学模型,体能训练时透过有监督管理体能训练下层进行分类表达式,文档相匹配预估时间接语句矢量做正弦,本工程项目如前所述PyTorchCadours了Sentence-BERT数学模型的体能训练和预估
CoSENT(Cosine Sentence):CoSENT数学模型明确提出了一类次序的经济损失表达式,使体能训练操作过程更切合预估,数学模型发散速率和效用比Sentence-BERT更快,本工程项目如前所述PyTorch同时实现了CoSENT数学模型的体能训练和预估
Evaluation
文档相匹配
英语相匹配统计数据集的点评结论:
英语相匹配统计数据集的点评结论:
表明:
结论值均使用spearman系数
结论均只用该统计数据集的train体能训练,在test上评估得到的表现,没用外部统计数据
shibing624/text2vec-base-chinese数学模型,是用CoSENT方法体能训练,如前所述MacBERT在英语STS-B统计数据体能训练得到,并在英语STS-B测试集评估达到SOTA,运行examples/training_sup_text_matching_model.py代码可Cadours结论,数学模型文件已经上传到huggingface的数学模型库shibing624/text2vec-base-chinese,英语语义相匹配任务推荐使用
SBERT-macbert-base数学模型,是用SBERT方法体能训练,运行examples/training_sup_text_matching_model.py代码Cadours结论
paraphrase-multilingual-MiniLM-L12-v2数学模型名称是sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2,是用SBERT体能训练,是paraphrase-MiniLM-L12-v2数学模型的多语言版本,支持英语、英语等
w2v-light-tencent-chinese是百度词矢量的Word2Vec数学模型,CPU加载使用,适用于英语字面相匹配任务和缺少统计数据的冷启动情况
各预体能训练数学模型均可以透过transformers调用,如MacBERT数学模型:–model_name hfl/chinese-macbert-base 或者roberta数学模型:–model_name uer/roberta-medium-wwm-chinese-cluecorpussmall
英语相匹配统计数据集下载链接见下方
英语相匹配任务实验表明,pooling最优是first_last_avg,即 SentenceModel 的EncoderType.FIRST_LAST_AVG,其与EncoderType.MEAN的方法在预估效用上差异很小
QPS的GPU测试环境是Tesla V100,显存32GB
代码地址:
矢量
Demo
Word2Vec词矢量提供两种Word2Vec词矢量,任选一个:
高操控性版百度词矢量 百度云盘-公钥:tawe 或 谷歌云盘,二进制文件,111M,是简化后的高频143613个词,每个词矢量还是200维(跟原版一样),运行程序,自动下载到 ~/.text2vec/datasets/light_Tencent_AILab_ChineseEmbedding.bin
百度词矢量-官方全量, 6.78G放到: ~/.text2vec/datasets/Tencent_AILab_ChineseEmbedding.txt,百度词矢量主页:https://ai.tencent.com/ailab/nlp/zh/index.html 词矢量下载地址:https://ai.tencent.com/ailab/nlp/en/download.html 更多查看百度词矢量介绍-wiki
下游任务支持库
similarities库[推荐]
文档相似度计算和文档相匹配搜索任务,推荐使用 similarities库 ,兼容本工程项目release的 Word2vec、SBERT、Cosent类语义相匹配数学模型,还支持字面维度相似度计算、相匹配搜索算法,支持文档、图像。
安装: pip install -U similarities
语句相似度计算:
数学模型蒸馏(Model Distillation)
由于text2vec体能训练的数学模型可以使用sentence-transformers库加载,此处复用其数学模型蒸馏方法distillation。
数学模型降维,参考dimensionality_reduction.py使用PCA对数学模型输出embedding降维,可减少milvus等矢量索引统计数据库的存储压力,还能轻微提升数学模型效用。
数学模型蒸馏,参考model_distillation.py使用蒸馏方法,将Teacher大数学模型蒸馏到更少layers层数的student数学模型中,在取舍效用的情况下,可大幅提升数学模型预估速率。
数学模型部署
提供两种部署数学模型,搭建服务的方法:1)如前所述Jina搭建gRPC服务【推荐】;2)如前所述FastAPI搭建原生Http服务。
Jina服务
采用C/S模式搭建高操控性服务,支持docker云原生,gRPC/HTTP/WebSocket,支持多个数学模型同时预估,GPU多卡处理。
安装: pip install jina
启动服务:
example: examples/jina_server_demo.py
机器学习算法AI大统计数据技术
datanlp
阅读过本文的人还看了以下文章:
如前所述40万表格统计数据集TableBank,用MaskRCNN做表格检测
《如前所述深度学习的自然语言处理》中/英PDF
《深度学习入门:如前所述Python的理论与同时实现》高清英语PDF+源码
《深度学习:如前所述Keras的Python实践》PDF和代码
2019最新《PyTorch自然语言处理》英、英语版PDF+源码
《21个工程项目玩转深度学习:如前所述TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:如前所述Scikit-Learn和TensorFlow》
汽车行业完整知识图谱工程项目实战视频(全23课)
李沐大神开放源码《动手学深度学习》,加州伯克利深度学习(2019春)教材
将机器学习数学模型部署为REST API
同样是机器学习算法工程师,你的面试为什么过不了?
【Keras】完整同时实现‘交通标志’进行分类、‘票据’进行分类两个工程项目,让你掌握深度学习图像进行分类
VGG16迁移学习,同时实现医学图像识别进行分类工程工程项目
特征工程(二) :文档统计数据的展开、过滤和分块
特征工程(七):图像特征提取和深度学习
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 英语翻译稿
全球AI挑战-场景进行分类的比赛源码(多数学模型融合)
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文档相匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、统计数据分析、python
datayx