许可风险提示统计数据派THU
ID:DatapiTHU
译者:Melanie Tosik
译者:闵黎
校订:丁楠雅
Melanie Tosik现阶段供职于旅游观光搜寻子公司WayBlazer,她的组织工作文本是透过语义允诺来制造个人化旅游观光所推荐走线。简述她的自学心路历程,她为期许进阶语义处置的新手列举了这份自学天然资源目录。
displaCy中文网站上的建模倚赖导出树
https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!&model=en&cpu=1&cph=0
提过我曾写到过这种这段话,假如你真的有必要性提问三次反之亦然的难题,那就把国际标准答案寄送网志上,这可能将是两个好主意。依照而此准则,也为的是节约提问难题的天数,我在这儿得出该难题的国际标准TNUMBERAP:“我的大背景是科学研究**自然科学,我对自学NLP很有兴趣。假如从哪讲起呢?”
在您一头扎进去阅读本文之前,请注意,下面列表只是提供了非常通用的进阶目录(有可能将不完整)。 为的是帮助读者更好地阅读,我在括号内添加了简短的描述并对难度做了估计。最好具备基本的编程技能(例如Python)。
在线课程
• Dan Jurafsky 和 Chris Manning:语义处置[非常棒的视频介绍系列]
https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269
• 斯坦福CS224d:语义处置的深度自学[更高级的机器自学算法、深度自学和NLP的神经网络架构]
http://cs224d.stanford.edu/syllabus.html
• Coursera:语义处置简介[由密西根大学提供的NLP课程]
https://www.coursera.org/learn/natural-language-processing
图书馆和开放天然资源
• spaCy(中文网站,网志)[Python; 新兴的开放源码库并自带炫酷的用法示例、API文档和演示应用程序]
中文网站网址:https://spacy.io/
网志网址:https://explosion.ai/blog/
演示应用网址: https://spacy.io/docs/usage/showcase
• 语义工具包(NLTK)(中文网站,图书)[Python; NLP实用编程介绍,主要用于教学目的]
中文网站网址:http://www.nltk.org
图书网址: http://www.nltk.org/book/
• 斯坦福CoreNLP(中文网站)[由Java开发的高质量的语义分析工具包]
中文网站网址: https://stanfordnlp.github.io/CoreNLP/
活跃的网志
• 语义处置网志(HalDaumé)
网志网址:https://nlpers.blogspot.com/
• Google科学研究网志
网志网址:https://research.googleblog.com/
• 语言日志网志(Mark Liberman)
网志网址:http://languagelog.ldc.upenn.edu/nll/
书籍
• 言语和语言处置(Daniel Jurafsky和James H. Martin)[经典的NLP教科书,涵盖了所有NLP的基础知识,第3版即将出版]
https://web.stanford.edu/~jurafsky/slp3/
• 统计语义处置的基础(Chris Manning和HinrichSchütze)[更高级的统计NLP方法]
https://nlp.stanford.edu/fsnlp/
• 信息检索简介(Chris Manning,Prabhakar Raghavan和HinrichSchütze)[关于排名/搜寻的优秀参考书]
https://nlp.stanford.edu/IR-book/
• 语义处置中的神经网络方法(Yoav Goldberg)[深入介绍NLP的NN方法,和相对应的入门书籍]
https://www.amazon.com/Network-Methods-Natural-Language-Processing/dp/1627052984
进阶书籍: http://u.cs.biu.ac.il/~yogo/nnlp.pdf
其它杂项
• 如何在TensorFlow中构建word2vec模型[自学手册]
https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html
• NLP深度自学的天然资源[按主题分类的关于深度自学的顶尖天然资源的概述]
https://github.com/andrewt3000/dl4nlp
• 最后一句话:计算语言学和深度自学——论语义处置的重要性。(Chris Manning)[文章]
http://mitp.nautil.us/article/170/last-words-computational-linguistics-and-deep-learning
• 对分布式表征的语义的理解(Kyunghyun Cho)[关于NLU的ML / NN方法的独立讲义]
https://github.com/nyu-dl/NLP_DL_Lecture_Note/blob/master/lecture_note.pdf
• 带泪水的贝叶斯推论(Kevin Knight)[教程组织工作簿]
http://www.isi.edu/natural-language/people/bayes-with-tears.pdf
• 国际计算语言学协会(ACL)[期刊选集]
http://aclanthology.info/
• 果壳问答中文网站(Quora):我是如何自学语义处置的?
https://www.quora.com/How-do-I-learn-Natural-Language-Processing
DIY项目和统计数据集
• Nicolas Iderhoff已经创建了这份公开的、详尽的NLP统计数据集的列表。除了这些,这儿还有一些项目,可以所推荐给那些想要亲自动手实践的NLP新手们:
统计数据集:https://github.com/niderhoff/nlp-datasets
• 基于隐马尔可夫模型(HMM)实现词性标注(POS tagging).
https://en.wikipedia.org/wiki/Part-of-speech_tagging
https://en.wikipedia.org/wiki/Hidden_Markov_model
• 使用CYK算法执行上下文无关的语法导出
https://en.wikipedia.org/wiki/CYK_algorithm
https://en.wikipedia.org/wiki/Context-free_grammar
• 在文本集合中,计算给定两个单词之间的语义相似度,例如点互信息(PMI,Pointwise Mutual Information)
https://en.wikipedia.org/wiki/Semantic_similarity
https://en.wikipedia.org/wiki/Pointwise_mutual_information
• 使用朴素贝叶斯分类器来过滤垃圾邮件
https://en.wikipedia.org/wiki/Naive_Bayes_classifier
https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering
• 依照单词之间的编辑距离执行拼写检查
https://en.wikipedia.org/wiki/Spell_checker
https://en.wikipedia.org/wiki/Edit_distance
• 实现两个马尔科夫链文本生成器
https://en.wikipedia.org/wiki/Markov_chain
• 使用LDA实现主题模型
https://en.wikipedia.org/wiki/Topic_model
https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
• 使用word2vec从大型文本语料库,例如维基百科,生成单词嵌入。
https://code.google.com/archive/p/word2vec/
https://en.wikipedia.org/wiki/Wikipedia:Database_download
NLP在社交媒体上
• Twitter:#nlproc,NLPers上的文章列表(由Jason Baldrige提供)
https://twitter.com/hashtag/nlproc
https://twitter.com/jasonbaldridge/lists/nlpers
• Reddit 社交新闻站点:/r/LanguageTechnology
https://www.reddit.com/r/LanguageTechnology
• Medium发布平台:Nlp
https://medium.com/tag/nlp
原文链接:
https://medium.com/towards-data-science/how-to-get-started-in-nlp-6a62aa4eaeff
点击,了解课程详情!
往期精彩文章点击图片阅读
Science最新科学研究:AI透过追踪光标移动,线上勘破骗局