模型材料

干货分享自然语言处理及词向量模型介绍附

发布时间:2022/12/3 15:23:34   
白癜丸价格在哪个价位区间 https://m-mip.39.net/baidianfeng/mipso_4322971.html

云脑科技机器学习训练营第二期,对自然语言处理及词向量模型进行了详细介绍,量子位作为合作媒体为大家带来本期干货分享~

本期讲师简介

樊向军

云脑科技核心算法工程师,清华大学学士,日本东京大学与美国华盛顿州立大学双硕士

第33届亚洲、国际物理奥赛双料金牌得主,在美国硅谷高通等公司有着多年超高性能计算仿真软件设计开发经验,获得高通QualstarDiamond杰出贡献奖,目前作为云脑科技算法团队的主要成员进行金融、通信、能源大数据领域的核心人工智能算法研发与系统设计工作。

分享内容实录

自然语言处理NaturalLanguageProcessing是一个非常大的topic,在本节课程中,我们仅做非常概要性的介绍。下面这张图可以给你一个感觉,NLP技术能够做些什么。

NLP应用在自然语言处理中主要分为以下几类:第一是ClassifyingWords,即需要去研究一下词是什么意思。第二是ClassifyingDocuments,即整个文章有一些什么操作,怎么去分类。第三个比较难也比较热门的是UnderstandDocuments,即理解文章是在讲什么。这些是NLP比较热门的几个方面。前半段我们讲介绍比较传统的NLP方法,后面会讲NLP和DeepLearning的结合。

ClassifyingWords

也就是把每个词分类,词分为哪几类或者是能不能把它group起来?比如说维基百科上很多信息放在一起,或者你拿到一本字典、百科全书,再或者许多文章放在一起,怎么去分类这些字?NLP产生了许多分支去研究各种各样的里面的问题,比如:Stemming,找到一个词的词根,根据词根把相同的词尽量的放在一起。

另外一个是SplittingWords分词,根据里面的字母把词分成许多块,做字母级别的k-grams或者n-grams,再做分类。这两种方法比较偏重拉丁文、英文语系的文章,对词根或者字母进行分解,但是对中文不是很合适。

ClassifyingDocuments

分类文本本身,词我们可以找词根或者分词,文本分类又提高了一个难度。它有一些应用,比如说我们想知道读一篇文章需要多久,最简单的办法是规定某一个人每分钟读多少词,统计一下这篇文章有多少词,做一下除法,就得到了时间。

这可能是最直截了当的方法,但是精度可能很差,因为每个人读的速度不一样,文章本身的难度也不一样等各种各样的原因。如果应用没有特别的要求,就可以这样简单的用一下,但如果某些应用或研究中希望得到一个高的精度,比如你的研究是有阅读障碍的人遇到各种各样的文本会怎么样,则希望会得到一个精度比较高的阅读时间的估计结果。NLP本身有许多研究,也产生了许多好的方法,在这里就不细讲了,有兴趣可以

转载请注明:http://www.aideyishus.com/lktp/2511.html

------分隔线----------------------------