yabo登录 - 官网
专注精密制造50载以上
专业点胶阀喷嘴,撞针,精密机械零件加工厂家
联系方式
12649717413
0343-822646915
您当前的位置: 主页 > 新闻动态 > 公司新闻 >

公司新闻

初学者 | 一起来看看词性标注

更新时间  2022-06-14 04:24 阅读
本文摘要:接待关注同名微信民众号:AI小白入门。随着博主的脚步,天天进步一点点哟本文凭据自己的学习历程以及查阅相关资料的明白,对自然语言基础技术之词性标注举行了相对全面的简绍,包罗界说、现在的难点以及常见方法,还推荐了一大波python实战利器,而且包罗工具的用法。

yabo登录官网

接待关注同名微信民众号:AI小白入门。随着博主的脚步,天天进步一点点哟本文凭据自己的学习历程以及查阅相关资料的明白,对自然语言基础技术之词性标注举行了相对全面的简绍,包罗界说、现在的难点以及常见方法,还推荐了一大波python实战利器,而且包罗工具的用法。词性界说维基百科上对词性的界说为:In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.词性指以词的特点作为划分词类的凭据。

词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包罗句法功效和形态变化)为主要依据、兼顾词汇意义对词举行划分的效果。从组合和聚合关系来说,一个词类是指:在一个语言中,众多具有相同句法功效、能在同样的组合位置中泛起的词,聚合在一起形成的领域。词类是最普遍的语法的聚合。词类划分具有条理性。

如汉语中,词可以分成实词和虚词,实词中又包罗体词、谓词等,体词中又可以分着名词和代词等。词性标注就是在给定句子中判断每个词的语法领域,确定其词性并加以标注的历程,这也是自然语言处置惩罚中一项很是重要的基础性事情,所有对于词性标注的研究已经有较长的时间,在研究者恒久的研究总结中,发现汉语词性标注中面临了许多棘手的问题。

中文词性标注的难点汉语是一种缺乏词形态变化的语言,词的种别不能像印欧语那样,直接从词的形态变化上来判别。常用词兼类现象严重。

《现代汉语八百词》收取的常用词中,兼类词所占的比例高达22.5%,而且发现越是常用的词,差别的用法越多。由于兼类使用水平高,兼类现象涉及汉语中大部门词类,因而造成在汉语文本中词类歧义清除的任务量庞大。

研究者主观原因造成的难题。语言学界在词性划分的目的、尺度等问题上还存在分歧。现在还没有一个统的被广泛认可汉语词类划分尺度,词类划分的粒度和标志符号都不统一。词类划分尺度和标志符号集的差异,以及分词规范的含混性,给中文信息处置惩罚带来了极大的难题。

词性标注常见方法关于词性标注的研究比力多,这里先容一波常见的几类方法,包罗基于规则的词性标注方法、基于统计模型的词性标注方法、基于统计方法与规则方法相联合的词性标注方法、基于深度学习的词性标注方法等。基于规则的词性标注方法基于规则的词性标注方法是人们提出较早的一种词性标注方法,其基本思想是按兼类词搭配关系和上下文语境制作词类消歧规则。早期的词类标注规则一般由人工构建。随着标注语料库规模的增大,可使用的资源也变得越来越多,这时候以人工提取规则的方法显然变得不现实,于是乎,人们提出了基于机械学习的规则自动提出方法。

基于统计模型的词性标注方法统计方法将词性标注看作是一个序列标注问题。其基本思想是:给定带有各自标注的词的序列,我们可以确定下一个词最可能的词性。现在已经有隐马尔可夫模型(HMM)、条件随机域(CRF)等统计模型了,这些模型可以使用有标志数据的大型语料库举行训练,而有标志的数据则是指其中每一个词都分配了正确的词性标注的文本。基于统计方法与规则方法相联合的词性标注方法理性主义方法与履历主义相联合的处置惩罚计谋一直是自然语言处置惩罚领域的专家们不停研究和探索的问题,对于词性标注问题固然也不破例。

这类方法的主要特点在于对统计标注效果的筛选,只对那些被认为可疑的标注效果,才接纳规则方法举行歧义消解,而不是对所有情况都既使用统计方法又使用规则方法。基于深度学习的词性标注方法可以看成序列标注的任务来做,现在深度学习解决序列标注任务常用方法包罗LSTM+CRF、BiLSTM+CRF等。值得一提的是,这一类方法近年来文章很是多,想深入相识这一块的朋侪们可以看这里:https://github.com/sebastianruder/NLP-progress/blob/master/english/part-of-speech_tagging.md词性标注工具推荐Jieba“结巴”中文分词:做最好的 Python 中文分词组件,可以举行词性标注。Github地址:https://github.com/fxsjy/jieba# 安装:pip install jieba# 海内源安装更快:pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple# 先导包:jieba.posseg.dt 为默认词性标注分词器# 标注句子分词后每个词的词性,接纳和 ictclas 兼容的标志法。

import jieba.posseg as psegwords = pseg.cut("我爱自然语言处置惩罚技术!")for word, pos in words: print(word, pos)我 r爱 v自然语言 l处置惩罚 v技术 n! xSnowNLPSnowNLP是一个python写的类库,可以利便的处置惩罚中文文本内容。Github地址:https://github.com/isnowfy/snownlp# 安装:pip install snownlp# 海内源安装:pip install snownlp -i https://pypi.tuna.tsinghua.edu.cn/simple# 使用snownlp举行词性标注from snownlp import SnowNLPmodel = SnowNLP(u'我爱自然语言处置惩罚技术!')for word, pos in model.tags: print(word, pos)我 r爱 v自然 n语言 n处置惩罚 vn技术 n! wTHULACTHULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处置惩罚与社会人文盘算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功效。Github地址:https://github.com/thunlp/THULAC# 安装:pip install thulac# 海内源安装:pip install thulac -i https://pypi.tuna.tsinghua.edu.cn/simple# 使用thulac举行词性标注import thulacthulac_model = thulac.thulac()wordseg = thulac_model.cut("我爱自然语言处置惩罚技术!")print(wordseg)Model loaded succeed[['我', 'r'], ['爱', 'v'], ['自然', 'n'], ['语言', 'n'], ['处置惩罚', 'v'], ['技术', 'n'], ['!', 'w']]StanfordCoreNLP斯坦福NLP组的开源,支持python接口。

yabo登录

Github地址:https://github.com/Lynten/stanford-corenlp# 安装:pip install stanfordcorenlp# 海内源安装:pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple# 使用stanfordcorenlp举行词性标注# 同时支持英文和中文的词性标注from stanfordcorenlp import StanfordCoreNLPzh_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27', lang='zh')s_zh = '我爱自然语言处置惩罚技术!'word_pos_zh = zh_model.pos_tag(s_zh)print(word_pos_zh)[('我爱', 'NN'), ('自然', 'AD'), ('语言', 'NN'), ('处置惩罚', 'VV'), ('技术', 'NN'), ('!', 'PU')]eng_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27')s_eng = 'I love natural language processing technology!'word_pos_eng = eng_model.pos_tag(s_eng)print(word_pos_eng)[('I', 'PRP'), ('love', 'VBP'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('technology', 'NN'), ('!', '.')]HanLPHanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目的是普及自然语言处置惩罚在生产情况中的应用。Github地址:https://github.com/hankcs/pyhanlp# 安装:pip install pyhanlp# 海内源安装:pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple# 使用pyhanlp举行词性标注from pyhanlp import *s = '我爱自然语言处置惩罚技术!'word_seg = HanLP.segment(s)for term in word_seg: print(term.word, term.nature)我 rr爱 v自然语言处置惩罚 nz技术 n! wNLTKNLTK是一个高效的Python构建的平台,用来处置惩罚人类自然语言数据。Github地址:https://github.com/nltk/nltk官网:http://www.nltk.org/# 安装:pip install nltk# 海内源安装:pip install nltk -i https://pypi.tuna.tsinghua.edu.cn/simpleimport nltks = 'I love natural language processing technology!'s = nltk.word_tokenize(s)s_pos = nltk.pos_tag(s)print(s_pos)[('I', 'PRP'), ('love', 'VBP'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('technology', 'NN'), ('!', '.')]SpaCy工业级的自然语言处置惩罚工具,遗憾的是不支持中文。Gihub地址:https://github.com/explosion/spaCy官网:https://spacy.io/# 安装:pip install spaCy# 海内源安装:pip install spaCy -i https://pypi.tuna.tsinghua.edu.cn/simple# 下载不了模型,需要python -m spacy download en。

The easiest solution is to re-run the command as admin(意思是用用户治理权限打开CMD下载即可)import spacyeng_model = spacy.load('en')s = 'I love natural language processing technology!'# 词性标注s_token = eng_model(s)for token in s_token: print(token, token.pos_, token.pos)I PRON 94love VERB 99natural ADJ 83language NOUN 91processing NOUN 91technology NOUN 91! PUNCT 96代码已上传:https://github.com/yuquanle/StudyForNLP/blob/master/NLPbasic/POS.ipynb参考:1.统计自然语言处置惩罚2.中文信息处置惩罚陈诉-2016。


本文关键词:初学者,一,起来,看看,词性标注,接待,yabo登录官网,关注

本文来源:yabo登录-www.fmldj.com