python如何提取文本信息?
python如何提取文本信息?
1、信息提取
先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。
defie_preprocess(document):
#nltk默认的句子分段器
sentences=nltk.sent_tokenize(document)
#nltk默认分词器
sentences=[nltk.word_tokenize(sent)forsentinsentences]
#nltk默认词性标记
sentences=[nltk.pos_tag(sent)forsentinsentences]
2、词块划分
词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。
如NounPhraseChunking(名词短语词块划分)
使用正则表达式来定义一个语法,来进行名词短语词块的划分
3、开发和评估词块划分器
分区器可以用evaluate()方法评价分区器的性能好坏。
以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。
#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。
classUnigramChunker(nltk.ChunkParserI):
#constructor
def__init__(self,train_sents):
#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表
train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]
forsentintrain_sents]
#训练一元分块器
#self.tagger=nltk.UnigramTagger(train_data)
#训练二元分块器
self.tagger=nltk.BigramTagger(train_data)
#sentence为一个已标注的句子
defparse(self,sentence):
#提取词性标记
pos_tags=[posfor(word,pos)insentence]
#使用标注器为词性标记标注IOB词块
tagged_pos_tags=self.tagger.tag(pos_tags)
#提取词块标记
chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]
#将词块标记与原句组合
conlltags=[(word,pos,chunktag)for((word,pos),chunktag)
inzip(sentence,chunktags)]
#转换成词块树
returnnltk.chunk.conlltags2tree(conlltags)
以上就是python提取文本信息的方法,希望能对大家有所帮助,更多Python学习教程请关注IT培训机构:千锋教育。
猜你喜欢LIKE
相关推荐HOT
更多>>python函数中使用for循环
python函数中使用for循环1、在for循环中使用函数需要更长的执行时间,因为每次迭代都会调用该函数。2、如果for循环是在函数内部实现的,那么该...详情>>
2023-11-14 13:53:34python3.1版本的特性有哪些
python3.1中的特性有哪些1、千位数格式化,可以在使用字符串格式化函数时直接完成。在格式化大数时,通常是每三位数放置逗号,使数字更易读(例...详情>>
2023-11-14 13:18:27python__new__()和__init__()有什么区别?
在python中,__new__()不是一定要有,只有继承自object的类才有,该方法可以return父类(通过super(当前类名,cls).__new__())出来的实例,或者直...详情>>
2023-11-14 12:38:55pythonwheel是什么
python的第一个主流打包格式是.egg文件,现在大家庭中又有了一个叫做Wheel(*.whl)的新成员。wheel“被设计成包含PEP376兼容安装(一种非常接近于...详情>>
2023-11-14 11:30:39热门推荐
pythonSymPy求极值
沸python归并排序和快速排序比较
热pythonpartition如何分割字符串
热pythonif-elif-else语句的使用注意
新python函数中使用for循环
python3.1版本的特性有哪些
python__new__()和__init__()有什么区别?
python作为小白该如何抉择python编辑器?
pythonwheel是什么
python如何定义一个函数
pythonpython是什么类型的语言
python怎么传参数
pythonshell是什么
python如何查看对象属性