千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:杭州千锋IT培训  >  技术干货  >  python如何提取文本信息?

python如何提取文本信息?

来源:千锋教育
发布人:xqq
时间: 2023-11-06 08:05:21

python如何提取文本信息?

1、信息提取

先用句子分段器将文档的原始文本分成句子,再用记号赋值器将每个句子进一步分成单词。其次,给每一个句子做词性标记。以nltk中的默认工具为例,将句子分段器、分词器、词性标记器连接。

defie_preprocess(document):

#nltk默认的句子分段器

sentences=nltk.sent_tokenize(document)

#nltk默认分词器

sentences=[nltk.word_tokenize(sent)forsentinsentences]

#nltk默认词性标记

sentences=[nltk.pos_tag(sent)forsentinsentences]

2、词块划分

词块划分是实体识别的基础技术,对多个词的顺序进行划分和标记。

如NounPhraseChunking(名词短语词块划分)

使用正则表达式来定义一个语法,来进行名词短语词块的划分

3、开发和评估词块划分器

分区器可以用evaluate()方法评价分区器的性能好坏。

以下是使用一元标记来建立单词块分割器的学习。但是,不是确定每个单词的正确单词性标记,而是根据每个单词的单词性标记,确定正确的单词块标记。

#使用一元标注器建立一个词块划分器。根据每个词的词性标记,尝试确定正确的词块标记。

classUnigramChunker(nltk.ChunkParserI):

#constructor

def__init__(self,train_sents):

#将训练数据转换成适合训练标注器的形式。tree2conlltags()方法将每个词块树映射到一个三元组(word,tag,chunk)的列表

train_data=[[(t,c)forw,t,cinnltk.chunk.tree2conlltags(sent)]

forsentintrain_sents]

#训练一元分块器

#self.tagger=nltk.UnigramTagger(train_data)

#训练二元分块器

self.tagger=nltk.BigramTagger(train_data)

#sentence为一个已标注的句子

defparse(self,sentence):

#提取词性标记

pos_tags=[posfor(word,pos)insentence]

#使用标注器为词性标记标注IOB词块

tagged_pos_tags=self.tagger.tag(pos_tags)

#提取词块标记

chunktags=[chunktagfor(pos,chunktag)intagged_pos_tags]

#将词块标记与原句组合

conlltags=[(word,pos,chunktag)for((word,pos),chunktag)

inzip(sentence,chunktags)]

#转换成词块树

returnnltk.chunk.conlltags2tree(conlltags)

以上就是python提取文本信息的方法,希望能对大家有所帮助,更多Python学习教程请关注IT培训机构:千锋教育。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

pythonSymPy求极值

2023-11-14

python归并排序和快速排序比较

2023-11-14

pythonif-elif-else语句的使用注意

2023-11-14

最新文章NEW

python怎么传参数

2023-11-14

python如何查看对象属性

2023-11-14

python如何确定是否为可迭代对象

2023-11-14

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>