首页 > 编程语言 > 详细

python对读取的文件内容进行分词

时间:2020-05-08 23:58:33      阅读:117      评论:0      收藏:0      [点我收藏+]

  分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,它是一种自然语言处理技术,这里的分词指中文分词,其本质是提取一个字符串中的词组或者字。

其详细代码非常简单,如下:

#导入jieba分词模块
import jieba
#记录输入的文件路径
filepath = input(‘请输入要读取的文件:‘)
#打开文件
with open(filepath,encoding=‘utf-8‘) as f:
#读取文件内容并分词
words = jieba.lcut(f.read())
#替换换行符
print(words)

结果:

[1, ., , 代码, 行数, , 评估, 程序, , 开发进度, , , 好比, , 重量, , 评估, 一个, 飞机, , 建造, 进度, \n, 2, ., 程序, 不是, 年轻, , 专利, , 但是, , , 属于, 年轻, \n, 3, ., 作为, 一个, 程序员, , 郁闷, , 事情, , , 面对, 一个, 代码, , , , 不敢, , 修改, , , 糟糕, , , , 这个, 代码, , 还是, 自己, , ]

技术分享图片

python对读取的文件内容进行分词

原文:https://www.cnblogs.com/xiao02fang/p/12853685.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!