12朴素贝叶斯-垃圾邮件分类+

时间：2020-06-09 18:08:54 阅读：59 评论：0 收藏：0 [点我收藏+]

1. 读邮件数据集文件，提取邮件本身与标签。

列表

numpy数组

2.邮件预处理

邮件分句
句子分词
大小写，标点符号，去掉过短的单词
词性还原：复数、时态、比较级
连接成字符串

2.1 nltk库分词

nltk.sent_tokenize(text) #对文本按照句子进行分割

nltk.word_tokenize(sent) #对句子进行分词

2.2 punkt 停用词

from nltk.corpus import stopwords

stops=stopwords.words(‘english‘)

*如果提示需要下载punkt

nltk.download(‘punkt’)

或下载punkt.zip

https://pan.baidu.com/s/1OwLB0O8fBWkdLx8VJ-9uNQ 密码：mema

复制到对应的失败的目录C:\Users\Administrator\AppData\Roaming\nltk_data\tokenizers并解压。

2.3 NLTK 词性标注

nltk.pos_tag(tokens)

2.4 Lemmatisation（词性还原）

from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmatizer.lemmatize(‘leaves‘) #缺省名词

lemmatizer.lemmatize(‘best‘,pos=‘a‘)

lemmatizer.lemmatize(‘made‘,pos=‘v‘)

一般先要分词、词性标注，再按词性做词性还原。

def preprocessing(text): #预处理

sms_data.append(preprocessing(line[1])) # 对每封邮件做预处理

数据收集(获取)-->预处理

2.5 编写预处理函数

源代码如下：

import nltk

from nltk.corpus import stopwords # 分词处理

from nltk.stem import WordNetLemmatizer # 词性处理

import csv

# 邮件预处理

def preprocessing(text):

sep = ‘.,:;?!-_‘

tokens = [];

def gettxt():

text2=text.lower() # 大小写

for ch in sep:

text2=text2.replace(ch,‘‘) #去掉标点符号

return text2

text2 = gettxt() # 获取待统计字符串

tokens = [word for sent in nltk.sent_tokenize(text2)

for word in nltk.word_tokenize(sent)] #分词

# 英文停用词

stops = stopwords.words("english")

# 去掉停用词

tokens = [token for token in tokens if token not in stops]

# NLTK词性标注(

nltk.pos_tag(tokens)

# 词性还原

lemmatizer = WordNetLemmatizer() # 定义还原对象

tokens = [lemmatizer.lemmatize(token, pos=‘n‘) for token in tokens] # 名词(单复数)还原

tokens = [lemmatizer.lemmatize(token, pos=‘v‘) for token in tokens] # 动词(时态)还原

tokens = [lemmatizer.lemmatize(token, pos=‘a‘) for token in tokens] # 形容词(级别)还原

# 大小写转换，并去掉短于3的词

tokens = [token.lower() for token in tokens if len(token) >= 3]

return tokens

sms=open("./data/SMSSpamCollection",‘r‘,encoding=‘utf-8‘) # 数据读取

sms_data=[]

sms_label=[]

csv_reader=csv.reader(sms,delimiter=‘\t‘)

for line in csv_reader: #6.对每封邮件进行预处理

sms_label.append(line[0])

sms_data.append(preprocessing(line[1]))

sms.close()

print("lable内容：",sms_label) #标题

print("data内容：") #处理后的邮件内容

for i in sms_data:

print(i)

12朴素贝叶斯-垃圾邮件分类+

原文：https://www.cnblogs.com/226aa/p/13073948.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)