一些好用的代码

时间：2019-09-18 20:47:19 阅读：93 评论：0 收藏：0 [点我收藏+]

##### 正则化 ####

def re_fun(seq):
        rule = re.compile(u‘[^a-zA-Z.,;《》？！“”‘’@#￥%…&×（）——+【】{};；●，。&～、|\s:：‘ + ‘\u4e00-\u9fa5]+‘)
        seq = re.sub(rule, ‘‘, seq)
        seq = re.sub(‘[<]+‘, ‘‘, seq)
        seq = re.sub(‘[>]+‘, ‘‘, seq)
        seq = re.sub(‘[:]+‘, ‘‘, seq)
        seq = re.sub(‘[;]+‘, ‘‘, seq)
        seq = re.sub(‘[!]+‘, ‘‘, seq)
        seq = re.sub(‘[.]+‘, ‘‘, seq)
        seq = re.sub(‘[。]+‘, ‘‘, seq)
        seq = re.sub(‘[,]+‘, ‘‘, seq)
        seq = re.sub(‘[\n]+‘, ‘‘, seq)
        return seq

#############################################################################################################################################

##### 生成词表 #####
def vocab_fun(filename):
    vocab = ct.Counter()
    with codecs.getreader(‘utf-8‘)(tf.gfile.GFile(filename,‘rb‘)) as file:
        for line in file.readlines():
            line = re_fun(line)
            line = line.strip().split(‘ ‘)
            #print(line)
            for word in line:
                #print(word)
                vocab.update([word])
    return vocab

##########################################################################################################################################

##### 写入文件路径 #####
dir_path = "D:\mathine_learning\pre_esti\dataset"

tgt = ‘europarl-v7.de-en.de‘
src = ‘europarl-v7.de-en.en‘

train_src = os.path.join(dir_path,os.path.basename(src))
train_tgt = os.path.join(dir_path,os.path.basename(tgt))

#########################################################################################################################################

##### 测bleu值 #####
from nltk.translate.bleu_score import corpus_bleu

src_seq = open(src_file,‘r‘,encoding=‘utf-8‘)
tgt_seq = open(tgt_file,‘r‘,encoding=‘utf-8‘)

temp1 = []
temp2 = []
for line1,line2 in zip(src_seq,tgt_seq):
    line1 = line1.strip(‘\n‘).split(‘ ‘)
    line2 = line2.strip(‘\n‘).split(‘ ‘)
    temp1.append(line1)
    temp2.append(line2)

    a = corpus_bleu(temp1,temp2)
    print( a )
src_seq.close()
tgt_seq.close()

一些好用的代码

原文：https://www.cnblogs.com/hanouba/p/11544867.html

踩

(1)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)