出现了一个情况,我们错误的把训练用的很多txt文件提交到了git上,而且,这个东西并不上线使用,却没有建立自己的分支,即便后来从master删除了,可是理论上github上的东西是永不删除的
所以,以后,不用的东西,或者要忽略的东西,原则是,训练的东西,坚决不放在github上,很多很杂的东西,要统一成一个文件,不然即便每个文件很小,也需要pull很久
忽略文件的原则是:
.class
文件;
1、数组合并
list = list1+list2
[1,2.3,4] = [1,2]+[3,4]
但是如果是nparray
[1,2]+[3,4] = [4,6]
nparray可以理解为矩阵,是数学上的相加,如果要实现list一样的功能,要使用叠加
np.concatenate((nlist1,nlist2),axis = 0)
axis =1为纵向叠加,两个array的维数必须一致,
2、合并字符串数组
list = [‘我‘,‘爱’,‘北京’]
str = ‘‘.join(list)
3、list为[(‘我‘,3),(‘他’,2),(‘其他人’,7)]
如何按照元组的第二列排序呢
sorted(list, key = lambda x:x[2], reverse = True) 默认从小到大拍,reverse=True为从大到小排
这里的lambda就是用x[2]替代x,去作为一个key,本来如果没有这样,就会使用list本身的每一个元素做排序
4、list每个元素减一?
方法1: list = list(map(lambda:x:x-1,list)
使用map加lambda,并且转为list,否则会使一个map类,
方法2,转为nparray
narray = np.array(list)-1,然后可以再转为List如果需要的话
5、程序计时,import time
time1 = time.time()
time2 = time.time()
print(time2-time1)
6、对于长时间的任务,尽量打印进度出来,比如循环的次数
7、word2vec学习笔记
①如何获取模型的词表?
dic = model.wv.index2word
就是一个简单的list 如 [‘了‘, ‘吗‘, ‘可以‘, ‘这个‘, ‘设置‘, ‘有‘, ‘在‘, ‘商品‘, ‘后台‘, ‘账号‘]
注意,超过长度的元素为空,但是不会出错
获取词汇长度可以使用
len(model.wv.vocab)
也可以
len(model.wv.index2word)
②list = [‘了‘, ‘吗‘, ‘可以‘, ‘这个‘, ‘设置‘, ‘有‘, ‘在‘, ‘商品‘, ‘后台‘, ‘账号‘]
获取 ‘可以’ 的索引
index = list.index(‘可以‘)
③循环遍历C521取两个的方法
for i in range(len(content2)):
for j in range(i+1,len(content2)):
原文:https://www.cnblogs.com/yjybupt/p/9890002.html