写python已经差不多有三个多月了,因为简洁,越来越喜欢这个"巨莽"了,我相信绝大多数人同样喜欢简洁。
今天第一次记录,是我刚刚再工作上遇到的一个小问题,为了更方便理解,我把问题概括成这样:
我有三百多万条记录,但是里面有重复(里面由数字和数字组成),我想要得到不重复的数据。
这是一个老问题,用c++的话很自然就会用到set,大概写法就是
#include<iostream> #include<set> #include<string> #include<cstdio> using namespace std; int main(){ freopen("record.txt","r",stdin); freopen("uniquerec.txt","w",stdout); set<string> st; string mstr; while(cin>>mstr){ st.insert(mstr); } for(set<string>::iterator itr=st.begin();itr!=st.end();itr++){ cout<<*itr<<endl; } fclose(stdin); fclose(stdout); }
而用python,则是这样的
#!/usr/bin/env python # coding=utf-8 rec=open('record1.txt','r').readlines() uniquerec=open('unique.txt','w') st=set(rec) uniquerec.write(''.join(st))
怎么样?是不是让人十分喜欢?短短几行,包括了读写文件,过滤重复!
为了让不熟悉py的同学明白,我简单说一下用到的。
读写文件就是open(‘文件名字‘,参数[r为读,w为写,a为追加]‘)
用readlines()会返回一个列表
而利用列表lst创建集合则只需要
st=set(lst)
而‘字符串‘.join是十分好用的连接,利用字符串来连接容器内的元素,我用的是空字符,就是直接串连起来。
之后,因为我的文档分开了两个存储,所以需要求并运算。py只需要这么做。
#!/usr/bin/env python # coding=utf-8 rec=open('record1.txt','r').readlines() rec2=open('record2.txt','r').readlines() uniquerec=open('unique.txt','w') st=set(rec)|set(rec2) uniquerec.write(''.join(st))没错,就是 | 用于求并,同理&则是求交 ,-是求差,^是求补。
python的简洁和高效你感受到了吗?
人生苦短,我用python!!
原文:http://blog.csdn.net/dengyaolongacmblog/article/details/38016905