Python去除列表list重复或相似元素的方法

发表时间：2016-06-13 17:47 | 分类：Python | 浏览：2,683 次

最近博主在分析数据库慢查询日志的时候想使用python把重复或者相似的sql去掉，这样就不用看很多类似的sql了。重复相同的数据去掉比较简单，可以使用内置的set命令完成。

例如：

l1 = ['a','b','c','d','e','a','b','f'] 
l2 = list(set(l1)) 
print l2

这个用python很容易实现。

如何去除相似的字符串，即我这边用到的sql语句？好在python方便，有内置库difflib可以使用。difflib计算相似度的方法类似如下：

>>> import difflib
>>> difflib.SequenceMatcher(None, 'abcde', 'abcde').ratio()
1.0
>>> difflib.SequenceMatcher(None, 'abcde', 'zbcde').ratio()
0.80000000000000004
>>> difflib.SequenceMatcher(None, 'abcde', 'zyzzy').ratio()
0.0

有了这个方法，让博主我就先理下思路。

python-list-similar-remove

先从list的第一个元素开始，遍历该元素后的每个元素并比较。如果判断两个字符串相似，那么就把该元素删除。遍历完后就从第二个元素开始，依次循环，最终得到的就是去除相似元素后的列表了。

暂时博主想到就是这个办法，如果有效率更高更好的欢迎交流。代码类似如下：

def remove_similar(lists,similarity=0.9):
    i=0
    l=len(lists)
    while i<l:
        j=i+1
        while j<l:
            seq=difflib.SequenceMatcher(None,lists[i],lists[j])
            ratio=seq.ratio()
            if ratio>=similarity:
                del lists[j]
                l=l-1
            else:
                j+=1
        i+=1
    return lists

上面函数默认相似度设置的是0.9，可以按照你的要求修改。

试用后效果好像不错，原来几百条的sql就只剩几条了。。。

参考链接：

https://docs.python.org/2/library/difflib.html

本文标签：Python

本文链接：https://www.sijitao.net/2441.html

欢迎您在本博客中留下评论，如需转载原创文章请注明出处，谢谢！

下一篇：Python中IP地址处理IPy模块的使用
上一篇：SecureCRT通过sftp上传文件到Linux和下载方法

日历
2025年二月

一二三四五六日

« 十

1 2

3 4 5 6 7 8 9

10 11 12 13 14 15 16

17 18 19 20 21 22 23

24 25 26 27 28
标签
360 apache CentOS chrome Fail2ban find Firefox GAE Gmail Google htaccess Life linux MongoDB MSN Mysql nagios Nginx PHP Postfix PostgresQL Python QQ Redis SEO Shell SQL ssl tomcat ubuntu virtualbox VPS windows Wordpress XML Zabbix 主机代理发牢骚域名小百科搜索热门百度邮箱

2025年二月
一	二	三	四	五	六	日
« 十
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28

Python去除列表list重复或相似元素的方法

日历

标签

最新发表