如何高效地做到大文本去除重复行

主要是对行去重
如果先排序的话。。大约是这样：

sort bigtext.txt|uniq

因为uniq只能去相邻行的重，但是对大文本进行排序这个代价有点大？O(n log n)对于n达到上亿好像太慢了？
其他的使用set更加。。。如果重复率小，吃内存吃的不行。。。

如果可以忍受误差（就是有一定的误判），bloom filter是个不错的办法。

有时候超大文本你的内存受不了，所以比较好的方法是找几个分割点，把所有数据分成N堆，各自排序后组合。（貌似得编码……）

我提供一个思路供您参考。
扫一遍文件，对每一行计算一个MD5或者SHA-1值，在内存构建trie树。鉴于数据量很大，生成的MD5值应该存在许多前缀，所以采用trie可以节省空间（如果想进一步节省空间，可以采用三向单词查找树，比trie分支更少），而且trie树的深度不会超过MD5值的长度，几十而已，每次查找或者插入MD5值都是个时间复杂度为常数的操作。向trie添加某个MD5值时如果发现该值已经存在，则抛弃目前扫描的行；如果不存在，则把MD5值插入trie树，把当前扫描行写入结果文件（这个文件保存所有不重复的行）。
这样，扫描一遍文件就能实现去重。

但是对大文本进行排序这个代价有点大？O(n log n)对于n达到上亿好像太慢了？

代价不大。排序的话是省内存的。（sort的算法实现应该是比较高效的。）

要不就是对每行算SHA-1，这样只要比较SHA-1就可以。

P.S. 哈希表实现对内存有要求，基本上1000w去重后的数据对应1G内存的样子。我都用64G的机器搞，所以还好。。如果再大，上hadoop吧。

如果只是去重，用sort的效率很低（指的是上千万行的量级），因为做了额外操作，因为你只是要去重，而不是排序

用awk数组来实现很简单很快，利用了awk数组是hashtable实现的特性。内存占用和去重后（注意是去重后)的行数（注意是行数，而不是你的文本内容）成正比。

cat 一堆文件 | awk '{ if (!seen[$0]++) { print $0; } }'

来个实际的测试结果吧，取100w 不重复的URL，简单复制一份，形成一个200w行的文件（请原谅我不能拿几亿的数量做测试，因为sort实在太慢了，上面说可以接受的肯定是没有测试过。。）

$ wc -l 200w
2000000 200w
$ tail -1 200w
http://photo.blog.sina.com.cn/photo/511c583f448cc39a9cb5c

$ time cat 200w | sort | uniq > sort_uniq
cat 200w 0.01s user 0.08s system 0% cpu 21.844 total
sort 35.13s user 0.24s system 76% cpu 46.279 total
uniq > sort_uniq 21.43s user 0.17s system 46% cpu 46.278 total

sort && uniq 耗时 46s，并且会打满一个CPU核

$ time cat 200w | sort -u > sort_u
cat 200w 0.01s user 0.08s system 0% cpu 24.806 total
sort -u > sort_u 47.56s user 0.31s system 99% cpu 48.002 total

** sort -u 耗时48s，差不多吧 **

$ time cat 200w | awk '{ if (!seen[$0]++) { print $0; } }' > awk
cat 200w 0.01s user 0.08s system 3% cpu 3.144 total
awk '{ if (!seen[$0]++) { print $0; } }' > awk 2.83s user 0.23s system 96% cpu 3.158 total

awk 方法耗时3s , 而且最重要的awk方法的时间复杂度是O(n)， sort是O(nlogn)，200w就差这么大，2000w呢，2亿么，可想而知

【热门文章】