常见海量数据问题处理

海量数据处理:

1.top k问题

海量数据中找出最大的前k个数(或者最小的前k个数)
一般的套路是:
hash分割数据集+trie树/hash统计出词频+小顶堆
(1)使用hash的方法将数据集分成多个小的数据集
(2)使用tire树或者hash统计出每个小数据集中的词频
(3)之后用小顶堆求出数据集中频率最高k个数,最后在所有的top k中求出最中的top k

  • 看常见案例:1亿个浮点数,如何找出其中最大的1000个数?
    (1)直接排序法
    (2)局部淘汰:用一个长度为1000的数组,逐个遍历所有的数据,将最大的1000个放入数组中,时间复杂度O (n+m^2)
    ————————————————————————————————————
    前两种不是很好的解决方案,面试官不会喜欢的
    (3)分治法 ,将大文件划分成若干个小文件,找出每份中最大的1000个,再从所有的最大1000个中找出最大的1000个;
    - 从文件中找出最大的1000个,利用快排的思想,将浮点数一分为二,不断的一分为二,直到左侧是最大的1000个数为止
    (4)最小堆法:读入1000个数构建小顶堆(O(mlogm)),然后,便利剩余的数,比堆顶数字大则替换掉堆顶的数字然后重新调整最小堆。然后中序遍历一下,得到最大的1000个数。O(nmlogm),空间复杂度是常数。
    ps:可以用hash法预处理一下,将重复的数字去掉,如果重复的数字很多的话,可以节省大量的运算内存空间。去重完毕后,再使用分治法和最小堆法处理。

当然,实际问题中,还是需要根据到内存大小和数据量来选择处理方法。

topk还有其应用场景:
例如 统计搜索热度最高的前10的词。
思路:(1)分治,将文件分成很多小文件(2)用hash的方法统计出每个小文件中词的频率(3)建容量为10 的小顶堆:首先输入前位数,遍历剩余的文件,比堆顶大则替换,最终得到最大的10个数。(4)合并结果后再用最小堆找出前十的词。

2.重复问题

找出大数据量下的重复元素或者去重的需求,一般用位图(bitmap)的方式实现。

如题:一个文件,里面存储了大量的电话号码,每个号码都是8位的数字,请统计不同号码的个数。

解:8位数字能表示最大的数字是99999999,如果每个数字对应位图中的一位,需要申请99999999位即约99Mbit的内存,折合99/8MB的内存。
(2)遍历号码,在对应的数组下标置为1,遍历完文件后;位图上置为1的下标就表示该号码存在。输出置为1的个数即可。

类似问题:
1)10亿个整数,只有一个数重复出现过,O(n)的时间复杂度内找出这个数
思路:
1.bitmap法:申请一个长度为Int最大值的bit数组,按行读文件,若该位置已经是1了,你则说明重复了。
2.分治法,使用hash份成1000份小文件,重复的数肯定会分在一个文件里。分别用hashMap处理每个小文件。

2)给两个文件,每个文件存了50亿的url,每个url占64Byte,在O(n)时间里找出两个文件相同的url
思路:(1)将每个urlhashcode % 1000,切割成很多小文件;(2)hash后,相同的url肯定都落到了相同的小文件中。(3)遍历a0文件,存入hashMap,再遍历b文件,如果hashmap中存在的,则表示有相同的url。

3)给40亿个无符号整数,给定一个数,快速判断这个数是不是在这些数字里?
思路1:bitmap法
思路2:
(1)无符号整数最大是32位,也就是40亿的数字都可以表示成32位二进制的串,将给定的数字用32位二进制表示,得到一个0、1串
(2)将首位位0和首位为1的数字分成两个文件;在首位与给定数一致的文件里再分次位为0和次位为1两个文件,直到最后找到这个数为止 (O(lgn))

3.排序问题

示例:9亿个不重复的8位数,请排序:
思路:最大数位99999999 ,位图法,申请一个可以包含8位整数个的数组,长度为1亿的bit数组,挨个读文件,读出数字,在对应的位上置为1。遍历整个数组,将bit为1的下标存入文件,最终得到了排序的结果。

布隆过滤器:

思想:
准备条件:
1.长度为m的bit数组
2.k个hash算法黑名单字符串集合
构建布隆过滤器
1.遍历黑名单集合
2.每一条数据计算k个hash函数,hashcode取m模后落到数组的某一位置为1
3.循环遍历集合后m长度的数组中就有若干为置为了1
检测字符串str
1.一次计算k个hash函数,对m取模
2.如果没有落到值为1的位置,则肯定不是黑词
3.如果每个结果都落到了值为1的位置,则有可能是黑词。(对于结果不准的情况,可以将可能的值再精确匹配一次)

image.png

几个实例:

  • 1.一个8g的文件,每一行是一个整型数字,服务器的内存是2g,怎么得到文件里重复出现的数字
    思路1:位图法,申请一个长度为最大整数的bit数组,挨个读取文件,将对应数字下标的数组标记为1,如果遇到该位置已经是1的,输出下标到文件中。这就是重复了的数字。
    思路2:分治法,将数字取模%1000,分为1000个小文件,每个文件处理,将数字存入hashmap,输出重复的数字到文件中。因为是取模操作,所以重复的数字肯定是落到了同一个文件中的。

  • 思路拓展

  • (1)很多数,超过了整数的界限,其中有一个数出现过一次,其余都是出现过两次,找出这个数?
    思路:遍历,将所有的数做异或,遍历结束后,出现两次的数都抵消了,剩下的数就是自己了。(自己与自己做异或运算是0)
    case:举个栗子:2 3 4 2 3
    所有数字依次异或运算:2 xor 3 xor 4 xor 2 xor 3 = (2 xor 2) xor (3 xor 3) xor 4= 0 xor 0 xor 4 = 4

  • (2)一年的全国高考考生人数为500 万,分数使用标准分,最低100 ,最高900 ,没有小数,要求对这500 万元素的数组进行排序。
    思路:桶排序,因为分数分布在100~900之间,创建801个桶并编号,遍历500个数,丢入到对应的桶中,这样就可以排出所有人的分数了。
    注:与位图法有点类似,就是:下标=数字值。

?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事?!?“怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容