首页 > 编程语言 > 详细

数据结构与算法之美专栏学习笔记-哈希算法(上)

时间:2018-11-13 15:09:06      阅读:164      评论:0      收藏:0      [点我收藏+]

哈希算法的定义和原理

将任意长度的二进制串映射为固定长度的二进制串。

这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制串就是哈希值。

设计一个优秀的哈希算法需要满足:

  • 从哈希值不能反向推导出原始数据(所以哈希算法也叫单向哈希算法);
  • 对输入数据非常敏感,哪怕原始数据只修改了一个 Bit,最后得到的哈希值也大不相同;
  • 散列冲突的概率要很小,对于不同的原始数据,哈希值相同的概率非常小;
  • 哈希算法的执行效率要尽量高效,针对较长的文本,也能快速地计算出哈希值。

 

MD5哈希算法

MD5的哈希值是128位的bit长度,为了方便转换成了16进制编码。

可以看出无论哈希值文本有多长多短,通过MD5哈希之后,得到的哈希值的长度都是一样的,

而且得到的哈希值看起来像一堆随机数完全没有规律。

MD5(" 今天我来讲哈希算法 ") = bb4767201ad42c74e650c1b6c03d78fa
MD5("jiajia") = cd611a31ea969b908932d44d126d195b

 

哈希算法的应用

安全加密

加密算法

最常用于加密的哈希算法是MD5(MD5 Message-Digest Algorithm,MD5 消息摘要算法)和SHA(Secure Hash Algorithm,安全散列算法)。

对用于加密的哈希算法来说,有两点格外重要:

  • 很难根据哈希值反向推导出原始数据,
  • 散列冲突的概率要很小。

实际上,不管是什么哈希算法,我们只能尽量减

少碰撞冲突的概率,理论上是没办法做到完全不冲突的。

鸽巢理论

这里就基于组合数学中一个非常基础的理论,鸽巢原理(也叫抽屉原理)。

这个原理本身很简单,它是说如果有 10 个鸽巢,有 11 只鸽子那肯定有 1 个鸽巢中的鸽子数量多于 1 个。

换句话说就是,肯定有 2 只鸽子在 1 个鸽巢内。

我们知道,哈希算法产生的哈希值的长度是固定且有限的。

哈希值是固定的 128 位二进制串,能表示的数据是有限的最多能表示 2^128 个数据。

基于鸽巢原理,如果我们对 2^128+1 个数据求哈希值,就必然会存在哈希值相同的情况。

 

唯一标识

在图库中搜索图片

如果要在海量的图库中,搜索一张图是否存在,我们不能单纯地用图片的元信息(比如图片名称)来比对。

因为有可能存在名称相同但图片内容不同,或者名称不同图片内容相同的情况。

我们可以给每一个图片取一个唯一标识,或者说信息摘要。

比如,我们可以从图片的二进制码串开头取 100 个字节,从中间取 100 个字节,从最后再取 100 个字节。

然后将这 300 个字节放到一块,通过哈希算法(比如 MD5)得到一个哈希字符串,用它作为图片的唯一标识。

通过这个唯一标识来判定图片是否在图库中,这样就可以减少很多工作量

性能提升

如果还想继续提高效率,我们可以把每个图片的唯一标识和相应的图片文件在图库中的路径信息,都存储在散列表中。

当要查看某个图片是不是在图库中的时候,我们先通过哈希算法对这个图片取唯一标识,然后在散列表中查找是否存在这个唯一标识。

 

数据校验

P2P文件快校验

BT 下载的原理是基于 P2P 协议的。

我们从多个机器上并行下载一个 2GB 的电影,这个电影文件可能会被分割成很多文件块(比如可以分成100 块,每块大约 20MB)。

等所有的文件块都下载完成之后,再组装成一个完整的电影文件就行了。

网络传输是不安全的,下载的文件块有可能是被宿主机器恶意修改过的,又或者下载过程中出现了错误,所以下载的文件块可能不是完整的。

解决方法

我们通过哈希算法,对 100 个文件块分别取哈希值并且保存在种子文件中。

当文件块下载完成之后,我们可以通过相同的哈希算法,对下载好的文件块逐一求哈希值,然后跟种子文件中保存的哈希值比对。

如果不同,说明这个文件块不完整或者被篡改了,需要再重新从其他宿主机器上下载这个文件块。

 

散列函数

散列函数是一种哈希算法

实际上,散列函数也是哈希算法的一种应用。

散列函数是设计一个散列表的关键。

它直接决定了散列冲突的概率和散列表的性能。

不过,相对哈希算法的其他应用,散列函数对于散列算法冲突的要求要低很多。

即便出现个别散列冲突,只要不是过于严重,我们都可以通过开放寻址法或者链表法解决。

散列函数追求平均分布

不仅如此,散列函数对于散列算法计算得到的值,是否能反向解密也并不关心。

散列函数中用到的散列算法,更加关注散列后的值是否能平均分布。

也就是一组数据是否能均匀地散列在各个槽中。

除此之外,散列函数执行的快慢,也会影响散列表的性能,

所以,散列函数用的散列算法一般都比较简单,比较追求效率。

 

负载均衡

 

数据分片

 

分布式存储

数据结构与算法之美专栏学习笔记-哈希算法(上)

原文:https://www.cnblogs.com/errornull/p/9952162.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!