什么是哈希算法?
将任意长度的二进制值串映射为固定长度的二进制值串,这个映射的规则就是哈希算法,而通过原始数据映射之后得到的二进制值串就是哈希值。但是,要想设计一个优秀的哈希算法并不容易,根据我的经验,我总结了需要满足的几点要求:
- 从哈希值不能反向推导出原始数据(所以哈希算法也叫单向哈希算法);
- 对输入数据非常敏感,哪怕原始数据只修改了一个 bit,最后得到的哈希值也大不相同;
- 散列冲突的概率要很小,对于不同的原始数据,哈希值相同的概率非常小;
- 哈希算法的执行效率要尽量高效,针对较长的文本,也能快速地计算出哈希值;
我们分别对“今天我来讲哈希算法”和“jiajia”这两个文本,计算 MD5 哈希值,得到两串看起来毫无规律的字符串(MD5 的哈希值是 128 位的 bit 长度,为了方便表示,我把它们转化成了 16 进制编码)。可以看出来,无论要哈希的文本有多长、多短,通过 MD5 哈希之后,得到的哈希值的长度都是相同的,而且得到的哈希值看起来像一堆随机数,完全没有规律:
1 | MD5("今天我来讲哈希算法") = bb4767201ad42c74e650c1b6c03d78fa |
我们再来看两个非常相似的文本,“我今天讲哈希算法!”和“我今天讲哈希算法”。这两个文本只有一个感叹号的区别。如果用 MD5 哈希算法分别计算它们的哈希值,你会发现,尽管只有一字之差,得到的哈希值也是完全不同的:
1 | MD5("我今天讲哈希算法!") = 425f0d5a917188d2c3c3dc85b5e4f2cb |
通过哈希算法得到的哈希值,很难反向推导出原始数据。比如上面的例子中,我们就很难通过哈希值“a1fb91ac128e6aa37fe42c663971ac3d”反推出对应的文本“我今天讲哈希算法”。哈希算法要处理的文本可能是各种各样的。比如,对于非常长的文本,如果哈希算法的计算时间很长,那就只能停留在理论研究的层面,很难应用到实际的软件开发中。比如,我们把今天这篇包含 4000 多个汉字的文章,用 MD5 计算哈希值,用不了 1ms 的时间。
哈希算法的应用非常非常多,我选了最常见的七个,分别是:安全加密、唯一标识、数据校验、散列函数、负载均衡、数据分片、分布式存储。




