Massive Technical Interviews Tips: Cache Advanced

Wednesday, February 7, 2018

Cache Advanced

https://mp.weixin.qq.com/s/uJJKcJsdokDR33pzgGsafw

一、缓存穿透

缓存穿透意味着当用户查询数据库不存在数据时，返回的结果为空，并且结果不会在缓存中存储。假设用户不断发起这样的请求，它将永远不会访问缓存，导致所有查询都落在数据库上，从而导致数据库被打死。

1）通过用户认证、参数验证等，在上层拦截这些不合理的请求；

2）当数据库查询结果为空时，数据也被缓存，但缓存有效期设置较短，以免影响正常数据的缓存。

二、缓存击穿

缓存击穿意味着当热点数据存储到期时，多个线程同时请求热点数据。因为缓存刚过期，所有并发请求都会到数据库查询数据。

解：

实际上，在大多数实际业务场景中，缓存击穿是实时发生的，但不会对数据库造成太大压力，因为一般的公司业务，并发量不会那么高。当然如果你不幸有这种情况，你可以通过设置这些热点键，使其永远不会过期。另一种方法是通过互斥锁来控制查询数据库的线程访问，但这种会导致系统的吞吐率下降，需要实际情况使用。

三、缓存雪崩

数据未加载到缓存中，或者缓存同时在大范围中失效，导致所有请求查找数据库，导致数据库、CPU 和内存过载，甚至停机。

一个简单的雪崩过程：

1） Redis 集群的大面积故障；

2）缓存失败，但仍有大量请求访问缓存服务 Redis；

3）在大量 Redis 请求失败后，请求转向数据库；

4）数据库请求急剧增加，导致数据库被打死；

5）由于你应用程序服务大部分都依赖于数据库和 Redis 服务，它很快就会导致服务器集群的雪崩，最后整个系统将彻底崩溃。

解：

事前：高可用的缓存

高可用的缓存是防止出现整个缓存故障。即使个别节点，机器甚甚至机房都关闭，系统仍然可以提供服务，Redis 哨兵(Sentinel) 和 Redis 集群(Cluster) 都可以做到高可用。

事中：缓存降级（临时支持）

当访问次数急剧增加导致服务出现问题时，我们如何确保服务仍然可用。在国内使用比较多的是 Hystrix，它通过熔断、降级、限流三个手段来降低雪崩发生后的损失。只要确保数据库不死，系统总可以响应请求，每年的春节 12306 我们不都是这么过来的吗？只要还可以响应起码还有抢到票的机会。

事后：Redis 备份和快速预热

1） Redis 数据备份和恢复

2）快速缓存预热

https://www.jianshu.com/p/93767dac6b56

上面的代码，是一个典型的写法：当查询的时候，先从Redis集群中取，如果没有，那么再从DB中查询并设置到Redis集群中。
注意，在实际开发中，我们一般在缓存中，存储的数据结构是JSON。（JDK提供的序列化方式效率稍微比JSON序列化低一些；而且JDK序列化非常严格，字段的增减，就很可能导致反序列失败，而JSON这方面兼容性较好）
假设从DB中查询需要2S，那么显然这段时间内过来的请求，在上述的代码下，会全部走DB查询，相当于缓存被直接穿透，这样的现象就称之为“缓存击穿”！

synchronized+双重检查机制

双重检查

通过synchronized+双重检查机制：

在同步块中，继续判断检查，保证不存在，才去查DB。

一个模板：

Template

Spring不是有很多Template类么？我们也可以通过这种思想对代码进行一个抽象，让外界来决定具体的业务实现，而把模板步骤写好。（有点类似AOP的概念）

从这里可以看出，我们并不关心缓存的数据从哪里加载，而是交给具体的使用方，而且使用方在使用时再也不必关注缓存击穿的问题，因为我们都给抽象了。

http://liubo.loan/2016/06/20/%E7%BC%93%E5%AD%98%E7%A9%BF%E9%80%8F%E5%92%8C%E7%BC%93%E5%AD%98%E9%9B%AA%E5%B4%A9/

什么是缓存穿透

缓存系统，都是按照key去缓存查询，如果不存在对应的value，就应该去后端数据库系统查找。如果key对应的value是一定不存在的，并且对该key并发请求量很大，就会对后端系统造成很大的压力。这就叫做缓存穿透

如何避免缓存穿透

对查询结果为空的情况也进行缓存，缓存时间设置短一点，或者该key对应的数据insert了之后清理缓存
如果在数据库中不存在的话，就在缓存中做一个空标志，（比如new 一个新对象，但是这个对象的字段都是空的。）以后对这些数据的访问，直接就能在缓存中查到，就不需再查数据库了，通过查询缓存发现得到的为空的标志，就直接返回。
布隆过滤器，将所有可能存在的数据哈希到一个足够大的bitmap中，一个一定不存在的数据会被这个bitmap拦截掉，

缓存并发

如果网站并发访问高，一个缓存如果失效，可能出现多个进程同时查询DB，同时设置缓存的情况，如果并发确实很大，这也可能造成DB压力过大，还有缓存频繁更新的问题

对缓存查询加锁，如果KEY不存在，就加锁，然后查DB入缓存，然后解锁；其他进程如果发现有锁就等待，然后等解锁后返回数据或者进入DB查询。

什么是缓存雪崩

当缓存服务器重启或者大量缓存集中在某一个时间段失效，这样在失效的时候，也会给后端系统(比如DB)带来很大压力

如何避免缓存雪崩

缓存过期机制理论上能够将各个客户端的数据失效时间均匀地分布在时间轴上，（不同的key，设置不同的过期时间，让缓存失效的时间点尽量均匀）
做二级缓存，A1为原始缓存，A2为拷贝缓存，A1失效时，可以访问A2，A1缓存失效时间设置为短期，A2设置为长期