记录：解决后端server因一个timeout导致的雪崩

时间：2015-12-24 02:19:54 阅读：1049 评论：0 收藏：0 [点我收藏+]

问题描述

问题分析

这里有三个问题：

1. httpclient超时后，一直retry，nginx会把请求分发到后端的所有webservice里，导致所有webservice全都 ? ? ? 去执行全表扫描，无法再对外服务。

2. httpclient的超时设置和nginx的超时设置不一致，导致nginx返回了结果，但是httpclient却始终无法接收 ? ? ?到。

3. webservice被一个全表扫描的请求阻塞时，并没有被nginx的upstream策略剔除，会有新的请求分配到这个webservice，导致新的请求也timeout。

问题解决

对于三个问题，分别的解决方式如下：

1. 对于可能执行全表扫描这种危险操作的请求，通过添加索引等方式进行优化，缩短查询时间，并且禁止进行retry。

2. 将proxy_read_timeout设置成19秒（也就是小于等于httpclient的超时时间），保证超时的统一性。避免httpclient超时，而nginx还没有超时的情况。

3. nginx有max_fails和fail_timeout两个设置，max_fails表示server如果发生一次失败（超时或者拒绝连接）则将该server剔除出去，不再向其分发请求。fail_timeout表示多少秒后恢复服务。

如下例子：

upstream webService {
server 127.0.0.1:9001 max_fails=1 fail_timeout=120s;
server 127.0.0.1:9002 max_fails=1 fail_timeout=120s;
server 127.0.0.1:9003 max_fails=1 fail_timeout=120s;
}

?这表示，如果webservice中的server发生一次超时，就停止服务2分钟。2分钟以后再恢复服务。

记录：解决后端server因一个timeout导致的雪崩

原文：http://yunjianfei.iteye.com/blog/2265918

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)