首页 > haproxy稳定性问题求教:无故丢失backend且无日志

haproxy稳定性问题求教:无故丢失backend且无日志

版本:haproxy 1.4.24,通过centos base的yum repo安装,centos 6.4 x86_64

用了几天,似乎有重大bug,问题表现:
一、 10几个用户的并发能把HTTP模块搞挂
连stat页面(用mode http运行的stat)都看不了,进程还在,stat socket也在,重启后就正常,过会儿又挂。

maxconn是3000(有点小,但10几个用户远远达不到这个上限啊)

二、无故丢失backend server。
mode tcp
刚启动时正常,stat页面能看到backend server,能显示状态

几乎无任何访问,12小时内,后台server没了,注意,不是health check检测不到backend server了,是stat页面里backend列表为空,就跟配置文件里从来没写过这台backend server一样。

用debug模式启动,丢失后台server的时候无任何日志输出,连xxx server is DOWN 都没有(如果是health check 失败会有这个提示)

更加奇怪的是,丢失的是sphinx和redis(还没正式使用,几乎没有客户端访问),mysql,php-fpm从来不丢,难道是haproxy自动把没流量的backend server list清空?这不科学啊

执行haproxy reload后正常。

之前用低版本的haproxy没遇到这个问题

怀疑是haproxy有bug,有同行遇到类似问题吗?


这个问题太诡异了,恐怕很难得到答案。
我的解决方案是:
1.换其它版本的haproxy
比如以前用过的低版本,或者6月24号刚刚发布的1.5.1

2.换LVS
为什么不是nginx呢,因为我全部做的layer 4负载均衡

由于我花了几十小时把haproxy的安装配置写成puppet自动化脚本,不想就这样放弃,所以,我选择了方案1,自己下载1.5.1的源码打包了个rpm,测试看看会不会重现

-- 进展 --
测试过程中发现:
haproxy init.d脚本有问题,restart和reload 的时候,没有正确处理pid文件,起了一个新的进程

新的进程没能将正确的config文件载入(机制不清楚,观察到新进程一直都没把sphinx和redis两个cluster配置加进来,其它三个都加进来了),访问时,随机访问了一个进程,如果恰好就是新进程,就访问不到redis了,如果是老进程,可能就没问题

-- 初步结论 --
haproxy没有bug,但有一点跟apache/nginx等守护tcp端口的daemon都不一样,它允许以完全相同的配置文件同时运行多个进程,而不会报端口冲突。

我所提的【bug】,根本原因是我写puppet脚本时疏忽了,puppet默认是不分先后的(写在最后一行的,不一定是最后一个执行),我在puppet里,生成haproxy/conf.d/xxx.cfg和启动haproxy service,没有指定先后顺序,配置文件还没完全生成好,service就起来了。

改掉这个问题后,稳定运行了10个小时了,也可以反推出来故障过程。特地来更新答案,是我学艺不精,不能冤枉了haproxy。

【热门文章】
【热门文章】