重温战场 发表于 2018-11-13 12:50:57

一次蛋疼的nginx 502排查过程

  线上一台机器(该论坛所在机器)近期频繁出现502,每100次访问就会出现10次,这频率也太高了。于是开始了我的502排查之旅。
  1.
  1 ps aux |grep -c php
  复制代码
  结果为200
  2 netstat -an |grep -c php
  复制代码
  结果一直在5以下,这说明php-cgi 的进程是绝对够用的。
  2. 查看php-fpm.log
  3 tail -f/usr/local/php/logs/php-fpm.log
  复制代码
  无有价值信息
  3. 查看nginx错误日志
  4 tail -f /usr/local/nginx/logs/error.log
  复制代码
  无有价值信息
  4. 感觉问题可能出在了nginx的配置上,于是网上找关于nginx.conf 的配置说明,改来改去始终解决不了这难缠的502。(该过程前后延续一周之多,改了N多个参数,因为没有价值,所以我不再详细记录,在这里简单一笔带过。)
  5. 几天过后,突然灵机一动,nginx的错误日志既然不报错,那说明定义的日志级别没有达到要报错的要求,于是找资料修改nginx错误日志级别为error(默认为crit)
  请参考http://mylinux.5d6d.net/thread-1289-1-1.html
  终于发现有价值的信息:
  connect() to unix:/tmp/php-fpm.socket failed (11: Resource temporarily unavailable) while connecting to upstream
  google了一番,马上就找到了解决问题的方法:
  6. 修改php-fpm.conf
  把
  5 -1
  复制代码
  改成:
  6 1024
  复制代码
  这是因为,php-fpm 在 backlog 设置为 -1 的情况下,表示backlog数无限制,由操作系统决定,而操作系统是由内核参数net.core.somaxconn 决定,我的操作系统该参数的值设置的很大为262144。该参数的值默认为128,我想设置成262144肯定是不合理的。所以,我又试验了一下。
  7. 不修改php-fpm.conf ,即backlog的值为-1, 然后把net.core.somaxconn修改为默认值128 ,此时也没有再出现502
  总结,本次502事故的主要原因是内核参数配置不当引起的,至于这个backuplog 参数具体的含义以及应该配置多大合理,以后我会专门写一篇帖子来阐述。

页: [1]
查看完整版本: 一次蛋疼的nginx 502排查过程