设为首页 收藏本站
查看: 1146|回复: 0

[经验分享] 大流量并发LVS负载

[复制链接]

尚未签到

发表于 2015-11-21 02:53:41 | 显示全部楼层 |阅读模式
编者按:本文对大流量、高负载LVS系统优化提供了参考意见,从IPVS、网卡、TCP/IP配置、硬件资源配置等方面进行了阐述。文章重点关注了IPVS connection hash table的参数计算过程。
Linux环境
CentOS 5.5
名词
LVS   :   Linux Virtual Server
IPVS :   IP Virtual Server,IPVS 是 LVS 实现的关键。
IPVS connection hash table  :  IPVS连接哈希表,用来“跟踪”进来、出去的网络包(for input and output packets lookups of IPVS)。
ip_vs_conn 结构体: 定义在内核档 include/net/ip_vs.h 中。该结构体(对象)是 IPVS 的调度对象。在 32 位系统上 128字节,64位系统上 192 字节。
IPVS connection hash table
内核中的代码:net/netfilter/ipvs/ip_vs_conn.c
int ip_vs_conn_tab_bits;
编译时可以定,Kconfig文件中说明该值的大小应该在 8 到 20 之间。当ip_vs_conn_tab_bits=20 时,哈希表的的大小(条目)为 pow(2,20),即 1048576,约 104 万,足够用了。
int ip_vs_conn_tab_size;
IPVS哈希连接表的条目数(list_head结构数)。
ip_vs_conn_tab_size = 1 << ip_vs_conn_tab_bits;
哈希表的大小(条目数)是 2 的 ip_vs_conn_tab_bits 次方。
ip_vs_conn_tab = vmalloc(ip_vs_conn_tab_size * sizeof(struct list_head));
其中 IPVS连接哈希表占用的内存大小是 ip_vs_conn_tab_size * sizeof(struct list_head)
内核Kconfig文件中说一个哈希条目点用8个字节,但是实示上,一个条目占用的内存大小是和 list_head 结构体的大小相关, (可能)在32位的内核里是8个字节,64位的内核里是16个字节。当加载ip_vs模块的时候,使用dmesg可以看到具体的信息:
在32位系统上
IPVS: Registered protocols (TCP, UDP, AH, ESP)
IPVS: Connection hash table configured (size=4096, memory=32Kbytes)
IPVS: ipvs loaded.
在64位的系统上:
IPVS: Registered protocols (TCP, UDP, AH, ESP)
IPVS: Connection hash table configured (size=4096, memory=64Kbytes)
IPVS: ipvs loaded.
哈希冲突,是哈希算法的致命伤。“IPVS”使用“链表策略”(chaining scheme) 解决哈希冲突。当有大量的连接时,一个大的 “IPVS连接哈希表”将大大减少冲突。减少了冲突,意为着IPVS定位 ip_vs_conn 对象的速度更快。
下图示意了哈希表(Hash Table)这种数据结构。引用
DSC0000.gif

如上图所示,首先分配一个指针数组,数组的每个元素是一个链表的头指针,每个链表称为一个槽(Slot)。哪个数据应该放入哪个槽中由哈希函数决 定,在这个例子中我们简单地选取哈希函数h(x) = x % 11,这样任意数据x都可以映射成0~10之间的一个数,就是槽的编号,将数据放入某个槽的操作就是链表的插入操作。
如果每个槽里至多只有一个数据,可以想像这种情况下search、insert和delete操作的时间复杂度都是O(1),但有时会有多个数据被 哈希函数映射到同一个槽中,这称为碰撞(Collision),设计一个好的哈希函数可以把数据比较均匀地分布到各个槽中,尽量避免碰撞。如果能把n个数 据比较均匀地分布到m个槽中,每个糟里约有n/m个数据,则search、insert和delete和操作的时间复杂度都是O(n/m),如果n和m的 比是常数,则时间复杂度仍然是O(1)。一般来说,要处理的数据越多,构造哈希表时分配的槽也应该越多,所以n和m成正比这个假设是成立的。
关联到IPVS,ip_vs_conn_tab_size 指的就是“槽”的数量。 N 指的应该是所有的调度对象 struct ip_vs_conn 的数量。
确定 ip_vs_conn_tab_bits 的最佳&#20540;:
假如你的 LVS 上每秒有 W 个“连接”建立, 平均每个“连接”将要保持 S 秒,即每个连接工作 S 秒,最佳 ip_vs_conn_tab_bits &#20540;应该满足 2 的 ip_vs_conn_tab_bits 次方靠近 W*S。最佳的 ip_vs_conn_tab_bits = log(W*S,2).
还有一个容易的方法:
使用 slabtop 观察 ip_vs_conn 结构的数量(OBJS),当然,应该是在系统流量最高的时候取得这个&#20540;,对该&#20540;求以 2为底 的对数,log(OBJS,2)。
获取ip_vs_conn OBJS的&#20540;:awk ‘/ip_vs_conn/{print $3}’  /proc/slabinfo
这个最佳&#20540;,以我理解,就是上面 “哈希表”结构说明中提到的M&#20540;,而 OBJS 就是 N &#20540; ,当M接近 N的时候,哈希表的复制度为O(1),为最佳状态。
使我不解的是,这里为什么不设置的更大一些,仅仅是浪费一些内存而且(一个条目用去8或者16个字节)。即使取最大&#20540; 20,在64位内核上,也才只占去16M的内存,在32位的内核上,占去8M内存。
IPVS的默认&#20540;是12,32位机用掉 32K,64位机用掉 64K内存。假如不是因为小内存容易使用CPU缓存,那么就一定是为了节省内存,在服务器上,这样的策略,明显落后了。
问题的关键是查明 vmalloc() 函数的作用。
vmalloc() 函数的作用:
申请逻辑地址连续的内存,返回首内存地址。
看来IPVS连接哈希表的大小,与使用的内存(是高速缓存,还是普通内存)并无影响。
调整 ip_vs_conn_tab_bits的方法:
新的IPVS代码,允许调整 ip_vs_conn_bits 的&#20540;。而老的IPVS代码则需要通过重新编译来调整。
在发行版里,IPVS通常是以模块的形式编译的。
确认能否调整使用命令 modinfo -p ip_vs(查看 ip_vs 模块的参数),看有没有 conn_tab_bits 参数可用。假如可以用,那么说时可以调整,调整方法是加载时通过设置 conn_tab_bits参数:
在 /etc/modprobe.conf 添加下面一行
options ip_vs conn_tab_bits=20
假如没有 conn_tab_bits 参数可用,则需要重新调整编译选项,重新编译。
很不幸,即使将CentOS内核升级到最新版,也不支持这个参数,只能自定义编译了(没有编译成功,很郁闷)。
另外,假如IPVS支持调整 ip_vs_conn_tab_bits,而又将IPVS集成进了内核,那么只能通过重启,向内核传递参数来调整了。在引导程序的 kernel 相关的配置行上,添加:ip_vs.conn_tab_bits=20 ,然后,重启。
最终建意:
增大哈希表,调到 ip_vs_conn_tab_bits 到 20 。有一种说法是哈希表过大,会影响性能。但是根据我对哈希算法的理解,这种说法没有道理。
另一个有力的证据是,IPVS的作者也是这样配置的。
Network
增加LVS主机的网络吞吐能力,有利于提高LVS的处理速度和能力。
1. 使用更快的网卡,比如使用千兆、万兆的网卡。
2. 可以进一步将两块或多块网卡绑定(多块网卡的绑定有待验证),bonding 时 mode=0 (balance-rr)或者 mode=4(802.3ad,需要交换机支持聚合端口),miimon=80或者 miimon=100(毫秒)。
TCP/IP
/etc/sysctl.conf
net.core.netdev_max_backlog = 60000
Hardware
IPVS的运行,使用的服务器资源主要是 CPU、内存I/O、网络I/O;IPVS完全运行在内存中,并且运行在内核态。
当IPVS的应用在DR模式时,即不耗CPU,也不耗I/O,运行非常快,所以系统负载非常的低,跟据我的经验,一般负载总是0。所以 LVS 应用对服务器的配置要求非常低。以为 LVS 很重要,所以配置一个相当高端的服务器,实在是一种浪费。
其实我们可以做一下计算:
以64位系统为例,一个哈希表条目,16个字节,一个 ip_vs_conn 结构 192字节。以哈希表的冲突尽可能的少为场景(将 ip_vs_conn_tab_bits 设置为最大&#20540; 20 ),那么:
pow(2,20)=1048576
pow(2,20)*(16&#43;192)/1024/1024 = 208 M
就是说,当系统当前有100 万连接的时候,才用去内存 208 M,所以  IPVS 的主机,即使是1G的内存,也足以承载负载。
  

  

  转自: http://hi.baidu.com/imfam520/blog/item/efd7d1d669e2b03206088b73.html

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-141636-1-1.html 上篇帖子: 用Verilog-a描述的底层单元搭建的电路怎样做LVS 下篇帖子: LVS不能转发网络包的一种解决方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表