当前位置: 首页 > news >正文

socket-详细分析No buffer space available(转载)

文章原文出处:http://www.cnblogs.com/hjwublog/p/5114380.html

今天在公司服务器上部署运行的后台程序出现大面积接口无法调用的问题,查看后台控制台打印如下信息:

 

 
 

查阅网上资料定位问题:系统并发过大,连接数过多,部分socket连接无法释放关闭,而持续请求又导致无法释放的socket连接不断积压,最终导致No buffer space available。

最快解决办法:重启服务器,虽然重启服务器能最快的将socket连接释放,但是问题很容易复现,很明显这不是问题的根本解决方式。

打开cmd输入netstat -an,发现存在大量处于TIME_WAIT状态的TCP连接,也就是之前提到的未释放的socket连接,并且server端口在不断变化,这又是什么现象呢?如下如图:

 

 
 

下面我们来分析解决几个问题:

TIME_WAIT状态的由来

我们知道,TCP关闭连接需要经过四次握手,为什么是四次握手,而不是像建立连接那样三次握手,看看下面三次握手和四次握手的流程图。

 

 
三次握手建立连接示意图

 

 
四次握手关闭连接示意图

而四次握手关闭连接示意图中,TCP协议中,关闭TCP连接的是Server端(当然,关闭都可以由任意一方发起),当Server端发起关闭连接请求时,向Client端发送一个FIN报文,Client端收到FIN报文时,很可能还有数据需要发送,所以并不会立即关闭SOCKET,所以先回复一个ACK报文,告诉Server端,“你发的FIN报文我收到了”。当Client端的所有报文都发送完毕之后,Client端向Server端发送一个FIN报文,此时Client端进入关闭状态,不在发送数据。

Server端收到FIN报文后,就知道可以关闭连接了,但是网络是不可靠的,Client端并不知道Server端要关闭,所以Server端发送ACK后进入TIME_WAIT状态,如果Client端没有收到ACK则Server段可以重新发送。Client端收到ACK后,就知道可以断开连接了。Server端等待了2MSL(Max Segment Lifetime,最大报文生存时间)后依然没有收到回复,则证明Client端已正常断开,此时,Server端也可以断开连接了。2MSL的TIME_WAIT等待时间就是由此而来。

我们知道了TIME_WAIT的由来,TIME_WAIT状态最大保持时间是2 * MSL,在1-4分钟之间,所以当系统并发过大,Client-Server连接数过多,Server端会在1-4分钟之内积累大量处于TIME_WAIT状态的无法释放的socket连接,导致服务器效率急剧下降,甚至耗完服务器的所有资源,最终导致No buffer space available (maximum connections reached?): connect问题的发生。

端口变化由来

对于大型的应用,访问量较高,一台Server往往不能满足服务需求,这时就需要多台Server共同对外提供服务。如何充分、最大的利用多台Server的资源处理请求,这时就需要请求调度,将请求合理均匀的分配到各台Server。

LVS (Linux Virtual Server)集群(Cluster)技术就是实现这一需求的方式之一。采用IP负载均衡技术和基于内容请求分发技术。调度器具有很好的吞吐率,将请求均衡地转移到不同的服务器上执行,且调度器自动屏蔽掉服务器的故障,从而将一组服务器构成一个高性能的、高可用的虚拟服务器。

LVS集群采用三层结构,其主要组成部分为:

1.负载均衡调度器(load balancer),它是整个集群对外面的前端机,负责将客户的请求发送到一组服务器上执行,而客户认为服务是来自一个IP地址(我们可称之为虚拟IP地址)上的。

2.服务器池(server pool),是一组真正执行客户请求的服务器,执行的服务有WEB、MAIL、FTP和DNS等。

3.共享存储(shared storage),它为服务器池提供一个共享的存储区,这样很容易使得服务器池拥有相同的内容,提供相同的服务。

其结构如下图所示:

 

 
LVS结构示意图

从LVS结构示意图中可以看出,Load Balancer到后端Server的IP的数据包的 源IP地址都是一样(Load Balancer的IP地址和Server的IP地址属于同一网段),而客户端认为服务是来自一个IP地址(实际上就是Load Balancer的IP),频繁的TCP连接建立和关闭,使得Load Balancer到后端Server的TCP连接会受到限制,导致在server上留下很多处于TIME_WAIT状态的连接,而且这些状态对应的远程IP地址都是Load Balancer的。Load Balancer的端口最多也就60000多个(2^16=65536,1~1023是保留端口,还有一些其他端口缺省也不会用),每个Load Balancer上的端口一旦进入Server的TIME_WAIT黑名单,就有240秒不能再用来建立和Server的连接,这样Load Balancer和Server的连接就很有限。所以我们看到了使用netstat -an命令查看网络连接状况时同一个remote IP会有很多端口。

最终解决办法:

从上面的分析来看,导致出现No buffer space available这一问题的原因是多方面的,原因以及解决办法如下:

1.从代码层面上看,webservice或httpclient调用未进行连接释放,导致资源无法回收。

解决办法是在axis2的客户端代码中进行连接关闭,如下:

stub._getServiceClient().cleanupTransport();

stub._getServiceClient().cleanup();

stub.cleanup();

stub = null;

及时的关闭和clean能有效的避免内存溢出的问题,及时回收资源。

或者httpClient中,最终要在finally调用response.close()或者httpPost.releaseConnection()进行连接释放。

2.从系统层面上看,系统socket连接数设置不合理,socket连接数过小,易达到上限;其次是2MSL设置过长,容易积压TIME_WAIT状态的TCP连接。

解决办法是修改Linux内核参数,

修改系统socket最大连接数,在文件/etc/security/limits.conf最后加入下面两行:

* soft nofile 32768

* hard nofile 32768

或者缩小2MSL的时长、允许重用处于TIME_WAIT状态的TCP连接、快速回收处于TIME_WAIT状态的TCP连接,修改/etc/sysctl.conf,添加如下几行:

#改系統默认的TIMEOUT时间

net.ipv4.tcp_fin_timeout=2

#启重用,允许将TIME_WAITsockets重新用于新的TCP连接 默认为0表示关闭

net.ipv4.tcp_tw_reuse=1

#开启TCP连接中TIME_WAITsockets的快速回收 默认为0表示关闭

net.ipv4.tcp_tw_recycle=1

对于windows环境,可通过修改注册表进行配置:

\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters

添加一个DWORD类型的值TcpTimedWaitDelay,值可以根据实际情况配置。

\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\TCPIP\Parameters

添加一个DWORD类型的值MaxUserPort ,值可以根据实际情况配置。

上面这些参数根据实际情况进行配置。

l从LVS 层面上看,调度算法不合理,导致请求过多分配到某一台服务器上。

解决办法,根据实际情况指定合理的负载均衡解决方案。

l从安全层面上看,当服务器遭到DDoS(拒绝服务攻击)时,服务器大量积压TIME_WAIT状态的TCP连接而无法向外提供服务。

解决办法,加强安全防护。



作者:焱魔王
链接:https://www.jianshu.com/p/33c561f39f43
來源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

 

转载于:https://www.cnblogs.com/fanjingfeng/p/9332230.html

相关文章:

  • 怎么保存到桌面_标签打印软件怎么保存标签
  • C++之继承(二)
  • docker mariadb集群_Docker搭建Django+Mariadb环境
  • VueX源码分析(1)
  • python合并文件夹_Python实现合并同一个文件夹下所有PDF文件的方法示例
  • iOS 应用性能调优的25个建议和技巧
  • arm ubuntu 编译boost_BFL库的安装(适用ubuntu)
  • 宏与内联函数
  • api接口怎么对接_微服务手册:API接口9个生命节点,构建全生命周期管理
  • rsyslogd 重启_syslog/rsyslog的使用
  • 经典例题
  • paste shell 分隔符_26. Bash Shell - 文本处理:cut、paste、join
  • SpringBoot整合Mybatis-Plus
  • html typora 图片_七牛云 + Mpic图床神器 + Typora“现代”博客图片托管操作总结
  • 跟牛牛老师学习python自动化的第七天
  • python3.6+scrapy+mysql 爬虫实战
  • CAP理论的例子讲解
  • co模块的前端实现
  • JavaWeb(学习笔记二)
  • Laravel Telescope:优雅的应用调试工具
  • linux安装openssl、swoole等扩展的具体步骤
  • maven工程打包jar以及java jar命令的classpath使用
  • overflow: hidden IE7无效
  • php ci框架整合银盛支付
  • Python进阶细节
  • Sublime Text 2/3 绑定Eclipse快捷键
  • tensorflow学习笔记3——MNIST应用篇
  • uva 10370 Above Average
  • 安卓应用性能调试和优化经验分享
  • 包装类对象
  • 闭包--闭包之tab栏切换(四)
  • 关于使用markdown的方法(引自CSDN教程)
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 前端自动化解决方案
  • 前嗅ForeSpider中数据浏览界面介绍
  • 让你成为前端,后端或全栈开发程序员的进阶指南,一门学到老的技术
  • 设计模式走一遍---观察者模式
  • 使用SAX解析XML
  • NLPIR智能语义技术让大数据挖掘更简单
  • # 20155222 2016-2017-2 《Java程序设计》第5周学习总结
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • (C语言)编写程序将一个4×4的数组进行顺时针旋转90度后输出。
  • (c语言版)滑动窗口 给定一个字符串,只包含字母和数字,按要求找出字符串中的最长(连续)子串的长度
  • (附源码)ssm考生评分系统 毕业设计 071114
  • (六)c52学习之旅-独立按键
  • (论文阅读40-45)图像描述1
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • (轉貼) VS2005 快捷键 (初級) (.NET) (Visual Studio)
  • .form文件_SSM框架文件上传篇
  • .NET Standard / dotnet-core / net472 —— .NET 究竟应该如何大小写?
  • .net 受管制代码
  • .NET企业级应用架构设计系列之结尾篇
  • .NET设计模式(2):单件模式(Singleton Pattern)
  • .Net中的集合
  • /bin/rm: 参数列表过长"的解决办法