当前位置: 首页 > news >正文

解决接收不到组播包的问题

   目前用的集群是在应用层实现的,主要功能是实现在机器之间互转请求。今天在部署的时候,发现请求没有在节点之间互转,相同的请求发送一次后miss,第二次发送的时候还是miss。正常来说,第一次miss后会在集群内缓存一份,之后再有关于这个文件的请求不管发送到哪个机器都应该是hit的。
集群之间的探活用的是组播消息,出现这种问题肯定是因为接收组播报文出了问题。之前用的时候都没有问题,所以先从环境入手来查找问题。
先使用tcpdump抓包,看是否能够接收到组播报文。抓包的结果是,机器上接收到其他节点发送过来的组播报文。换了一台机器,结果也一样。现在是有数据包,下一步就是要找到数据包为什么被丢弃。之前遇到过一次是因为网关配置的不一致导致的。这次检查了几台机器,并且请运维的同事也帮忙看了一下,没有发现有啥问题。
接着在机器上安装了dropwatch,看看系统在哪些位置丢弃的数据包,结果如下图所示(这个图是在测试环境中重现问题后截的,结果是一样的):

从上图看来,比较靠谱的位置是在ip_rcv_finish()中丢包。ip_rcv_finish()中在查找路由缓存失败和数据包IP首部出错时才会丢包。数据包损坏的可能性不大,因此确定是在查找路由缓存失败丢的包。
后面使用"netstat -gn"命令来查看当前网卡上加入的组播组。用这个命令在机器上查看,发现加入的组播地址224.0.1.37绑定在eth0上,而本来要接收组播消息的fd绑定的IP地址是eth1上的地址。觉得应该是这里的问题。
在 《IP Multicast Extensions for 4.3BSD UNIX and related systems》上看到,如果在加入组播组时,本地接口地址imr_interface设置的是INADDR_ANY时,选择默认的组播接口,也就是让内核来选择。根据现在的情况来看,内核在选择的时候会选择默认网关使用的设备,我这里使用的就是eth0。如果指定的接口地址的话,就会使用地址所在的网络接口作为组播组使用的网络接口。
现在基本可以确定丢包的原因了。两个机器的eth0和eth1网卡上设置的IP地址是不同网段的,eth0是9段的IP地址,eth1是4段的IP地址。发送组播消息时,使用的是4段的IP地址,所以接收组播消息的机器上数据包由eth1网卡来接收,但是加入组播组的网卡是eth0,所以数据包到达eth1时会查找路由失败,在ip_rcv_finish()中会将数据包丢弃。
找到问题原因,立即修改代码。在加入组播组时,将imr_interface设置为指定的本地IP地址。重新编译,启动后,用“netstat -gn”发现现在组播地址所在的设备和绑定的接口相同,测试没有问题。
为了验证上面的结论,写了一个systemtap脚本,如下所示(比较丑陋,没有封装成函数,海涵):
%{
#include <linux/skbuff.h>
#include <linux/netdevice.h>
#include <linux/ip.h>
%}

global kaddr =0x250100e0
global iph
global daddrs, saddrs

function ip_rcv_finish_helper :long(arg :long) %{
struct sk_buff *skb = (typeof(skb))THIS - >arg;
const struct iphdr *iph = ip_hdr(skb);

THIS - >__retvalue = (long)iph;
return;
%}

probe kernel.statement( "ip_rcv@net/ipv4/ip_input.c+12") {

iph = ip_rcv_finish_helper($skb);
func = probefunc();

saddrs[func] = @cast(iph, "iphdr") - >saddr;
daddrs[func] = @cast(iph, "iphdr") - >daddr;

}

probe kernel.statement( "ip_rcv_finish@net/ipv4/ip_input.c+11") {

iph = ip_rcv_finish_helper($skb);
func = probefunc();

saddrs[func] = @cast(iph, "iphdr") - >saddr;
daddrs[func] = @cast(iph, "iphdr") - >daddr;

if ((daddrs[func] == kaddr) && $err) {
printf( "err = %d\n", $err);
}

}

probe kernel.statement( "ip_rcv_finish@net/ipv4/ip_input.c+35") {

if (daddrs[func] == kaddr) {
printf( "The result is unexpected\n");
exit();
}
}



probe kernel.function( "ip_rcv").return {

func = probefunc();

if (daddrs[func] == kaddr) {
printf( "Packet from 0x%X to 0x%X is droped in %s, return=%d\n",
saddrs[func], daddrs[func], func, $return);
}
}

probe kernel.function( "ip_rcv_finish").return {

func = probefunc();

if (daddrs[func] == kaddr) {
printf( "Packet from 0x%X to 0x%X is droped in %s, return=%d\n",
saddrs[func], daddrs[func], func, $return);
}
}
输出结果如下所示:

从上图可以看出来,ip_rcv()和ip_rcv_finish()的返回值都是1,即为NET_RX_DROP,表示要丢掉数据包。"ip_rcv_finish@net/ipv4/ip_input.c+35"这个probe点没有任何输出,也就是说获取路由缓存项失败。不过这个错误码比较意外是22,即EINVAL,看了ip_route_input()在获取组播报文的路由缓存项时确实是返回这个错误码。这个输出结果验证了前面的结论。

 

相关文章:

  • Java @Override报错
  • 简单的汉化ECLIPSE的办法 [转]
  • 两个神奇的SQL语句
  • OPC客户端设计
  • 委托、Lambda表达式、事件系列07,使用EventHandler委托
  • 推荐一款 chrome SSH 插件 - Secure Shell
  • AngularJS中有关Directive的汇总
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • 复合格式化 AppendFormat 字符
  • BZOJ 2337 XOR和路径(高斯消元)
  • Adas术语简称
  • extern c 谈
  • 转载 一堂价值39万元的课,把她看完,你一定会有所获!
  • 关于centos联网的问题
  • 第二章 Java内存区域与内存溢出异常
  • 实现windows 窗体的自己画,网上摘抄的,学习了
  • #Java异常处理
  • 《Javascript高级程序设计 (第三版)》第五章 引用类型
  • 【跃迁之路】【699天】程序员高效学习方法论探索系列(实验阶段456-2019.1.19)...
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • Apache的80端口被占用以及访问时报错403
  • django开发-定时任务的使用
  • echarts的各种常用效果展示
  • exif信息对照
  • javascript面向对象之创建对象
  • JavaScript异步流程控制的前世今生
  • Java的Interrupt与线程中断
  • java第三方包学习之lombok
  • k8s如何管理Pod
  • Linux Process Manage
  • Python连接Oracle
  • 从零搭建Koa2 Server
  • 读懂package.json -- 依赖管理
  • 理解IaaS, PaaS, SaaS等云模型 (Cloud Models)
  • 浏览器缓存机制分析
  • 前端之Sass/Scss实战笔记
  • d²y/dx²; 偏导数问题 请问f1 f2是什么意思
  • 阿里云API、SDK和CLI应用实践方案
  • 阿里云移动端播放器高级功能介绍
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • # 学号 2017-2018-20172309 《程序设计与数据结构》实验三报告
  • #Linux(权限管理)
  • #NOIP 2014# day.1 T2 联合权值
  • #QT项目实战(天气预报)
  • #我与Java虚拟机的故事#连载05:Java虚拟机的修炼之道
  • (a /b)*c的值
  • (八十八)VFL语言初步 - 实现布局
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (学习日记)2024.03.12:UCOSIII第十四节:时基列表
  • (一)python发送HTTP 请求的两种方式(get和post )
  • (转) RFS+AutoItLibrary测试web对话框
  • (转)c++ std::pair 与 std::make