掉坑

凌晨2点接到客户电话,说是生产停线,所有的设备断网。当时就懵逼,因为刚刚在客户环境中有操作,但是完全不涉及到网络,只是关于虚拟化环境的。现在发现客户端设备都拿不到IP地址,判断可能是DHCP服务器(一台虚拟机)问题,但是DHCP服务器可登陆,服务运行也正常,地址池地址剩余很多。于是判断问题出在网络,要不就是核心交换机没有把DHCP请求转发到DHCP服务器。

开始联络网络工程师查网络(网络工程师运气好一点,早上六点才被我们叫起来)。耗掉几个小时,没有什么结果,临到撑不住要去吃点东西,稍微休整下的时候。网络工程师突然问我,DHCP服务器这台虚拟机有没有移动过,我说昨天迁移到另外主机上了啊。对方恍然大悟,说是原来为了防止网内有非法的DHCP服务器接入,在网内设定了DHCP虚拟机连接的网络上设定了DHCP Snooping trust。由于没有考虑到DHCP是一台虚拟机,会经常迁移,所以设定的时候只把1台主机的网络端口做了该设定,当DHCP服务器迁移到其他主机的时候,由于通信的网络端口没有设定DHCP Snooping trust,所有DHCP相关的数据包全部被抛弃了。DHCP服务器肯定没法正常工作。

1)单台物理主机上联端口设定DHCP Snooping trust

p_w_picpath

2)虚拟机迁移到另外的主机,上联端口没有DHCP Snooping trust,DHCP包屏蔽

p_w_picpath

3)所有主机的上联端口设置为DHCP Snooping trust,DHCP虚拟机无论迁移到何处都可以正常工作

p_w_picpath

掉坑感想

1)服务器由传统的物理主机模式变更到虚拟机化/云模式,业务服务器更加弹性和灵活,网络的边界也随之进行变化,网络构建如何更加弹性是一个需要急需解决的问题。

2)服务器和网络的边界更加模糊,IT技术人员的知识更新需要快速更新,更延伸一点考虑,IT部门的职位设定是不是也需要调整?