885108925
042-41254199
导航

记一次GP集群服务器100多个僵尸历程的故障分析‘yobo体育网页版’

发布日期:2022-04-13 07:43

本文摘要:导读今天分享一个故障分析的案例。一次寻常的GP集群服务器测试,却引发了100多个僵尸历程!别慌,掌数工程师带你追根溯源,深度解读整个故障分析全历程。 01悲剧泛起,发生了什么?2020年7月中旬某日晚间:某大型银行焦点审计系统GP数据库集群(以下称:某集群)的所有服务器(含新扩容的服务器)均告警提示发现100多个僵尸历程!而此时,正处于某集群停机做数据字典检查的期间。僵尸历程的泛起,是在数据库停止后,举行IO和网络性能测试操作之时。

yobo体育网页版

导读今天分享一个故障分析的案例。一次寻常的GP集群服务器测试,却引发了100多个僵尸历程!别慌,掌数工程师带你追根溯源,深度解读整个故障分析全历程。

01悲剧泛起,发生了什么?2020年7月中旬某日晚间:某大型银行焦点审计系统GP数据库集群(以下称:某集群)的所有服务器(含新扩容的服务器)均告警提示发现100多个僵尸历程!而此时,正处于某集群停机做数据字典检查的期间。僵尸历程的泛起,是在数据库停止后,举行IO和网络性能测试操作之时。发现僵尸历程告警之后,登录所有服务器检查,所有僵尸历程消失。02剧情重现!问题是如何发生的?由于发现僵尸历程告警时,正在对某集群的所有服务器(含需要扩容的12台新服务器)举行IO和网络的性能测试。

因此,原因分析历程就从IO和网络性能测试开始分析。IO和网络性能测试是使用gpcheckperf工具。

在2020年7月下旬晚上某集群正式扩容前抽出时间举行gpcheckperf测试验证,而且实时监控僵尸历程的情况。开始测试前,首先设置设备维护期。使用gpcheckperf举行IO读写性能测试,并没有监控到僵尸历程,测试下令:gpcheckperf -f all_segs -r ds -D -d /data1 -d /data2使用gpcheckperf举行矩阵式网络性能测试,监控到僵尸历程,而且僵尸历程数量与7月20日当晚告警内容相符。

测试下令:gpcheckperf -f all_hosts -r M--duartion=3m -d /tmp矩阵式网络性能测试约连续3分钟,当各台服务器的启动top监控zombie数量时发现:从测试中间开始,各台服务器逐渐开始泛起僵尸历程,segment服务器僵尸历程最高时到达144,master服务器僵尸历程最高时凌驾1000。gpcheckperf测试完成后所有僵尸历程消失。ps 下令监控<defunct>历程的情况,segment服务器上的僵尸历程名为gpnetbenchServe:3177632026 [gpnetbenchServe] <defunct> 19:08:23 00:00:00;master服务器上除了gpnetbenchServe以外,另有大量的ssh僵尸历程:6733 6526 [ssh] <defunct>19:07:05 00:00:00综上,可以确定僵尸历程是由于gpcheckperf工具做矩阵式网络测试时发生,网络测试完成后消失。

03追根溯源,基础原因究竟是什么?1. 矩阵式网络测试的原理所测试的每一台服务器都作为TCPServer,每一台服务器同时作为Client,向所有其他服务器发包。最终形成一个收发测试网络,从而到达整个网络高压测试的目的。

随着所测试的服务器越多,其网络测试压力越大,所发生的网络毗连越多。本次测试的服务器规模很大,同时测试12台,是较多僵尸历程的原因之一。

如果小规模的测试,僵尸历程的数量纷歧定能到达告警的规模。2. gpcheckperf工具的原理测试提倡方也就是master服务器(执行下令的服务器),其首先需要通过ssh向各个服务器提倡启动网络测试的Server和Client。由于本次测试涉及12台服务器的矩阵式测试,master会提倡12*12=144个ssh下令。启动矩阵式的网络测试之后,每台服务器上都应该有12个client历程,以及1个Server历程。

矩阵式网络发包会连续3分钟。而各对C/S的发包历程启动和竣事时间是差别的。因此有些历程会较早竣事,有些历程会较晚竣事。而由于gpcheckperf对于较早竣事的子历程并没有举行实时接纳,就会泛起子历程自己竣事和主历程退出之前处于defunct状态。

master服务器上之所以僵尸历程会更多,是因为master是下令提倡者,需要通过ssh历程去启动各个服务器的子历程。其某个子历程的网络发包测试竣事后,ssh的操作历程自己也会短时间处于defunct状态。04值得借鉴!总结2条靠谱的实施履历gpcheckperf做服务器的硬件性能测试,是通例的测试工具。

在新系统部署,新设备安装部署期间都市经常使用该工具举行测试。1. 对于已投产的设备,如果对其硬件状况发生怀疑的情况下,也需要用该工具举行测试验证。

2. 对于已投产纳管的服务器,以后在需要做gpcheckperf测试之前,建议都先把系统置为维护期。必须在维护期中方可举行测试。


本文关键词:记,一次,集群,服务器,100,多个,僵尸,历程,的,yobo体育网页版

本文来源:yobo体育网页版-www.sjzjbby.com