ITよろづや

ITの参考になる情報を備忘録代わりに残していきます

QLogic QL411XX Nicsを使用するESXi6ホストでネットワークの中断をランダム発生

QLogic QL411XX Nicsを使用するESXi6ホストでネットワークの中断をランダム発生する事象があるようです。この製品を搭載している場合は注意が必要です。

 

情報元はこちら。

 

QLogic QL411XX Nicsを使用するESXiホストは、ネットワークの中断をランダムに経験します(56457)

https://kb.vmware.com/s/article/56457?lang=en_US

 

これがドライバーの問題であるかどうかを判断するには、以下を実行/監視する必要があります。

 

●一定期間にわたってネットキューの追加/削除メッセージを関連付け、特定のネットキューで発生する高速ネットキューの追加/削除のパターンがあるかどうかを確認します。

●さらに、受信バッファがないためにパケットの破棄が発生する可能性があります。これらは、正しく動作していないネットキューにフィルタが適用されると増加します。影響を受ける可能性のあるNFS / vSANなどのエンティティからの障害メッセージは、問題のあるネットキューのインスタンス化が発生します。

 

 

特定のネットキューでネットキューの追加/削除が増加する場合があります。

 

2020-05-04T21:16:46.470Z cpu45:2097436)[qedentv_multictx_remove_rx_rule:1570(vmnic3)]Removing mac:00:50:56:6d:c7:ca, vlan_id:0x0, from fp:0, op:MAC_DEL, hw_fn:0
2020-05-04T21:16:46.470Z cpu45:2097436)[qedentv_multictx_set_rx_rule:1183(vmnic3)]Applying 00:50:56:6d:c7:ca filter, vlan_id:0xffff, fp_id:1, hw_fn:0.
2020-05-04T21:16:49.383Z cpu44:2100130 opID=d3945075)SunRPC: 3303: Synchronous RPC abort for client 0x43086a305f00 <snip>
2020-05-04T21:17:00.383Z cpu50:2100130 opID=d3945075)SunRPC: 3303: Synchronous RPC abort for client 0x43086a305f00 <snip>
2020-05-04T21:17:00.383Z cpu50:2100130 opID=d3945075)SunRPC: 1099: Destroying world 0x21a402
2020-05-04T21:17:00.384Z cpu50:2100130 opID=d3945075)StorageApdHandler: 1063: Freeing APD handle 0x43176c3dda90 [7e88e3b2-02533d8d]
2020-05-04T21:17:00.384Z cpu50:2100130 opID=d3945075)StorageApdHandler: 1147: APD Handle freed!
2020-05-04T21:17:11.384Z cpu46:2097436)[qedentv_multictx_remove_rx_rule:1570(vmnic3)]Removing mac:00:50:56:6d:c7:ca, vlan_id:0x0, from fp:1, op:MAC_DEL, hw_fn:0
2020-05-04T21:17:11.384Z cpu46:2097436)[qedentv_multictx_set_rx_rule:1183(vmnic3)]Applying 00:50:56:6d:c7:ca filter, vlan_id:0xffff, fp_id:0, hw_fn:0.

 

これにより、受信バッファがないためにパケットが破棄される可能性があります。この状態は、正しく動作していないネットキューにフィルターが適用されると増加します

 

~ # esxcli network nic stats get -n vmnic0

NIC statistics for vmnic0
...
Receive missed errors: 34871289
...

 

この問題のあるネットキュー状態は、ネットワークスタックを利用するすべてのサービス、つまりvSAN、VMotion、NFS、および仮想マシンネットワークに影響を与える可能性があります。この状態は、物理的なCPUのオーバーコミットメントに関連している可能性があります。

 

解決方法

 

これは、VMwareHCLの現在のドライバーバージョンの既知の問題です。この問題は、次のバージョンのドライバー

ESXi 6.0で解決されています:バージョン3.9.17.0(2018年4月10日)
ESXi 6.5:バージョン3.9.17.0(2018年4月10日)
ESXi 6.7:バージョン3.9.17.0(2018年4月10日)

このドライバでは、FWバージョン8.33.14.0を推奨します。

このドライバーはHCLにないため、HWベンダーにケースを開いて問題を確認し、該当する場合はドライバーを提供できるようにすることをお勧めします。

 

該当のバージョンを利用している場合は、バージョンアップが必要です。