<div dir="ltr"><div>Hi,</div><div>Yes, I do see load on the client side, but as the client has 40gb NIC and the load comes from a 10gb WAN link I wouldn't expect it to overload the net.</div><div>I can correlate the messages with load higher than 6gb from the WAN. Far from the limit of the NIC. <br></div><div>The client has a latest generation Xeon processor so I wouldn't expect that to be the bottle neck either.</div><div><br></div><div>David<br></div><div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, Dec 23, 2019 at 5:09 PM Degremont, Aurelien <<a href="mailto:degremoa@amazon.com">degremoa@amazon.com</a>> wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">





<div lang="FR">
<div class="gmail-m_4935798778277602301WordSection1">
<p class="MsoNormal"><span lang="EN-US">Hi<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">These messages means the client thinks it has lost the communication with the server and reconnect. The server only sees the reconnection and never thought the client was gone.<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">It could be related to lots of things. The server could be receiving RPCs from this client but not processing them fast enough. Is there other errors on your server? Is there any high
 load?<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Same on your clients? Is there any high load that could prevent your client from communicating with your server properly?<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Do you correlate that with some specific load running on your clients?<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">Aurélien<u></u><u></u></span></p>
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<div style="border-color:rgb(181,196,223) currentcolor currentcolor;border-style:solid none none;border-width:1pt medium medium;padding:3pt 0cm 0cm">
<p class="MsoNormal" style="margin-left:35.4pt"><b><span style="font-size:12pt;color:black">De :
</span></b><span style="font-size:12pt;color:black">lustre-discuss <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.lustre.org</a>> au nom de David Cohen <<a href="mailto:cdavid@physics.technion.ac.il" target="_blank">cdavid@physics.technion.ac.il</a>><br>
<b>Date : </b>dimanche 22 décembre 2019 à 17:08<br>
<b>À : </b>"<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>" <<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.org</a>><br>
<b>Objet : </b>[lustre-discuss] frequent Connection lost, Connection restored to mdt<u></u><u></u></span></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
<div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">Hi,<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">We are running 2.10.5 on the servers and 2.10.8 on the clients.<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">Every few minutes, we see:<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">On client side:<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">Dec 22 15:26:34 gftp kernel: Lustre: 439834:0:(client.c:2116:ptlrpc_expire_one_request()) @@@ Request sent has timed out for slow reply: [sent 1577021187/real 1577021187]  req@ffff88160be9c6c0 x1653620348981536/t0(0)
 o36->lustre-MDT0000-mdc-ffff8817d9776c00@10.0.0.1@tcp:12/10 lens 608/4768 e 0 to 1 dl 1577021194 ref 2 fl Rpc:X/0/ffffffff rc 0/-1<br>
Dec 22 15:26:34 gftp kernel: Lustre: 439834:0:(client.c:2116:ptlrpc_expire_one_request()) Skipped 3 previous similar messages<br>
Dec 22 15:26:34 gftp kernel: Lustre: lustre-MDT0000-mdc-ffff8817d9776c00: Connection to lustre-MDT0000 (at 10.0.0.1@tcp) was lost; in progress operations using this service will wait for recovery to complete<br>
Dec 22 15:26:34 gftp kernel: Lustre: Skipped 3 previous similar messages<br>
Dec 22 15:26:34 gftp kernel: Lustre: lustre-MDT0000-mdc-ffff8817d9776c00: Connection restored to 10.0.0.1@tcp (at 192.114.101.153@tcp)<br>
Dec 22 15:26:34 gftp kernel: Lustre: Skipped 3 previous similar messages<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">On server side:<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt">Dec 22 15:26:34 oss03 kernel: Lustre: lustre-MDT0000: Client 38d6eef1-e146-be41-bab9-409b272d0d4f (at 10.0.0.10@tcp) reconnecting<br>
Dec 22 15:26:34 oss03 kernel: Lustre: lustre-MDT0000: Connection restored to ec2cdfce-353f-583a-c970-fde3f5d5189c (at 10.0.0.10@tcp)<u></u><u></u></p>
</div>
<div>
<p class="MsoNormal" style="margin-left:35.4pt"><u></u> <u></u></p>
</div>
</div>
</div>
</div>

</blockquote></div>