<div dir="ltr"><div><div><div><div><div><div>Hello, <br><br>this is my first post on this list, I hope someone can give me some advise on how to resolve the following issue.<br><br></div>I'm using the lustre release 2.4.0 RC2 compiled from whamcloud sources, this is an upgrade from lustre 2.2.22 from same sources.<br>
<br></div>The situation is:<br><br></div>There are several clients reading files that belongs mostly to the same OST, afther a period of time the clients starts loosing contact with this OST and processes stops due to this fault, here is the state for such OST on one client:<br>
<br><span style="font-family:courier new,monospace">client# lfs check servers<br>...<br>...<br>lustre-OST000a-osc-ffff8801bc548000: check error: Resource temporarily unavailable<br>...<br>...</span><br><br></div>checking dmesg on client and OSS server we have:<br>
<br></div><span style="font-family:courier new,monospace">client# dmesg<br>LustreError: 11-0: lustre-OST000a-osc-ffff8801bc548000: Communicating with 10.2.2.3@o2ib, operation ost_connect failed with -16.<br>LustreError: Skipped 24 previous similar messages<br>
<br></span></div><span style="font-family:courier new,monospace">OSS-server# dmesg<br>....<br>Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9 (at 10.2.64.4@o2ib) reconnecting<br>Lustre: lustre-OST000a: Client 0afb2e4c-d870-47ef-c16f-4d2bce6dabf9 (at 10.2.64.4@o2ib) refused reconnection, still busy with 9 active RPCs<br>
</span><div><div><div><div><span style="font-family:courier new,monospace">....</span><br><br></div><div>At this moment I can ping from client to server and vice versa, but some time this call also hangs on server and client.<br>
<br></div><div><span style="font-family:courier new,monospace">client# # lctl ping OSS-server@o2ib<br>12345-0@lo<br>12345-OSS-server@o2ib<br></span></div><div><div><div><span style="font-family:courier new,monospace"><br>
</span></div><div><span style="font-family:courier new,monospace">OSS-server# lctl ping 10.2.64.4@o2ib<br></span></div><div><div><span style="font-family:courier new,monospace">12345-0@lo<br>12345-10.2.64.4@o2ib</span><br>
<br></div><div>This situation happens very frequently and specially with jobs that process a lot of files in an average size of 100MB.<br><br></div><div>The only solution that  I find to reestablish the communication between the server and the client is restarting both machines.<br>
<br></div><div>I hope some have an idea what is the reason for the problem and how can I reset the communication with the clients without restarting the machines.<br><br></div><div>thank you,<br><br></div><div>Eduardo<br>
</div><div><div>UNAM@Mexico<br></div><div><br>-- <br><font color="#888888"><span style="font-family:courier new,monospace">Eduardo Murrieta</span><br style="font-family:courier new,monospace"><span style="font-family:courier new,monospace">Unidad de Cómputo</span><br style="font-family:courier new,monospace">
</font><font style="font-family:courier new,monospace" color="#888888">Instituto de Ciencias Nucleares, UNAM<br>Ph. +52-55-5622-4739 ext. 5103</font><br style="font-family:courier new,monospace"><font color="#888888">
<br></font>
</div></div></div></div></div></div></div></div></div>