<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><br></div><div><br></div><div><div>Hi,</div><div><br></div><div>I have a small problem but it certainly is the fault of the little knowledge I have by the argument.</div><div>I have a Lustre file system with a node MGS/MDS, two nodes OSS and one Client.</div><div>I launch a copy of a large file on Lustre and while the copy goes on,</div><div>I restart the node OSS that is handling the writing on the File System.</div><div>The copy process is put in the state -stalled- and when the node OSS is back on,</div><div>I expected the copy process to resume normally, but instead crashes.</div><div>This is a log on the node MGS:</div><div><br></div><div>May 19 13:43:43 mdt01prdpom kernel: Lustre: 3827:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230433 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 17s ago has timed out (17s prior to deadline).</div><div>May 19 13:43:43 mdt01prdpom kernel:   req@ffff81012e11e400 x1336168048230433/t0 o400-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 192/384 e 0 to 1 dl 1274269423 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:43:43 mdt01prdpom kernel: Lustre: lustre01-OST0000-osc: Connection to service lustre01-OST0000 via nid 172.16.100.121@tcp was lost; in progress operations using this service will wait for recovery to complete.</div><div>May 19 13:44:09 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230435 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 26s ago has timed out (26s prior to deadline).</div><div>May 19 13:44:09 mdt01prdpom kernel:   req@ffff81012e5f2000 x1336168048230435/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269449 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:44:37 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 2s</div><div>May 19 13:44:37 mdt01prdpom kernel: LustreError: 3828:0:(lib-move.c:2441:LNetPut()) Error sending PUT to 12345-172.16.100.121@tcp: -113</div><div>May 19 13:44:37 mdt01prdpom kernel: LustreError: 3828:0:(events.c:66:request_out_callback()) @@@ type 4, status -113  req@ffff81012d3e5800 x1336168048230437/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269504 ref 2 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:44:37 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230437 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 0s ago has failed due to network error (27s prior to deadline).</div><div>May 19 13:44:37 mdt01prdpom kernel:   req@ffff81012d3e5800 x1336168048230437/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269504 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:45:33 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 3s</div><div>May 19 13:45:33 mdt01prdpom kernel: LustreError: 3828:0:(lib-move.c:2441:LNetPut()) Error sending PUT to 12345-172.16.100.121@tcp: -113</div><div>May 19 13:45:33 mdt01prdpom kernel: LustreError: 3828:0:(events.c:66:request_out_callback()) @@@ type 4, status -113  req@ffff81012e11e400 x1336168048230441/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269561 ref 2 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:45:33 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230441 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 0s ago has failed due to network error (28s prior to deadline).</div><div>May 19 13:45:33 mdt01prdpom kernel:   req@ffff81012e11e400 x1336168048230441/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269561 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 4s</div><div>May 19 13:46:31 mdt01prdpom kernel: LustreError: 167-0: This client was evicted by lustre01-OST0000; in progress operations using this service will fail.</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: 4099:0:(quota_master.c:1716:mds_quota_recovery()) Only 0/2 OSTs are active, abort quota recovery</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: lustre01-OST0000-osc: Connection restored to service lustre01-OST0000 using nid 172.16.100.121@tcp.</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: MDS lustre01-MDT0000: lustre01-OST0000_UUID now active, resetting orphans</div><div><br></div><div>is a timeout problem ??</div><div>How can I change the timeout ?</div><div><br></div><div>Thanks !!!</div></div><div><br></div><div><br></div><br><div apple-content-edited="true"> <div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>Ing. Stefano Elmopi</div><div>Gruppo Darco - Resp. ICT Sistemi</div><div>Via Ostiense 131/L Corpo B, 00154 Roma</div><div><br></div><div>cell. 3466147165</div><div>tel.  0657060500</div><div>email:<a href="mailto:stefano.elmopi@sociale.it">stefano.elmopi@sociale.it</a></div><div><br></div><div>"Ai sensi e per effetti della legge sulla tutela  della  riservatezza personale<br>(D.lgs n. 196/2003),  questa @mail e' destinata  unicamente alle persone sopra<br>indicate e le informazioni in essa contenute sono da considerarsi strettamente<br>riservate. E' proibito leggere, copiare, usare o diffondere il contenuto della<br>presente @mail  senza  autorizzazione. Se avete ricevuto  questo messaggio per<br>errore, siete pregati di rispedire la stessa al mittente. Grazie"</div></div></div></span></div></span></div> </div><br></body></html>