<html><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><br></div><div><br></div><div><div>Hi Andreas</div><div><br></div><div>My version of Lustre 1.8.3</div><div>Sorry for my bad English but I used the wrong word, "crash" is not the right word.</div><div>I try to explain better, I start copying a large file on the file system</div><div>and while the copy process continues, I reboot the server OSS,</div><div>and the copy process enters state "- stalled -".</div><div>I expected that once the server back online, the copy process to resume normal</div><div>and complete copy of the file, instead the copy process fault.</div><div>Therefore the copy process that goes wrong, Lustre continues to perform good.</div><div>The failure of the copy process is a timeout issue ?</div><div>How can I change the timeout ?</div><div><br></div><div>Thanks !!!</div></div><div><br></div><div><br></div><div>Cheers, Stefano</div><div><br></div><br><div apple-content-edited="true"> <div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div>Ing. Stefano Elmopi</div><div>Gruppo Darco - Resp. ICT Sistemi</div><div>Via Ostiense 131/L Corpo B, 00154 Roma</div><div><br></div><div>cell. 3466147165</div><div>tel.  0657060500</div><div>email:<a href="mailto:stefano.elmopi@sociale.it">stefano.elmopi@sociale.it</a></div><div><br></div><div>"Ai sensi e per effetti della legge sulla tutela  della  riservatezza personale<br>(D.lgs n. 196/2003),  questa @mail e' destinata  unicamente alle persone sopra<br>indicate e le informazioni in essa contenute sono da considerarsi strettamente<br>riservate. E' proibito leggere, copiare, usare o diffondere il contenuto della<br>presente @mail  senza  autorizzazione. Se avete ricevuto  questo messaggio per<br>errore, siete pregati di rispedire la stessa al mittente. Grazie"</div></div></div></span></div></span></div> </div><br><div><div>Il giorno 19/mag/10, alle ore 17:07, Andreas Dilger ha scritto:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div bgcolor="#FFFFFF"><div>More important is to include the crash message from the client and the version of Lustre you are using. <br><br>Cheers, Andreas</div><div><br>On 2010-05-19, at 6:34, Stefano Elmopi <<a href="mailto:stefano.elmopi@sociale.it">stefano.elmopi@sociale.it</a>> wrote:<br><br></div><div></div><blockquote type="cite"><div><div><br></div><div><br></div><div><div>Hi,</div><div><br></div><div>I have a small problem but it certainly is the fault of the little knowledge I have by the argument.</div><div>I have a Lustre file system with a node MGS/MDS, two nodes OSS and one Client.</div><div>I launch a copy of a large file on Lustre and while the copy goes on,</div><div>I restart the node OSS that is handling the writing on the File System.</div><div>The copy process is put in the state -stalled- and when the node OSS is back on,</div><div>I expected the copy process to resume normally, but instead crashes.</div><div>This is a log on the node MGS:</div><div><br></div><div>May 19 13:43:43 mdt01prdpom kernel: Lustre: 3827:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230433 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 17s ago has timed out (17s prior to deadline).</div><div>May 19 13:43:43 mdt01prdpom kernel:   req@ffff81012e11e400 x1336168048230433/t0 o400-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 192/384 e 0 to 1 dl 1274269423 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:43:43 mdt01prdpom kernel: Lustre: lustre01-OST0000-osc: Connection to service lustre01-OST0000 via nid 172.16.100.121@tcp was lost; in progress operations using this service will wait for recovery to complete.</div><div>May 19 13:44:09 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230435 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 26s ago has timed out (26s prior to deadline).</div><div>May 19 13:44:09 mdt01prdpom kernel:   req@ffff81012e5f2000 x1336168048230435/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269449 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:44:37 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 2s</div><div>May 19 13:44:37 mdt01prdpom kernel: LustreError: 3828:0:(lib-move.c:2441:LNetPut()) Error sending PUT to 12345-172.16.100.121@tcp: -113</div><div>May 19 13:44:37 mdt01prdpom kernel: LustreError: 3828:0:(events.c:66:request_out_callback()) @@@ type 4, status -113  req@ffff81012d3e5800 x1336168048230437/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269504 ref 2 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:44:37 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230437 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 0s ago has failed due to network error (27s prior to deadline).</div><div>May 19 13:44:37 mdt01prdpom kernel:   req@ffff81012d3e5800 x1336168048230437/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269504 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:45:33 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 3s</div><div>May 19 13:45:33 mdt01prdpom kernel: LustreError: 3828:0:(lib-move.c:2441:LNetPut()) Error sending PUT to 12345-172.16.100.121@tcp: -113</div><div>May 19 13:45:33 mdt01prdpom kernel: LustreError: 3828:0:(events.c:66:request_out_callback()) @@@ type 4, status -113  req@ffff81012e11e400 x1336168048230441/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269561 ref 2 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:45:33 mdt01prdpom kernel: Lustre: 3828:0:(client.c:1463:ptlrpc_expire_one_request()) @@@ Request x1336168048230441 sent from lustre01-OST0000-osc to NID 172.16.100.121@tcp 0s ago has failed due to network error (28s prior to deadline).</div><div>May 19 13:45:33 mdt01prdpom kernel:   req@ffff81012e11e400 x1336168048230441/t0 o8-><a href="mailto:lustre01-OST0000_UUID@172.16.100.121">lustre01-OST0000_UUID@172.16.100.121</a>@tcp:28/4 lens 368/584 e 0 to 1 dl 1274269561 ref 1 fl Rpc:N/0/0 rc 0/0</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: 3829:0:(import.c:517:import_select_connection()) lustre01-OST0000-osc: tried all connections, increasing latency to 4s</div><div>May 19 13:46:31 mdt01prdpom kernel: LustreError: 167-0: This client was evicted by lustre01-OST0000; in progress operations using this service will fail.</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: 4099:0:(quota_master.c:1716:mds_quota_recovery()) Only 0/2 OSTs are active, abort quota recovery</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: lustre01-OST0000-osc: Connection restored to service lustre01-OST0000 using nid 172.16.100.121@tcp.</div><div>May 19 13:46:31 mdt01prdpom kernel: Lustre: MDS lustre01-MDT0000: lustre01-OST0000_UUID now active, resetting orphans</div><div><br></div><div>is a timeout problem ??</div><div>How can I change the timeout ?</div><div><br></div><div>Thanks !!!</div></div><div><br></div><div><br></div><br><div apple-content-edited="true"> <div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: medium; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><span class="Apple-style-span" style="border-collapse: separate; color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant: normal; font-weight: normal; letter-spacing: normal; line-height: normal; orphans: 2; text-indent: 0px; text-transform: none; white-space: normal; widows: 2; word-spacing: 0px; -webkit-border-horizontal-spacing: 0px; -webkit-border-vertical-spacing: 0px; -webkit-text-decorations-in-effect: none; -webkit-text-size-adjust: auto; -webkit-text-stroke-width: 0px; "><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Ing. Stefano Elmopi</div><div>Gruppo Darco - Resp. ICT Sistemi</div><div>Via Ostiense 131/L Corpo B, 00154 Roma</div><div><br></div><div>cell. 3466147165</div><div>tel.  0657060500</div><div>email:<a href="mailto:stefano.elmopi@sociale.it"></a><a href="mailto:stefano.elmopi@sociale.it">stefano.elmopi@sociale.it</a></div><div><br></div><div>"Ai sensi e per effetti della legge sulla tutela  della  riservatezza personale<br>(D.lgs n. 196/2003),  questa @mail e' destinata  unicamente alle persone sopra<br>indicate e le informazioni in essa contenute sono da considerarsi strettamente<br>riservate. E' proibito leggere, copiare, usare o diffondere il contenuto della<br>presente @mail  senza  autorizzazione. Se avete ricevuto  questo messaggio per<br>errore, siete pregati di rispedire la stessa al mittente. Grazie"</div></span></div></span></div> </div><br></div></blockquote><blockquote type="cite"><div><span>_______________________________________________</span><br><span>Lustre-discuss mailing list</span><br><span><a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a></span><br><span><a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a></span><br></div></blockquote></div></blockquote></div><br></body></html>