<div dir="ltr"><div><div><div><span tabindex="0" class="" id=":3z0" title="Parinay Kondekar">Hi Parinay Kondekar,<br><br></span></div><span tabindex="0" class="" id=":3z0" title="Parinay Kondekar">Thanks for your reply.<br>

<br></span></div><span tabindex="0" class="" id=":3z0" title="Parinay Kondekar">I am new to lustre, please explain me how to gather the information.<br><br></span></div><span tabindex="0" class="" id=":3z0" title="Parinay Kondekar">Regards,<br>

</span><div class="gmail_extra"><br clear="all"><div><div dir="ltr"><div>Vijay Amirtharaj A</div></div></div>
<br><br><div class="gmail_quote">On Fri, Apr 11, 2014 at 2:55 PM, Parinay Kondekar <span dir="ltr"><<a href="mailto:parinay_kondekar@xyratex.com" target="_blank">parinay_kondekar@xyratex.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

<div dir="ltr"><div class=""><div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">Apr 11 04:31:19 node16 kernel: LustreError: 3185:0:(osc_request.c:1689:</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff8802d1826400 x1464726686245296/t0(0) o4->lustre-OST0002-osc-</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">ffff88106ab4dc00@192.168.1.46@</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">o2ib:6/4 lens 488/416 e 0 to 0 dl 1397170923 ref 2 fl Interpret:R/0/0 rc -5/-5</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br>


</span></div><div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br></span></div></div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">The ost_write operation failed with -5 . o4 = OST_WRITE</span><div>


<font face="arial, sans-serif"><br></font><div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px">The ost_read operation failed with -5 . o3 = OST_READ</span><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br>


</span></div><div><span style="font-family:arial,sans-serif;font-size:12.727272033691406px"><br></span></div><div><font face="arial, sans-serif"> #define>EIO>    >       >        5>     /* I/O error */</font><br>


</div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">IMO, check the n/w, esp between clients and OSS. </font></div><div><font face="arial, sans-serif">It would be good to know, whats happening on the servers.</font></div>


<div><br></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif">HTH</font></div><div><font face="arial, sans-serif"><br></font></div><div><br></div><div><font face="arial, sans-serif"><br>


</font></div><div><font face="arial, sans-serif"><br></font></div><div><font face="arial, sans-serif"><br></font></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote"><div><div class="h5">On 11 April 2014 14:12, Vijay Amirtharaj A <span dir="ltr"><<a href="mailto:vijayamirtharajit@gmail.com" target="_blank">vijayamirtharajit@gmail.com</a>></span> wrote:<br>


</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5"><div dir="ltr"><div>Hi,<br><br><br></div><div>We have 50 TB storage on lustre, we are using lustre 2.3.0-2.6.32_279.5.1.el6.x86_64.x86_64 OS: Centos 6.3<br>


<br></div><div>We have 31 compute nodes.<br><br></div><div>My issue is:<br>

<br></div><div>When we are restarting storage my jobs are running fine, that is writing with out any issue.<br><br>After some time, my jobs coming out with this error message:<br><br>/var/spool/torque/mom_priv/jobs/<a href="http://8321.taavare.tuecms.com.SC" target="_blank">8321.taavare.tuecms.com.SC</a>: line 10: : No such file or directory<br>




-bash: /lustre/home/bala/.bash_profile: Cannot send after transport endpoint shutdown<br>-bash: mpdallexit: command not found<br><br></div><div><div>Following lustre errors are repeating in computing nodes.<br></div><div>




<br>Apr 11 04:31:19 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.46@o2ib. The ost_write operation failed with -5<br>Apr 11 04:31:19 node16 kernel: LustreError: Skipped 1 previous similar message<br>




Apr 11 04:31:19 node16 kernel: LustreError: 3185:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff8802d1826400 x1464726686245296/t0(0) o4->lustre-OST0002-osc-ffff88106ab4dc00@192.168.1.46@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397170923 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 04:31:19 node16 kernel: LustreError: 3185:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 1 previous similar message<br>Apr 11 05:34:07 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.44@o2ib. The ost_write operation failed with -5<br>




Apr 11 05:34:07 node16 kernel: LustreError: Skipped 7 previous similar messages<br>Apr 11 05:34:07 node16 kernel: LustreError: 3193:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff88081a33b400 x1464726686360348/t0(0) o4->lustre-OST0004-osc-ffff88106ab4dc00@192.168.1.44@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397174691 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 05:34:07 node16 kernel: LustreError: 3193:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 6 previous similar messages<br>Apr 11 05:34:07 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.46@o2ib. The ost_write operation failed with -5<br>




Apr 11 05:34:07 node16 kernel: LustreError: Skipped 2 previous similar messages<br>Apr 11 05:34:07 node16 kernel: LustreError: 3199:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff880818b19800 x1464726686360319/t0(0) o4->lustre-OST0002-osc-ffff88106ab4dc00@192.168.1.46@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397174691 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 05:34:07 node16 kernel: LustreError: 3199:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 2 previous similar messages<br>Apr 11 05:54:13 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.44@o2ib. The ost_write operation failed with -5<br>




Apr 11 05:54:13 node16 kernel: LustreError: Skipped 5 previous similar messages<br>Apr 11 05:54:13 node16 kernel: LustreError: 3193:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff88081a33cc00 x1464726686397633/t0(0) o4->lustre-OST0004-osc-ffff88106ab4dc00@192.168.1.44@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397175897 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 05:54:13 node16 kernel: LustreError: 3193:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 5 previous similar messages<br>Apr 11 06:29:25 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.45@o2ib. The ost_write operation failed with -5<br>




Apr 11 06:29:25 node16 kernel: LustreError: 3192:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff88081a249400 x1464726686461600/t0(0) o4->lustre-OST0006-osc-ffff88106ab4dc00@192.168.1.45@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397177972 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 06:29:26 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.45@o2ib. The ost_write operation failed with -5<br>Apr 11 06:29:26 node16 kernel: LustreError: Skipped 4 previous similar messages<br>




Apr 11 06:29:26 node16 kernel: LustreError: 3184:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff8807814bac00 x1464726686461778/t0(0) o4->lustre-OST0006-osc-ffff88106ab4dc00@192.168.1.45@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397177973 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 06:29:26 node16 kernel: LustreError: 3184:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 4 previous similar messages<br>Apr 11 06:29:28 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.45@o2ib. The ost_write operation failed with -5<br>




Apr 11 06:29:28 node16 kernel: LustreError: Skipped 4 previous similar messages<br>Apr 11 06:29:28 node16 kernel: LustreError: 3192:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff88104a184c00 x1464726686461931/t0(0) o4->lustre-OST0006-osc-ffff88106ab4dc00@192.168.1.45@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397177975 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 06:29:28 node16 kernel: LustreError: 3192:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 4 previous similar messages<br>Apr 11 07:10:05 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.44@o2ib. The ost_write operation failed with -5<br>




Apr 11 07:10:05 node16 kernel: LustreError: Skipped 4 previous similar messages<br>Apr 11 07:10:05 node16 kernel: LustreError: 3185:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff88081a33c800 x1464726686536452/t0(0) o4->lustre-OST0004-osc-ffff88106ab4dc00@192.168.1.44@o2ib:6/4 lens 488/416 e 0 to 0 dl 1397180449 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 07:10:05 node16 kernel: LustreError: 3185:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 3 previous similar messages<br><br><br>Apr 11 08:34:31 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.45@o2ib. The ost_read operation failed with -5<br>




Apr 11 08:34:31 node16 kernel: LustreError: 3193:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff880bb45a4000 x1464726686700285/t0(0) o3->lustre-OST0006-osc-ffff88106ab4dc00@192.168.1.45@o2ib:6/4 lens 488/400 e 0 to 0 dl 1397185515 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 08:34:57 node16 kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.45@o2ib. The ost_read operation failed with -5<br>Apr 11 08:34:57 node16 kernel: LustreError: Skipped 17 previous similar messages<br>




Apr 11 08:34:57 node16 kernel: LustreError: 3196:0:(osc_request.c:1689:osc_brw_redo_request()) @@@ redo for recoverable error -5  req@ffff881052fe2800 x1464726686701760/t0(0) o3->lustre-OST0006-osc-ffff88106ab4dc00@192.168.1.45@o2ib:6/4 lens 488/400 e 0 to 0 dl 1397185541 ref 2 fl Interpret:R/0/0 rc -5/-5<br>




Apr 11 08:34:57 node16 kernel: LustreError: 3196:0:(osc_request.c:1689:osc_brw_redo_request()) Skipped 17 previous similar messages<br>Apr 11 08:37:35 node16 mpd: mpd ending mpdid=node16_50196 (inside cleanup)<br><br><br>




</div><div>Please help me to solve this issue.<br><br></div><div>Regards,<br></div><div>Vijay Amirtharaj A<span><font color="#888888"><br></font></span></div><span><font color="#888888"><div>
<br clear="all"><div><div dir="ltr"><div>Vijay Amirtharaj A</div></div></div>
</div></font></span></div></div>
<br></div></div>_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org" target="_blank">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
<br></blockquote></div><br></div></div>