One other piece of information.  It seems like I have found a workaround by adding a cronjob that runs every 2mins and runs a df command.  Is there some caching issue that might be caused by lustre?<br><br>Thanks,<br>-J<br>
<br><div class="gmail_quote">On Sun, Aug 8, 2010 at 3:15 AM, Jagga Soorma <span dir="ltr"><<a href="mailto:jagga13@gmail.com">jagga13@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Hello,<br><br>I am experiencing some weird behavior on my lustre clients.  I have worked with Novell support and they keeping pointing to lustre as the culprit for these issues.  I am getting intermittent I/O errors when running df/ls on any nfs mounts without anything being logged in syslog.  After putting nfs and rpc in debug mode by running:<br>

<br>rpcdebug -m nfs -s all<br>rpcdebug -m rpc -s all<br><br>I now see the following errors in my logs:<br><br>..snip..<br>Aug  8 02:32:56 reshpc115 kernel: RPC:  2440 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>

Aug  8 02:32:56 reshpc115 kernel: nfs_statfs: statfs error = 5<br>Aug  8 02:32:59 reshpc115 kernel: RPC:  2441 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:32:59 reshpc115 kernel: nfs_statfs: statfs error = 5<br>

Aug  8 02:47:59 reshpc115 kernel: RPC:  2447 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:47:59 reshpc115 kernel: nfs_statfs: statfs error = 5<br>Aug  8 02:57:59 reshpc115 kernel: RPC:  2451 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>

Aug  8 02:57:59 reshpc115 kernel: nfs_statfs: statfs error = 5<br>Aug  8 02:58:00 reshpc115 kernel: RPC:  2452 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:58:00 reshpc115 kernel: nfs_statfs: statfs error = 5<br>

Aug  8 02:58:13 reshpc115 kernel: RPC:  2453 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:58:13 reshpc115 kernel: nfs_statfs: statfs error = 5<br>Aug  8 02:58:26 reshpc115 kernel: RPC:  2454 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>

Aug  8 02:58:26 reshpc115 kernel: nfs_statfs: statfs error = 5<br>Aug  8 02:58:30 reshpc115 kernel: RPC:  2455 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:58:30 reshpc115 kernel: nfs_statfs: statfs error = 5<br>

Aug  8 02:58:32 reshpc115 kernel: RPC:  2456 xprt_connect_status: error 99 connecting to server nas-rwc-is2<br>Aug  8 02:58:32 reshpc115 kernel: nfs_statfs: statfs error = 5<br>..snip..<br><br>I am using all supported packages/kernels for lustre and on servers without the lustre clients installed I have no issues with nfs.  Does the interval between these errors mean anything?  <br>

<br>Any help would be greatly appreciated.<br><br>Thanks,<br>-J<br><br>--<br>reshpc115:~ # uname -a<br>Linux reshpc115 2.6.27.29-0.1-default #1 SMP 2009-08-15 17:53:59 +0200 x86_64 x86_64 x86_64 GNU/Linux<br>reshpc115:~ # rpm -qa | grep -i lustre<br>

lustre-client-1.8.1.1-2.6.27.29_0.1_lustre.1.8.1.1_default<br>lustre-client-modules-1.8.1.1-2.6.27.29_0.1_lustre.1.8.1.1_default<br>reshpc115:~ # rpm -qa | grep -i kernel-ib<br>kernel-ib-1.4.2-2.6.27.29_0.1_default<br><font color="#888888">--<br>

<br>
</font></blockquote></div><br>