Greg,<br><br>We are using CENT and 3ware raid adapters.    We had the MDS on Raid 0 (on accident) and changed it out for a raid 10 machine with 3ware card.  We did update the firmware on the 3ware cards and changed the stripe size down to 64k.   It was at 256.  After changing out the equipment the problem stopped.    I heard that some Western Digital drives might cause strange system locks.  Network cards are Intel Pro 1000's.    <br>

<br>I hope this helps you.<br><br><br><div class="gmail_quote">On Tue, May 18, 2010 at 4:10 AM, Gregory Matthews <span dir="ltr"><<a href="mailto:greg.matthews@diamond.ac.uk">greg.matthews@diamond.ac.uk</a>></span> wrote:<br>

<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div class="im">Gary Brooks wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
Then, all of the sudden the MDS stops responding, ssh sessions die and only hard restart helps. After the restart, /var/log/messages contains normal information (some timeout chit-chat).<br>
</blockquote>
<br></div>
is your hardware using the bnx2 NIC driver? We've just been seeing very similar issues on Lustre clients on brand new Dell Power Edge R610s. The workaround is to turn off MSI-X but there has recently been a fix merged into the mainline kernel which has also been backported by Red Hat.<div class="im">

<br>
<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
While this happens randomly, there is an almost sure way to trigger it: issue sysctl -w lnet.debug=0 on all clients and servers, after which the file system becomes super responsive, load on MDS is still low, our gig-e link is well utilized (unlike when lnet logging is enabled) and after a few minutes MDS dies as described above.<br>


</blockquote>
<br></div>
we have not been able to trigger it in any predictable fashion either.<br>
<br>
GREG<br>
<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div class="im">
<br>
I know that this is too little information to ask for help, but maybe you could at least tell me where to look for any information?<br>
<br></div>
Gary<br>
<br>
<br>
------------------------------------------------------------------------<br>
<br>
_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org" target="_blank">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
</blockquote>
<br>
<br>
-- <br>
Greg Matthews            01235 778658<br>
Senior Computer Systems Administrator<br>
Diamond Light Source, Oxfordshire, UK<br>
</blockquote></div><br>