Unfortunately, we've had lot's of reports of IB instability.  It does appear to happen <div>quite a bit, and generally is not a Lustre problem at all. </div><div>- Check all mechanical connections, cables, etc. - replace if need be - many issues have been cable-related.</div>
<div>- Check firmware versions of all IB cards, find the best version for yours. </div><div>- Make sure your IB cards are in the proper (best performing) slots in your backplane. </div><div>- If you have an IB switch with monitoring/error reporting you may be able to get more data. </div>
<div>cliffw</div><div><br><br><div class="gmail_quote">On Thu, Mar 17, 2011 at 10:54 AM, Kevin Hildebrand <span dir="ltr"><<a href="mailto:kevin@umd.edu">kevin@umd.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>
We've been seeing occasional hangs on our MDS and I'd like to see if<br>
anyone else is seeing this or can provide suggestions on where to look.<br>
This might not even be a Lustre problem at all.<br>
<br>
We're running Lustre 1.8.4 with OFED 1.5.2, and kernel version<br>
2.6.18-194.3.1.el5_lustre.1.8.4.<br>
<br>
The problem is that at some point it appears that something in the IB<br>
stack is going out to lunch- pings to the IPoIB interface time out, and<br>
anything that touches IB (perfquery, etc) goes into a hard hang and cannot<br>
be killed.<br>
<br>
The only solution to the problem once it occurs is to power-cycle the<br>
machine, as shutdown/reboot hang as well.<br>
<br>
>From what I can see, the first abnormal entries in the system logs on<br>
the MDS are messages showing that connections to the OSSes are timing out.<br>
<br>
Any insight would be appreciated.<br>
<br>
Thanks,<br>
<br>
Kevin<br>
_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
</blockquote></div><br><br clear="all"><br>-- <br>cliffw<div>Support Guy</div><div>WhamCloud, Inc. </div><div><a href="http://www.whamcloud.com" target="_blank">www.whamcloud.com</a></div><div><br></div><br>
</div>