It would be also a good idea if you capture your console as well as this would give us more details of what actually happened to oss4  <br><br><div class="gmail_quote">On 27 February 2012 18:57, Wojciech Turek <span dir="ltr"><<a href="mailto:wjt27@cam.ac.uk">wjt27@cam.ac.uk</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi Vijesh,<br><br>Most likely your oss4 crashed probably with kernel panic due to faulty local disk which I guess holds oss4's OS. This caused lack of communication between (heartbeat) openais nodes oss3-oss4 and triggered fencing and failover.  <br>

<br>Best regards,<br><br>Wojciech<br><br><div class="gmail_quote"><div><div></div><div class="h5">On 27 February 2012 06:40, VIJESH EK <span dir="ltr"><<a href="mailto:ekvijesh@gmail.com" target="_blank">ekvijesh@gmail.com</a>></span> wrote:<br>
</div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div></div><div class="h5">
<div><b><font color="#000066">Dear Sir,</font></b></div><div><b><font color="#000066"><br></font></b></div><div><font color="#000066"><b>We have a HPC setup with four OSS server(OSS1 to OSS4) and two MDS Nodes(MDS1 to MDS2)</b></font></div>


<div><font color="#000066"><b>It has been running till yesterday without any problem. Today morning i found that OSS4 is in </b></font></div><div><font color="#000066"><b>shutdown condition. I have verified the OSS3 logs and found that it has been got to fencing state</b></font></div>


<div><b style="color:rgb(0,0,102)">I have again switched on OSS4  now its running</b>
</div><div><font color="#000066"><b><br></b></font></div><div><font color="#000066"><b>In OSS4 logs i saw some  "unreadable" error as mentioned below</b></font></div><div><font color="#000066"><b><br></b></font></div>


<div><font color="#000066"><b><div>Feb 26 04:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div><div>Feb 26 04:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div>


<div>Feb 26 05:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div><div>Feb 26 05:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div><div>Feb 26 06:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div>


<div>Feb 26 06:54:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div><div>Feb 26 07:24:43 oss4 smartd[9306]: Device: /dev/sda, 2 Currently unreadable (pending) sectors </div><div><br></div>


<div>/dev/sda is a local hard disk. Is it possible the Node fencing is due to this error ? </div><div>While running the e2fsck will resolve this issue ?</div><div><br></div></b></font></div><div><font color="#000066"><b>Herewith i have attached the /var/log/messages of OSS3 and OSS4</b></font></div>


<div><font color="#000066"><b>can anybody please analyse the log file and kindly assist me what to do ? </b></font></div><div><font color="#000066"><b><br></b></font></div><div><font color="#000066"><b><br></b></font></div>


<div><font color="#000066"><b><br></b></font></div><div><b><font color="#000066">Thanks & Regards<br> <br></font></b></div><font color="#888888"><div><font face="verdana, sans-serif" color="#000066"><b>VIJESH</b></font></div>


</font><br></div></div>_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org" target="_blank">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
<br></blockquote></div>
</blockquote></div>