<html><head></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div>Well, it sounds like an issue with your HA package configuration.  Likely one node is not being responsive enough to heartbeat/are-you-alive messages so the other node assumes it has died.  This is likely fixed by increasing the deadtime parameter in your HA configuration (try 180 seconds if it is smaller than that).  Hard to say, as you omitted any logs, and you didn't even say what HA package you are using.</div><div><br></div><div>You also didn't indicate which Lustre version you are using.  One of the likely candidates for those messages is the kernel having difficulty allocating memory.  On many kernels, if /proc/sys/vm/zone_reclaim_mode is not 0, memory allocations can take a long time as it keeps looking for the best pages to free until pages in the local NUMA node are available.   With the Lustre 1.8.x write cache, the memory pressure is substantial (in 1.6.x and earlier, the service threads had statically-allocated buffers, but starting with 1.8.x each incoming request allocates new pages and frees them back to the page cache).</div><div><br></div><div>Kevin</div><div><br></div><br><div><div>On Jan 22, 2012, at 11:33 PM, VIJESH EK wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div><span style="color:rgb(0,0,102);font-weight:bold">Hi,</span></div><div><font color="#000066" style="font-weight:bold"><br></font></div><div><font color="#000066" style="font-weight:bold"> I hope all of them are in good spirit....</font></div>

<div><font color="#000066" style="font-weight:bold"><br></font></div><div><font color="#000066"><b>We have a four OSS servers, OSS1 to OSS4 are clustered each other</b></font></div><div><font color="#000066"><b>The Nodes are clustered with OSS1 and OSS2 , OSS3 & OSS4.</b></font></div>

<div><font color="#000066"><b>It was configured six months back, from the beginning itself its creacting </b></font></div><div><font color="#000066"><b>an issue that one of  node is fencing the other node and its goes to the shutdown state.</b></font></div>

<div><font color="#000066"><b>This problem may be happen from two to three weeks timing period.</b></font></div><div><font color="#000066"><b>In the /var/log/messages showing some errors continuously that </b></font></div>
<div><font color="#000066"><b>" slow start_page_write 57s due to heavy IO load "</b></font></div><div><font color="#000066"><b>Can anybody can help me regarding this issue.....</b></font></div><div><font color="#000066"><b><br>
</b></font></div><div><font color="#000066" style="font-weight:bold"><br></font></div><div><font color="#000066" style="font-weight:bold">Thanks & Regards</font></div><div><strong><font color="#000066"> <br>
<font face="verdana,sans-serif">VIJESH E K</font></font></strong></div><div><font color="#000066" face="verdana, sans-serif"><b><br></b></font></div><br>
<span><ATT00001..txt></span></blockquote></div><br><br><br>
Confidentiality Notice: This e-mail message, its contents and any attachments to it are confidential to the intended recipient, and may contain information that is privileged and/or exempt from disclosure under applicable law. If you are not the intended recipient, please immediately notify the sender and destroy the original e-mail message and any attachments (and any copies that may have been made) from your system or otherwise. Any unauthorized use, copying, disclosure or distribution of this information is strictly prohibited.  Email addresses that end with a ?-c? identify the sender as a Fusion-io contractor. 
<br>
  ­­  </body></html>