<div dir="ltr"><div><div><div>Lustre has multi-mount protection so there should be no risk for 
pacemaker trying to mount lustre on a secondary servicenode in case of 
failure of the primary node.<br>If lustre is still mounted on the primary the mount on the secondary will fail.<br><a href="http://doc.lustre.org/lustre_manual.xhtml#managingfailover">http://doc.lustre.org/lustre_manual.xhtml#managingfailover</a><br></div>I'm not sure about the current status of multi-mount protection on ZFS.<br>Normally lustre (ldiskfs) is managed by pacemaker, it is enough to mount/umount lustre on MGS/OSS - I have never done anything to lnet in case of failover, but let's wait for the confirmation of this from a developer.<br></div><div>I would not risk STONITH unless you have a well designed, redundant network setup for corosync and you really trust your pacemaker/corosync cluster.<br></div><div>You may end up in a situation when your lustre over infiniband works properly but the pacemaker cluster decides to fail - a real case here: <a href="https://bugzilla.redhat.com/show_bug.cgi?id=1114852">https://bugzilla.redhat.com/show_bug.cgi?id=1114852</a><br>There is a nice script that helps to get started <a href="https://github.com/gc3-uzh-ch/schroedinger-lustre-ha/blob/master/make-lustre-crm-config.py">https://github.com/gc3-uzh-ch/schroedinger-lustre-ha/blob/master/make-lustre-crm-config.py</a><br></div><br></div><div>Best regards,<br></div><div><br></div>Marcin<br></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jan 11, 2017 at 2:17 PM, Michael Di Domenico <span dir="ltr"><<a href="mailto:mdidomenico4@gmail.com" target="_blank">mdidomenico4@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On Tue, Jan 10, 2017 at 11:32 AM, Vicker, Darby (JSC-EG311)<br>
<<a href="mailto:darby.vicker-1@nasa.gov">darby.vicker-1@nasa.gov</a>> wrote:<br>
> One other thought comes to mind.  We are using the init.d scripts (i.e. /etc/init.d/{lustre,lnet} and /etc/ldev.conf.  We have lnet chkconfig’ed on so lnet is starting on boot on all servers.  But ‘lustre’ is chkconfig’ed off so that if a server reboots for whatever reason we don’t get into a situation where we multi-mount.  On a clean boot we have to manually mount the MDT/OST’s (i.e. do a “service lustre start”).  To do the failover we do the “/etc/init.d/lustre stop local” on the primary and “/etc/init.d/lustre start foreign” on the secondary to do the failover.  What is the right thing to do with lnet on failover?  Should it be stopped on the primary node before doing a failover to the secondary node?  This is the state of the pro<br>
<br>
I'm certainly no lustre expert, but i would suspect you want lnet to<br>
be stopped on the primary node if you failed over to the secondary.<br>
historically lustre is a STONITH based failover system.  therefore i<br>
would expect that if you "failed over" from one node to another the<br>
primary node is effectively powered off.  i can certainly believe that<br>
there's some code in lustre that checks lnet and if its up tries to do<br>
something.  which could be the source of the error messages you're<br>
seeing.<br>
<br>
but i'm not an expert, so i could be way off base.<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
</blockquote></div><br></div>