<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii"><meta name=Generator content="Microsoft Word 14 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        margin-bottom:.0001pt;
        font-size:11.0pt;
        font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
        {mso-style-priority:99;
        color:purple;
        text-decoration:underline;}
span.EmailStyle17
        {mso-style-type:personal-compose;
        font-family:"Calibri","sans-serif";
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-family:"Calibri","sans-serif";}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple><div class=WordSection1><p class=MsoNormal>I have a lustre test environment. I’m currently testing network failover. Failover works fine on subnet 1. When I turn off subnet 1 on lustre servers. The clients can't <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>recover on to subnet 2.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Here is the configuration. All the servers and clients are on the same two subnets.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>I tried mounting the lustre files systems with this command, but the failover to network 2 still failed.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>mount -t lustre -o flock 10.244.1.120@tcp0:10.244.1.121@tcp0:10.244.2.120@tcp1:10.244.2.121@tcp1:/webfs /imatrix<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Any ideas?<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Ed<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Network<o:p></o:p></p><p class=MsoNormal>-----------<o:p></o:p></p><p class=MsoNormal>Subnet1 – 10.244.1.0\24<o:p></o:p></p><p class=MsoNormal>Subnet2 – 10.244.2.0\24<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Server1 – 10.244.1.120, 10.244.2.120<o:p></o:p></p><p class=MsoNormal>Server2 - 10.244.1.121, 10.244.2.121<o:p></o:p></p><p class=MsoNormal>Server3 - 10.244.1.100, 10.244.2.100<o:p></o:p></p><p class=MsoNormal>Client1 – 10.244.1.101, 10.244.2.101<o:p></o:p></p><p class=MsoNormal>Client2 – 10.244.1.102, 10.244.2.102<o:p></o:p></p><p class=MsoNormal>Client3 – 10.244.1.122, 10.244.2.122<o:p></o:p></p><p class=MsoNormal>Client4 – 10.244.1.123, 10.244.2.123<o:p></o:p></p><p class=MsoNormal>Client5 – 10.244.1.250, 10.244.2.250<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Lustre Configuration<o:p></o:p></p><p class=MsoNormal>-------------------------<o:p></o:p></p><p class=MsoNormal>Server1 – mgs  webmdt  webost1 mailost2<o:p></o:p></p><p class=MsoNormal>Server2 – mailmdt mailos1 webost2<o:p></o:p></p><p class=MsoNormal>Server3 – devmdt devost1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal># MGS Node on server1<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --failnode=10.244.1.121@tcp0 --writeconf /dev/mapper/lustremgs<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#MDT nodes on server1<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.121@tcp0 --writeconf /dev/mapper/webmdt<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#MDT nodes on server2<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.120@tcp0 --writeconf /dev/mapper/mailmdt<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#MDT nodes on server3<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --writeconf /dev/mapper/devmdt<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#OST nodes on server1<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.121@tcp0 --param="failover.mode=failout" --writeconf <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>/dev/mapper/webost1<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.121@tcp0 --param="failover.mode=failout" --writeconf <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>/dev/mapper/mailost2<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#OST nodes on server2<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.120@tcp0 --param="failover.mode=failout" --writeconf <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>/dev/mapper/webost2<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.120@tcp0 --param="failover.mode=failout" --writeconf <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>/dev/mapper/mailost1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#OST nodes on server3<o:p></o:p></p><p class=MsoNormal>tunefs.lustre --erase-param --mgsnode=10.244.1.120@tcp0 --mgsnode=10.244.1.121@tcp0 --failnode=10.244.1.121@tcp0 --param="failover.mode=failout" --writeconf <o:p></o:p></p><p class=MsoNormal><o:p></o:p></p><p class=MsoNormal>/dev/mapper/devost1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>LNET entry in modprobe.d/lustre.conf<o:p></o:p></p><p class=MsoNormal>Server1 - options lnet networks=tcp0(bond0),tcp1(bond1)<o:p></o:p></p><p class=MsoNormal>Server2 - options lnet networks=tcp0(bond0),tcp1(bond1)<o:p></o:p></p><p class=MsoNormal>Server3 – options lnet network= tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Five Clients<o:p></o:p></p><p class=MsoNormal>Client1 - options lnet networks=tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal>Client2 - options lnet networks=tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal>Client3 - options lnet networks=tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal>Client4 - options lnet networks=tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal>Client5 - options lnet networks=tcp0(eth0),tcp1(eth1)<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Mount Command<o:p></o:p></p><p class=MsoNormal>----------------------<o:p></o:p></p><p class=MsoNormal>#Mounts on server1<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/lustremgs /lustremgs<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/webmdt /webmst<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/webost1 /webost1<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/mailost2 /mailost2<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#Mounts on server2<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/webost2 /webost2<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/mailmdt /mailmst<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/mailost1 /mailost1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#Mounts on server3<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/devmdt /homemst<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o abort_recov /dev/mapper/devost1 /homeost1<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>#Client Mounts<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o flock 10.244.1.120@tcp0:10.244.1.121@tcp0:/webfs /imatrix<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o flock 10.244.1.120@tcp0:10.244.1.121@tcp0:/mailfs /var/qmail<o:p></o:p></p><p class=MsoNormal>mount -t lustre -o flock 10.244.1.120@tcp0:10.244.1.121@tcp0:/devfs /home<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p></div></body></html>