<div dir="ltr">In my experience, OFED tends to be unloaded prior to LNet tear down. This chops the feet out from LNet and LNet module won't cleanly unload, resulting in hang on reboot. The trick is to ensure that lustre is unmounted, then LNet is unloaded, then OFED modules are unloaded. Generally when shutting down in this order, your reboot should be clean. <div><br></div><div>You can verify this idea by checking your console log during the shutdown.</div><div><br></div><div>-cf</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Aug 10, 2017 at 7:51 AM, Christopher Johnston <span dir="ltr"><<a href="mailto:chjohnst@gmail.com" target="_blank">chjohnst@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">On my systems that use standard ethernet (im in the cloud), 2.9 reboots I have no issues I can see.  I did have issues with the lnet driver not being able to grab the port on boot-up so I backported the lnet systemd unit file from 2.10 to get around that.  </div><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">On Thu, Aug 10, 2017 at 9:44 AM, Ben Evans <span dir="ltr"><<a href="mailto:bevans@cray.com" target="_blank">bevans@cray.com</a>></span> wrote:<br></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">Are the Infiniband drivers disappearing first?  I know that used to be an<br>
issue.<br>
<br>
-Ben<br>
<br>
On 8/10/17, 8:59 AM, "lustre-discuss on behalf of Michael Di Domenico"<br>
<<a href="mailto:lustre-discuss-bounces@lists.lustre.org" target="_blank">lustre-discuss-bounces@lists.<wbr>lustre.org</a> on behalf of<br>
</div></div><div class="m_7764741578865205133HOEnZb"><div class="m_7764741578865205133h5"><div><div class="h5"><a href="mailto:mdidomenico4@gmail.com" target="_blank">mdidomenico4@gmail.com</a>> wrote:<br>
<br>
>does anyone else have issues with issue 'reboot' while having a lustre<br>
>mount?<br>
><br>
>we're running v2.9 clients on our workstations, but when a user goes<br>
>to reboot the machine (from the gui) the system stalls under systemd<br>
>while i presume it's attempting to unmount the filesystem.<br>
><br>
>what i see on the console is; systemd kicks in and starts unmounting<br>
>all the nfs shares we have, works fine.  but then it gets to lustre<br>
>and starts throwing connection errors on the console.  it's almost as<br>
>if systemd raced itself stopping lustre, whereby lnet got yanked out<br>
>from under the mount before the unmount actually finished.<br>
><br>
>after five minutes or so, it looks like systemd threw in the towel and<br>
>gave up trying to unmount, but the system is stuck still trying to<br>
>execute more shutdown tasks.<br>
><br>
>when we mount lustre on the workstations, i have a script that figures<br>
>some stuff out, issues a service lnet start, and then issues a mount<br>
>command.  this all works fine, but i'm not sure if that's why systemd<br>
>can't figure out what to do correctly.<br>
><br>
>and since this is during a shutdown phase, debugging this is<br>
>difficult.  any thoughts?<br>
>_____________________________<wbr>__________________<br>
>lustre-discuss mailing list<br>
><a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.o<wbr>rg</a><br></div></div>
><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.lustre.org_listinfo.cgi_lustre-2Ddiscuss-2Dlustre.org&d=DwMFaQ&c=IGDlg0lD0b-nebmJJ0Kp8A&r=x9pM59OqndbWw-lPPdr8w1Vud29EZigcxcNkz0uw5oQ&m=Gzks6KFhzHoz-saPEKrQSsQKMh_8dil_0_74sCECIlk&s=_Bb_hwIpGb8sVPVPxSlp1pkUO70bYXITUHEs0m5g26A&e=" rel="noreferrer" target="_blank">http://lists.lustre.org/listi<wbr>nfo.cgi/lustre-discuss-lustre.<wbr>org</a><span class=""><br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.or<wbr>g</a><br>
</span><a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.lustre.org_listinfo.cgi_lustre-2Ddiscuss-2Dlustre.org&d=DwMFaQ&c=IGDlg0lD0b-nebmJJ0Kp8A&r=x9pM59OqndbWw-lPPdr8w1Vud29EZigcxcNkz0uw5oQ&m=Gzks6KFhzHoz-saPEKrQSsQKMh_8dil_0_74sCECIlk&s=_Bb_hwIpGb8sVPVPxSlp1pkUO70bYXITUHEs0m5g26A&e=" rel="noreferrer" target="_blank">http://lists.lustre.org/listin<wbr>fo.cgi/lustre-discuss-lustre.<wbr>org</a><br>
</div></div></blockquote></div><br></div>
<br>______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><br>
<a href="https://urldefense.proofpoint.com/v2/url?u=http-3A__lists.lustre.org_listinfo.cgi_lustre-2Ddiscuss-2Dlustre.org&d=DwICAg&c=IGDlg0lD0b-nebmJJ0Kp8A&r=x9pM59OqndbWw-lPPdr8w1Vud29EZigcxcNkz0uw5oQ&m=Gzks6KFhzHoz-saPEKrQSsQKMh_8dil_0_74sCECIlk&s=_Bb_hwIpGb8sVPVPxSlp1pkUO70bYXITUHEs0m5g26A&e=" rel="noreferrer" target="_blank">https://urldefense.proofpoint.<wbr>com/v2/url?u=http-3A__lists.<wbr>lustre.org_listinfo.cgi_<wbr>lustre-2Ddiscuss-2Dlustre.org&<wbr>d=DwICAg&c=IGDlg0lD0b-<wbr>nebmJJ0Kp8A&r=x9pM59OqndbWw-<wbr>lPPdr8w1Vud29EZigcxcNkz0uw5oQ&<wbr>m=Gzks6KFhzHoz-saPEKrQSsQKMh_<wbr>8dil_0_74sCECIlk&s=_Bb_<wbr>hwIpGb8sVPVPxSlp1pkUO70bYXITUH<wbr>Es0m5g26A&e=</a><br>
<br></blockquote></div><br></div>