<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; line-break: after-white-space;" class="">Thanks a ton for this information, extremely helpful.<div class=""><br class=""><div class="">
<div style="color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div style="color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div style="color: rgb(0, 0, 0); letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class="">—<br class=""></div><div class=""><br class=""></div><div class="">Makia Minich<br class=""></div><div class="">Principal Architect<br class=""></div><div class="">System Fabric Works<br class="">"Fabric Computing that Works”<br class=""><br class="">Mobile: (865) 964-7939<br class="">Office: (303) 335-9684<br class=""><br class="">"Oh, I don't know. I think everything is just as it should be, y'know?”<br class="">- Frank Fairfield</div></div></div></div>
</div>
<div><br class=""><blockquote type="cite" class=""><div class="">On May 23, 2018, at 2:06 PM, Chris Horn <<a href="mailto:hornc@cray.com" class="">hornc@cray.com</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><div class="WordSection1" style="page: WordSection1; caret-color: rgb(0, 0, 0); font-family: Helvetica; font-size: 12px; font-style: normal; font-variant-caps: normal; font-weight: normal; letter-spacing: normal; text-align: start; text-indent: 0px; text-transform: none; white-space: normal; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration: none;"><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class="">Hello,<o:p class=""></o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class="">I agree as others have stated that we would not expect the loss of a router to significantly affect the I/O destined for filesystems served by other routers, nor would we expect the I/O destined for non-routed filesystems to be affected. However, I can say that we have seen bugs in this area in the past where the loss of a remote filesystem (the servers, not the routers serving that filesystem) did affect access to other filesystems. If I recall correctly the issue was that resources were being consumed on the routers in trying to communicate with the lost filesystem. That resource consumption caused I/O destined for other filesystems to get backed up. I’m not aware of any outstanding issues like this, and I’ll stress that that sort of behavior would certainly be considered a bug. So please let us know if you see any issues.<o:p class=""></o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class="">Regarding check_routers_before_use, this parameter affects how the LNet router checker behaves upon startup. The router checker on an LNet peer works by periodically sending an LNet ping to each known router. If a peer receives a response from the router within a timeout period then the router is considered alive, otherwise it is considered dead and routes hosted by that router are removed from the routing table (until it starts responding to the pings). By default, all routers are initially considered to be up (alive), and all routes are immediately eligible for sends. When check_routers_before_use is enabled (set to “1”) all routers are instead initially considered down (dead), and all routes must first respond to an LNet level ping before the route becomes eligible for sends.<o:p class=""></o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class="">The use of this parameter should not affect the scenarios you describe. Traffic destined for local networks is not affected by the up or down (alive or dead) states of routers.<o:p class=""></o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class="">Chris Horn<o:p class=""></o:p></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div><div style="border-style: solid none none; border-top-width: 1pt; border-top-color: rgb(181, 196, 223); padding: 3pt 0in 0in;" class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><b class=""><span style="font-size: 12pt;" class="">From:<span class="Apple-converted-space"> </span></span></b><span style="font-size: 12pt;" class="">lustre-discuss <<a href="mailto:lustre-discuss-bounces@lists.lustre.org" style="color: rgb(149, 79, 114); text-decoration: underline;" class="">lustre-discuss-bounces@lists.lustre.org</a>> on behalf of Makia Minich <<a href="mailto:makia@systemfabricworks.com" style="color: rgb(149, 79, 114); text-decoration: underline;" class="">makia@systemfabricworks.com</a>><br class=""><b class="">Date:<span class="Apple-converted-space"> </span></b>Wednesday, May 9, 2018 at 8:51 AM<br class=""><b class="">To:<span class="Apple-converted-space"> </span></b>"<a href="mailto:lustre-discuss@lists.lustre.org" style="color: rgb(149, 79, 114); text-decoration: underline;" class="">lustre-discuss@lists.lustre.org</a>" <<a href="mailto:lustre-discuss@lists.lustre.org" style="color: rgb(149, 79, 114); text-decoration: underline;" class="">lustre-discuss@lists.lustre.org</a>><br class=""><b class="">Subject:<span class="Apple-converted-space"> </span></b>[lustre-discuss] LNET Routing Question<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div></div><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><a name="_MailOriginalBody" class="">Hello all,<span class="Apple-converted-space"> </span><o:p class=""></o:p></a></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class="">I have an LNET routing question. I’ve attached a quick diagram of the current setup; but basically I have two core networks (one infiniband and one ethernet) with a set of LNET routers in between. There is storage and clients on both sides of these routers and all clients need to see all/most storage. All connections, configurations, etc are all working.<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class="">The question is, if an LNET router goes down (which does cause some amount of reconnect or remapping for any clients attempting to use those routes) would this cause any issues or delays for a client’s connection to non-routed storage? Put slightly different, if a job on the ethernet clients is actively using ethernet storage and the lnet routers go down, will job be affected? What about a new job just launching when that lnet router is down?<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class="">In addition, what does “check_routers_before_use” actually do and does it change the scenarios I mentioned? (e.g. If an ethernet client has “check_routers_before_use” would every file request start with a ping to the routers even if it’s not leaving it’s core network?)<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class="">Thanks!<o:p class=""></o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><o:p class=""> </o:p></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span id="cid:image001.png@01D3F2A7.A1E86AA0"><image001.png></span><o:p class=""></o:p></span></div><div class=""><div class=""><div class=""><div class=""><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span style="" class="">—<o:p class=""></o:p></span></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span style="" class=""><o:p class=""> </o:p></span></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span style="" class="">Makia Minich<o:p class=""></o:p></span></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span style="" class="">Principal Architect<o:p class=""></o:p></span></span></div></div><div class=""><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><span class=""><span style="" class="">System Fabric Works<br class="">"Fabric Computing that Works”<br class=""><br class="">"Oh, I don't know. I think everything is just as it should be, y'know?”<br class="">- Frank Fairfield<o:p class=""></o:p></span></span></div></div></div></div></div></div><span class=""></span><div style="margin: 0in 0in 0.0001pt; font-size: 11pt; font-family: Calibri, sans-serif;" class=""><o:p class=""> </o:p></div></div></div></div></blockquote></div><br class=""></div></body></html>