<div dir="ltr"><div><div><div>What is the normal amount of time I should expect <br>e2fsck --mdsdb<br></div>to be running (1T MDT)?<br></div><div>(So far it's running quite a few hours)<br></div>Thanks,<br></div>Eli</div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Aug 11, 2016 at 12:42 PM, E.S. Rosenberg <span dir="ltr"><<a href="mailto:esr+lustre@mail.hebrew.edu" target="_blank">esr+lustre@mail.hebrew.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div><div><div><div><div><div><div><div><div><div><div><div>Hi all,<br></div>Our MDT suffered a kernel panic (which I will post separately), the OSSs stayed alive but the MDT was out for some time while nodes still tried to interact with lustre.<br><br></div>So I have several questions:<br></div>a. what happens to processes/reading writing during such an event (if they already have handles on the OSS for instance that makes a difference)? I noticed several of our compute-nodes ended up filling their swap/RAM so I assume some level of caching is happening until the MDT returns....<br><br></div>b. what is the best/proper procedure now to ensure filesystem integrity?<br></div>Should I take the filesystem offline and run an lfsck first on the MDT then on the OSS?<br><br></div>Most documents I can find with google on the subject are spread over the various old wikis so it is not clear to me how relevant they are....<br></div>Thanks,<br></div>Eli <br><br></div>Specs:<br></div>Server OS: CentOS 6.4 + lustre 2.5.3 from RPMs (1 MGS/MDS + 3 OSS)<br></div>Clients: Debian testing/unstable, kernel 4.2.8 + lustre 2.8.0 built from source.<br></div>Network: Infiniband FDR (o2ib)<br></div>
</blockquote></div><br></div>