<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <div class="moz-cite-prefix">On 07-12-2017 21:36, Dilger, Andreas
      wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:1A02FB47-774C-401B-84B5-083C5010A14B@intel.com">
      <pre wrap="">On Dec 7, 2017, at 10:37, Hans Henrik Happe <a class="moz-txt-link-rfc2396E" href="mailto:happe@nbi.dk"><happe@nbi.dk></a> wrote:
</pre>
      <blockquote type="cite">
        <pre wrap="">
Hi,

Can an application cause BAD CHECKSUM errors in Lustre logs by somehow
overwriting memory while being DMA'ed to network?

After upgrading to 2.10.1 on the server side we started seeing this from
a user's application (MPI I/O). Both 2.9.0 and 2.10.1 clients emit these
errors. We have not yet established weather the application is doing
things correctly.
</pre>
      </blockquote>
      <pre wrap="">
If applications are using mmap IO it is possible for the page to become inconsistent after the checksum has been computed.  However, mmap IO is
normally detected by the client and no message should be printed.

There isn't anything that the application needs to do, since the client will resend the data if there is a checksum error, but the resends do slow down the IO.  If the inconsistency is on the client, there is no cause for concern (though it would be good to figure out the root cause).

It would be interesting to see what the exact error message is, since that will say whether the data became inconsistent on the client, or over the network.  If the inconsistency is over the network or on the server, then that may point to hardware issues.
</pre>
    </blockquote>
    I've attached logs from a server and a client.<br>
    <br>
    Cheers,<br>
    Hans Henrik<br>
  </body>
</html>