<div dir="ltr"><div><div>Hi,<br></div><div><br>-2 is ENOENT The requested file or directory does not exist<br></div>-11 is EAGAIN Try again <br></div>-95 is EOPNOTSUPP Operation not supported on transport endpoint <br><div>-116 is ESTALE Stale file handle<br><br></div><div>We've had this issue when we were running 2.5.3. Didn't seem to be giving us any problems so we've updated lustre/ptlrpc/client.c to something like this to suppress the error thrown (my syntax could be wrong):<br><br>        if ((rc < 0) && !(rc == -2)) {<br>                CERROR("ldlm_cli_enqueue: %d\n", rc);<br>                mdc_clear_replay_flag(req, rc);<br>                ptlrpc_req_finished(req);<br>                RETURN(rc);<br>        }<br><br></div><div>No longer an issue after switching to master.<br></div><div><br></div><div>Hope this helps.<br><br></div><div>Murshid.<br></div><div><br>
</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Sep 28, 2016 at 4:26 AM, K. Scott Rowe <span dir="ltr"><<a href="mailto:krowe@nrao.edu" target="_blank">krowe@nrao.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
We migrated from an MGS/MDS and OSSes running lustre-1.8.5 to a<br>
completely new MGS/MDS and OSSes running lustre-2.4.3 on Sep. 24,<br>
2016. We use a mix of lustre-1.8.9 and lustre-2.4.3 clients, both of<br>
which mount lustre with the following options<br>
"defaults,noauto,user_xattr,<wbr>flock".  Since the migration, we have seen<br>
various ldlm_enqueue and ldlm_cli_enqueue errors like the following...<br>
<br>
These are from our lustre-2.4.3 clients connected with InfiniBand<br>
<br>
  Sep 26 06:37:48 nmpost047 kernel: LustreError: 11-0: aoclst03-MDT0000-mdc-<wbr>ffff88101f7c7000: Communicating with 192.168.1.30@o2ib, operation ldlm_enqueue failed with -116.<br>
  Sep 26 06:37:48 nmpost047 kernel: LustreError: 38632:0:(mdc_locks.c:848:mdc_<wbr>enqueue()) ldlm_cli_enqueue: -116<br>
<br>
  Sep 26 08:46:58 nmpost060 kernel: LustreError: 11-0: aoclst03-MDT0000-mdc-<wbr>ffff8810622d5c00: Communicating with 192.168.1.30@o2ib, operation ldlm_enqueue failed with -95.<br>
  Sep 26 08:46:58 nmpost060 kernel: LustreError: 124585:0:(mdc_locks.c:848:mdc_<wbr>enqueue()) ldlm_cli_enqueue: -95<br>
<br>
  Sep 26 09:42:01 nmpost036 kernel: LustreError: 21189:0:(mdc_locks.c:848:mdc_<wbr>enqueue()) ldlm_cli_enqueue: -2<br>
<br>
  Sep 26 20:37:08 nmpost017 kernel: LustreError: 11-0: aoclst03-MDT0000-mdc-<wbr>ffff880804845000: Communicating with 192.168.1.30@o2ib, operation ldlm_enqueue failed with -11.<br>
<br>
<br>
These are from our lustre-1.8.9 clients connected with 1Gb and LNET<br>
routers<br>
<br>
  Sep 26 12:57:45 tofino kernel: LustreError: 11-0: an error occurred while communicating with 192.168.1.30@o2ib. The ldlm_enqueue operation failed with -11<br>
<br>
<br>
I saw a reference to some of these message is<br>
<a href="https://jira.hpdd.intel.com/browse/LU-4705" rel="noreferrer" target="_blank">https://jira.hpdd.intel.com/<wbr>browse/LU-4705</a> but it was not clear what<br>
the seriousness of the error are.  Can anyone tell me if these are<br>
errors we should worry about or are they more like warnings that<br>
should be ignored?  And if they should be ignored, is there a way to<br>
disable them?<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
</blockquote></div><br></div>