<p>Steve, It might be the network that LNet is running on.  Have you run some bandwidth tests without LNet to check for network problems?</p>
<div class="gmail_quote">On Dec 11, 2016 3:37 PM, "Steve Barnet" <<a href="mailto:barnet@icecube.wisc.edu">barnet@icecube.wisc.edu</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi all,<br>
<br>
  Seeing something very strange. I recently added two OSSes<br>
and 10 OSTs to one of our filesystems. Things look OK under<br>
light loads, but when we load them up, we start seeing lots<br>
of LNet errors.<br>
<br>
OS: Scientific Linux 6.7<br>
Lustre - Server: 2.8.0 Community version<br>
Lustre - Client: 2.5.3<br>
<br>
The errors are below. Do these narrow the range of possible<br>
problems?<br>
<br>
<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LNetError: 7732:0:(socklnd_cb.c:2509:ksoc<wbr>knal_check_peer_timeouts()) Total 4 stale ZC_REQs for peer 10.128.10.29@tcp1 detected; the oldest(ffff880f6a90e000) timed out 7 secs ago, resid: 0, wmem: 0<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 7732:0:(events.c:447:server_bu<wbr>lk_callback()) event type 5, status -5, desc ffff8805379f8000<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 7732:0:(events.c:447:server_bu<wbr>lk_callback()) event type 5, status -5, desc ffff880f375dc000<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 8234:0:(ldlm_lib.c:3175:target<wbr>_bulk_io()) @@@ network error on bulk READ  req@ffff880e506263c0 x1551187318090340/t0(0) o3->092e941d-272a-09e3-502b-93<wbr>38dbf387d3@10.128.10.29@tcp1:<wbr>587/0 lens 488/432 e 3 to 0 dl 1481476687 ref 1 fl Interpret:/0/0 rc 0/0<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 8234:0:(ldlm_lib.c:3175:target<wbr>_bulk_io()) Skipped 1 previous similar message<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: Lustre: lfs2-OST0024: Bulk IO read error with 092e941d-272a-09e3-502b-9338db<wbr>f387d3 (at 10.128.10.29@tcp1), client will retry: rc -110<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 7732:0:(events.c:447:server_bu<wbr>lk_callback()) event type 5, status -5, desc ffff8804db0ce000<br>
Dec 11 11:17:39 lfs-ex-oss-20 kernel: LustreError: 7732:0:(events.c:447:server_bu<wbr>lk_callback()) event type 5, status -5, desc ffff880aa4374000<br>
<br>
<br>
Thanks much!<br>
<br>
Best,<br>
<br>
---Steve<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org" target="_blank">lustre-discuss@lists.lustre.or<wbr>g</a><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/listin<wbr>fo.cgi/lustre-discuss-lustre.<wbr>org</a><br>
</blockquote></div>