<div dir="ltr">Hello all,<div><br></div><div>As is tradition, resident "off the beaten path" guy, Christian here! I've been trying to track down some odd eviction behavior and whilst conducting a network survey noticed an odd development: a steadily increasing number of drops reported by lnet stat's "drop_count" statistic exclusively on the machine serving as the MGS+MDS, far in excess of drops reported by /proc/net/dev or ifconfig. On the affected interfaces, interface drops accounted by the kernel's various tracking methods show <2k rx drops for about a week of uptime. Lustre's drop_count reports in excess of 60K drops, shown below:<br><br>statistics:<br>    msgs_alloc: 0<br>    msgs_max: 635<br>    rst_alloc: 20<br>    errors: 0<br>    send_count: 931455351<br>    resend_count: 0<br>    response_timeout_count: 0<br>    local_interrupt_count: 0<br>    local_dropped_count: 0<br>    local_aborted_count: 0<br>    local_no_route_count: 0<br>    local_timeout_count: 0<br>    local_error_count: 0<br>    remote_dropped_count: 29<br>    remote_error_count: 22<br>    remote_timeout_count: 0<br>    network_timeout_count: 0<br>    recv_count: 934393871<br>    route_count: 0<br>    drop_count: 66750<br>    send_length: 32635120259432<br>    recv_length: 43228611181641<br>    route_length: 0<br>    drop_length: 0<br><br>I've been trying to account for what exactly is contributing to that drop count, and logs have not been particularly helpful. Of note there are two messages I can identify, one that has the signature "Dropping ACK from ... to invalid MD", and another with the signature "Dropping PUT". Both messages seem to refer to consistent, but different, NIDS. However, both messages do not appear nearly enough to contribute to the 66K drops, as they appear only ~500 times in the debug logs I have available, which span days of utilization. <br><br>I'm wondering what events cause the drop_count reported by lnet to increment. I've trawled around the 2.14 codebase and I figured before I dove in too deep I'd inquire to the experts as to what this number means, and what expectations I should have. What sorts of events cause drop_count to increase? Is it normal to see it increase over time in an otherwise healthy cluster? Given that drop_length is 0 here but the count is high, what sorts of events am I likely experiencing here?<br><br>Cheers, and thanks as always for your time,<br>Christian</div></div>