Hello everyone, <div><br></div><div>We are facing a problem in our production system. A user's application is creating concurrently 12,000 files  (containing the solution) but for some reason one of the user's computational nodes gets evicted because of a timeout before the writing procedure is completed, thus the files are not properly written. </div>
<div><br></div><div>I try to debug this situation so I did the following ::</div><div><br></div><div><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><div>>> echo 1 > /proc/sys/lustre/dump_on_eviction</div>
<div>>> echo 1 > /proc/sys/lustre/dump_on_timeout</div><div><br></div></blockquote>And in the /proc/sys/lnet/debug file there is ::</div><div><br></div><blockquote style="margin:0 0 0 40px;border:none;padding:0px">
<div>ioctl neterror warning error emerg ha config console</div><div><br></div></blockquote>I would like to ask if there is any other flag I can enable that will help me debug this situation?<div><br></div><div>Thank you in advance for any reply,</div>
<div>Stelios.</div>