<div dir="ltr">Hello,<div><br></div><div>After working with Lustre, I observed that my running code might encounter bus errors sometimes.</div><div>The details shown in <b>"sudo dmesg -T"</b> is as follows:</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">INFO: task python:29299 blocked for more than 120 seconds. </blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">     Tainted: P      OE        4.19.0-9-cloud-amd64 #1 Debian 4.19.118-2+deb10u1<br>"echo 0 > /proc/sys/kernel/hung_task_timeout_secs" distables this message.</blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"></blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">python          D         29299             14931                0x80000000<br>Call Trace:<br>? __schedule+0x2a2/0x870<br>? _cond_resched+0x15/0x30<br>schedule+0x28/0x80<br>rwsem_down_read_failed+0x111/0x180<br>call_rwsem_down_read_failed+0x14/0x30<br>down_read+0x1c/0x30<br>do_exit+0x22d/0xb90<br>? lprocfs_counter_add+0xd2/0x140 [obdclass]<br>do_group_exit+0x3a/0xa0<br>get_signal+0x36/0x610<br>? handle_mm_fault+0xd6/0x200<br>? up_read+0x1b/0x20<br>? __do_page_fault+0x26c/0x4f0<br>? page_fault+0x8/0x30<br>exit_to_usermode_loop+0x89/0xf0<br>prepare_exit_to_usermode+0x55/0x60<br>retint_user+0x8/0x8<br>RIP: 0033:0x7fa2612f73a0 <br>Code: Bad RIP value.</blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"><blockquote class="gmail_quote" style="margin:0px 0.8ex;border-left:1px solid rgb(204,204,204);border-right:1px solid rgb(204,204,204);padding-left:1ex;padding-right:1ex"></blockquote></blockquote><blockquote style="margin:0 0 0 40px;border:none;padding:0px"></blockquote><div><br></div><div>The details shown in Python faulthandler is as follows:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Fatal Python error: Bus error<br>RuntimeError: DataLoader worker (pid 4882) is killed by signal: Bus error. It is possible that dataloader's workers are out of shared memory. Please try to raise your shared memory limit.</blockquote><div><br></div><div>I'm not sure whether the cause of this error is related to the Lustre client, or whether it is related to memory issues. However, I read somewhere that storing executables on Lustre filesystem (in my case, Anaconda and Python executables) may lead to bus error.</div><div><br></div><div>For more information,</div><div>My Lustre server version is <b>2.10.8</b>, on CentOS 7.9 systems, kernel <b>3.10.0-957.1.3.el7_lustre.x86_64</b>.</div><div>My Lustre client version is <b>2.14.54</b>, on Debian 10 systems, kernel <b>4.19.0-9-cloud-amd64</b>.</div><div><br></div><div>May I have some confirmation on this issue? In addition, in case the cause of this error is related to the Lustre client, what should I do to solve this problem?</div><div>Thank you very much.</div></div>