Hi Richard,<br><br>If the cause of the I/O errors is Lustre there will be some message in the logs. I am seeing similar problem with some applications that run on our cluster. The symptoms are always the same, just before application crashes with I/O error node gets evicted with a message like that:<br>
 LustreError: 167-0: This client was evicted by ddn_data-OST000f; in progress operations using this service will fail.<br><br>The OSS that mounts the OST from the above message has following line in the log:<br>LustreError: 0:0:(ldlm_lockd.c:305:waiting_locks_callback()) ### lock callback timer expired after 101s: evicting client at 10.143.5.9@tcp  ns: filter-ddn_data-OST000f_UUID lock: ffff81021a84ba00/0x744b1dd44<br>
81e38b2 lrc: 3/0,0 mode: PR/PR res: 34959884/0 rrc: 2 type: EXT [0->18446744073709551615] (req 0->18446744073709551615) flags: 0x20 remote: 0x1d34b900a905375d expref: 9 pid: 1506 timeout 8374258376<br><br>Can you please check your logs for similar messages?<br>
<br>Best regards<br><br>Wojciech<br><br><div class="gmail_quote">On 22 July 2010 23:43, Andreas Dilger <span dir="ltr"><<a href="mailto:andreas.dilger@oracle.com">andreas.dilger@oracle.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;">
<div class="im">On 2010-07-22, at 14:59, Richard Lefebvre wrote:<br>
> I have a problem with the Scalable molecular dynamics software NAMD. It<br>
> write restart files once in a while. But sometime the binary write<br>
> crashes. The when it crashes is not constant. The only constant thing is<br>
> it happens when it writes on our Lustre file system. When it write on<br>
> something else, it is fine. I can't seem find any errors in any of the<br>
> /var/log/messages. Anyone had any problems with NAMD?<br>
<br>
</div>Rarely has anyone complained about Lustre not providing error messages when there is a problem, so if there is nothing in /var/log/messages on either the client or the server then it is hard to know whether it is a Lustre problem or not...<br>

<br>
If possible, you could try running the application under strace (limited to the IO calls, or it would be much too much data) to see which system call the error is coming from.<br>
<br>
Cheers, Andreas<br>
<font color="#888888">--<br>
Andreas Dilger<br>
Lustre Technical Lead<br>
Oracle Corporation Canada Inc.<br>
</font><div><div></div><div class="h5"><br>
_______________________________________________<br>
Lustre-discuss mailing list<br>
<a href="mailto:Lustre-discuss@lists.lustre.org">Lustre-discuss@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-discuss" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-discuss</a><br>
</div></div></blockquote></div><br><br>
<div style="visibility: hidden; display: inline;" id="avg_ls_inline_popup"></div><style type="text/css">#avg_ls_inline_popup {  position:absolute;  z-index:9999;  padding: 0px 0px;  margin-left: 0px;  margin-top: 0px;  width: 240px;  overflow: hidden;  word-wrap: break-word;  color: black;  font-size: 10px;  text-align: left;  line-height: 13px;}</style>