<div dir="auto">ok, you are right, localflock might be a problem on parallel access, but at least our code is started to work after that.just for information  the thread from hdf is following:<div dir="auto"><a href="https://lists.hdfgroup.org/pipermail/hdf-forum_lists.hdfgroup.org/2016-May/009483.html">https://lists.hdfgroup.org/pipermail/hdf-forum_lists.hdfgroup.org/2016-May/009483.html</a><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">Am 16.02.2018 12:30 vorm. schrieb "Patrick Farrell" <<a href="mailto:paf@cray.com">paf@cray.com</a>>:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><br>
<br>
Localflock will only provide flock between threads on the same node.  I would describe it as “likely to result in data corruption unless used with extreme care”.<br>
<br>
Are you sure HDF only ever uses flocks between threads on the same node?  That seems extremely unlikely or maybe impossible for HDF.  You should definitely use flock, which gets flocks working across nodes, and is supported with all vaguely recent versions of Lustre.<br>
<br>
______________________________<wbr>__________<br>
From: lustre-discuss <<a href="mailto:lustre-discuss-bounces@lists.lustre.org">lustre-discuss-bounces@lists.<wbr>lustre.org</a>> on behalf of Arman Khalatyan <<a href="mailto:arm2arm@gmail.com">arm2arm@gmail.com</a>><br>
Sent: Thursday, February 15, 2018 5:19:14 PM<br>
To: E.S. Rosenberg<br>
Cc: Alexander I Kulyavtsev; Lustre discussion<br>
Subject: Re: [lustre-discuss] File locking errors.<br>
<br>
we had similar troubles with hdf1.10 vs hdf1.8.x. on the lustre<br>
the new hdf require flock support from the underlying filesystem( due to the security reasons or whatever more info on hdf you can digg in hdf forums)<br>
to fix the mounts you should unmount an mount again with the option localflock, this works for us, independent on lustre version.<br>
that what we did:<br>
<br>
<a href="https://arm2armcos.blogspot.de/2018/02/hdf5-v110-or-above-on-lustre-fs.html?m=1" rel="noreferrer" target="_blank">https://arm2armcos.blogspot.<wbr>de/2018/02/hdf5-v110-or-above-<wbr>on-lustre-fs.html?m=1</a><br>
<br>
<br>
<br>
<br>
Am 15.02.2018 11:18 nachm. schrieb "E.S. Rosenberg" <<a href="mailto:esr%2Blustre@mail.hebrew.edu">esr+lustre@mail.hebrew.edu</a><<wbr>mailto:<a href="mailto:esr%252Blustre@mail.hebrew.edu">esr%2Blustre@mail.<wbr>hebrew.edu</a>>>:<br>
<br>
<br>
On Fri, Feb 16, 2018 at 12:00 AM, Colin Faber <<a href="mailto:cfaber@gmail.com">cfaber@gmail.com</a><mailto:<a href="mailto:cfaber@gmail.com">cfabe<wbr>r@gmail.com</a>>> wrote:<br>
If the mount on the users clients had the various options enabled, and those aren't present in fstab, you'd end up with such behavior. Also 2.8? Can you upgrade to 2.10 LTS??<br>
Depending on when they installed their system that may not be such a 'small' change, our 2.8 is running on CentOS 6.8 so an upgrade to 2.10 requires us to also upgrade the OS from 6.x to 7.x and though I very much want to do that that is a more intensive process that so far I have not had the time for and I can imagine others have the same issue.<br>
Regards,<br>
Eli<br>
<br>
<br>
<br>
On Feb 15, 2018 1:06 PM, "Prentice Bisbal" <<a href="mailto:pbisbal@pppl.gov">pbisbal@pppl.gov</a><mailto:<a href="mailto:pbisbal@pppl.gov">pbisb<wbr>al@pppl.gov</a>>> wrote:<br>
<br>
No. Several others have asked me the same thing, so that seems like it might be the issue. The only problem with that solution is that the user claimed his program worked just fine up until a couple of weeks ago, so if that is the issue, I'll still be scratching my head trying to figure out how/what changed<br>
<br>
<br>
Prentice<br>
<br>
On 02/15/2018 12:31 PM, Alexander I Kulyavtsev wrote:<br>
Do you have flock option in fstab for lustre mount or in command you use to mount lustre on client?<br>
<br>
Search for flock on lustre wiki<br>
<a href="http://wiki.lustre.org/Mounting_a_Lustre_File_System_on_Client_Nodes" rel="noreferrer" target="_blank">http://wiki.lustre.org/<wbr>Mounting_a_Lustre_File_System_<wbr>on_Client_Nodes</a><br>
or lustre manual<br>
<a href="http://doc.lustre.org/lustre_manual.pdf" rel="noreferrer" target="_blank">http://doc.lustre.org/lustre_<wbr>manual.pdf</a><br>
<br>
Here are links where to start learning about lustre:<br>
* <a href="http://lustre.org/getting-started-with-lustre/" rel="noreferrer" target="_blank">http://lustre.org/getting-<wbr>started-with-lustre/</a><br>
* <a href="http://wiki.lustre.org" rel="noreferrer" target="_blank">http://wiki.lustre.org</a><br>
* <a href="https://wiki.hpdd.intel.com" rel="noreferrer" target="_blank">https://wiki.hpdd.intel.com</a><br>
* <a href="http://jira.hpdd.intel.com" rel="noreferrer" target="_blank">jira.hpdd.intel.com</a><<a href="http://jira.hpdd.intel.com" rel="noreferrer" target="_blank">http://<wbr>jira.hpdd.intel.com</a>><br>
* <a href="http://opensfs.org/lustre/" rel="noreferrer" target="_blank">http://opensfs.org/lustre/</a><br>
<br>
Alex.<br>
<br>
On Feb 15, 2018, at 11:02 AM, Prentice Bisbal <<a href="mailto:pbisbal@pppl.gov">pbisbal@pppl.gov</a><mailto:<a href="mailto:pbisbal@pppl.gov">pbisb<wbr>al@pppl.gov</a>>> wrote:<br>
<br>
Hi.<br>
<br>
I'm an experience HPC system admin, but I know almost nothing about Lustre administration. The system admin who administered our small Lustre filesystem recently retired, and no one has filled that gap yet. A user recently reported they are now getting file-locking errors from a program they've run repeatedly on Lustre in the past. When the run the same program on an NFS filesystem, the error goes away. I've cut-and-pasted the error messages below.<br>
<br>
Since I have real experience as a Lustre admin, I turned to google, and it looks like it might be that the file-locking daemon died (if Lustre has a separate file-lock daemon), or somehow file-locking was recently disabled. If that is possible, how do I check this, and restart or re-enable if necessary?  I skimmed the user manual, and could not find anything on either of these issues.<br>
<br>
Any and all help will be greatly appreciated.<br>
<br>
Some of the error messages:<br>
<br>
HDF5-DIAG: Error detected in HDF5 (1.10.0-patch1) MPI-process 9:<br>
  #000: H5F.c line 579 in H5Fopen(): unable to open file<br>
    major: File accessibilty<br>
    minor: Unable to open file<br>
  #001: H5Fint.c line 1168 in H5F_open(): unable to lock the file or initialize file structure<br>
    major: File accessibilty<br>
    minor: Unable to open file<br>
  #002: H5FD.c line 1821 in H5FD_lock(): driver lock request failed<br>
    major: Virtual File Layer<br>
    minor: Can't update object<br>
  #003: H5FDsec2.c line 939 in H5FD_sec2_lock(): unable to flock file, errno = 38, error message = 'Function not implemented'<br>
    major: File accessibilty<br>
    minor: Bad file ID accessed<br>
Error: couldn't open file HDF5-DIAG: Error detected in HDF5 (1.10.0-patch1) MPI-process 13:<br>
  #000: H5F.c line 579 in H5Fopen(): unable to open file<br>
    major: File accessibilty<br>
    minor: Unable to open file<br>
  #001: H5Fint.c line 1168 in H5F_open(): unable to lock the file or initialize file structure<br>
    major: File accessibilty<br>
    minor: Unable to open file<br>
  #002: H5FD.c line 1821 in H5FD_lock(): driver lock request failed<br>
    major: Virtual File Layer<br>
    minor: Can't update object<br>
  #003: H5FDsec2.c line 939 in H5FD_sec2_lock(): unable to flock file, errno = 38, error message = 'Function not implemented'<br>
    major: File accessibilty<br>
    minor: Bad file ID accessed<br>
<br>
--<br>
Prentice<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><mailto:<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@<wbr>lists.lustre.org</a>><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
<br>
<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><mailto:<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@<wbr>lists.lustre.org</a>><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><mailto:<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@<wbr>lists.lustre.org</a>><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
<br>
<br>
<br>
______________________________<wbr>_________________<br>
lustre-discuss mailing list<br>
<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@lists.lustre.<wbr>org</a><mailto:<a href="mailto:lustre-discuss@lists.lustre.org">lustre-discuss@<wbr>lists.lustre.org</a>><br>
<a href="http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org" rel="noreferrer" target="_blank">http://lists.lustre.org/<wbr>listinfo.cgi/lustre-discuss-<wbr>lustre.org</a><br>
<br>
</blockquote></div></div>