<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body dir="auto">
You don't mention which Lustre release you are using, but newer
<div>releases allow "complex JobIDs" that can contain both the SLURMJobID</div>
<div>as well as other constant strings (e.g. cluster name), hostname, UID, GID, and process name. </div>
<div><br>
</div>
<div>This is documented in the Lustre manual at:</div>
<div><a href="http://doc.lustre.org/lustre_manual.xhtml#dbdoclet.jobstats">http://doc.lustre.org/lustre_manual.xhtml#dbdoclet.jobstats</a></div>
<div><br>
<div dir="ltr">Cheers, Andreas</div>
<div dir="ltr"><br>
<blockquote type="cite">On Feb 14, 2020, at 19:13, Andrew Elwell <andrew.elwell@gmail.com> wrote:<br>
<br>
</blockquote>
</div>
<blockquote type="cite">
<div dir="ltr"><span>Hi folks,</span><br>
<span></span><br>
<span>I've finally got round to enabling jobstats on a test system. As we're</span><br>
<span>a Slurm shop, setting this to jobid_var=SLURM_JOB_ID works OK, but is</span><br>
<span>it possible to use a combination of variables?</span><br>
<span>ie ${PAWSEY_CLUSTER}-${SLURM_JOB_ID} (or even SLURM_CLUSTER_NAME which</span><br>
<span>is the same as $PAWSEY_CLUSTER)? if so, what's the syntax? (Yes, I</span><br>
<span>know that setting it to federated would jump up the JobId namespace to</span><br>
<span>include a cluster identifier, but that's not happening for now.</span><br>
<span></span><br>
<span>However, main reason for mail is to find out what people use to</span><br>
<span>harvest the stats off the MDT/OSTs - I'm aware of Roland Laifer's</span><br>
<span>LAD15 presentation (sadly his tarball misses a sample config file out,</span><br>
<span>so it's taken me a bit of iteration over the Perl scripts to recreate</span><br>
<span>syntax) which saves to a file based structure, and I've seen others</span><br>
<span>using Prometheus (via https://grafana.com/grafana/dashboards/9671)</span><br>
<span></span><br>
<span>We've got influxdb (lnet / mds / ost stats gathered as well as regular</span><br>
<span>collectd output) and mariaDB (slurmdbd and robinhood) DBs available,</span><br>
<span>so I'd rather go with something that fed into that.</span><br>
<span>We're not doing serious high throughput (financial style) but more</span><br>
<span>traditional HPC with a lot (sigh) of single node jobs over 4</span><br>
<span>production filesystems (of which 3 are non-appliance LTS releases</span><br>
<span>maintained by us)</span><br>
<span></span><br>
<span>Hopefully the discussion here will lead to some updated content at</span><br>
<span>http://wiki.lustre.org/Lustre_Monitoring_and_Statistics_Guide (hat tip</span><br>
<span>to Scott for a great start)</span><br>
<span></span><br>
<span>Many thanks</span><br>
<span></span><br>
<span>Andrew</span><br>
<span>_______________________________________________</span><br>
<span>lustre-discuss mailing list</span><br>
<span>lustre-discuss@lists.lustre.org</span><br>
<span>http://lists.lustre.org/listinfo.cgi/lustre-discuss-lustre.org</span><br>
</div>
</blockquote>
</div>
</body>
</html>