Thank you all for very useful suggestions. The Andreas's way which uses rpc_history gave out exactly what I was looking for in a quite easy to read form. <br><br><div class="gmail_quote">On 9 July 2010 18:26, Andreas Dilger <span dir="ltr"><<a href="mailto:andreas.dilger@oracle.com">andreas.dilger@oracle.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin: 0pt 0pt 0pt 0.8ex; border-left: 1px solid rgb(204, 204, 204); padding-left: 1ex;"><div class="im">On 2010-07-08, at 16:11, Bernd Schubert wrote:<br>
>> Bernd, would you (or anyone) be interested to enhance those tools to be able to show stats data from multiple files at once (each prefixed by the device name and/or client NID)?  I don't think it makes sense to create separate tools for this.<br>

><br>
> I'm not sure if the existing lustre tools are really what we need. If you have a cluster with 200 or more clients and then want to figure out which clients are doing most IO, several lines per client provide too much output.<br>

<br>
</div>I agree, but having a 200-column line is also not very useful.  I like the "llobdstat" output where it prints the IO numbers, and then appends only the abbreviated values that are changing for that interval, instead of printing all of the values.<br>

<div class="im"><br>
> One line sorted by IO seems to be better, IMHO.<br>
<br>
</div>The commands that I posted using the rpc_history file will print out a summary of all client RPC counts sorted by maximum user.  Something similar could be done by aggregating all of the per-client stats as well, though it would mean touching a lot more input files for each interval.<br>

<div class="im"><br>
> I would be for interested to enhance the existing tools, but then if I look into the number of open bugs I have, several of those have a higher priorty (btw, this script is among my bug list (bug 22469)).<br>
<br>
</div>I was actually hoping that someone else might take it up.  The llstat and llobdstat scripts are perl, and there should be a good number of people who could do a bit of perl hacking.<br>
<br>
The scripts are currently "vmstat" or "iostat" like, in that they print out the parameters as they change over time.  It might also be interesting (if someone has the perl-fu to do it) to have a "top" mode, where it resets the screen position each time and sorts the output from all of the clients.<br>

<div><div></div><div class="h5"><br>
Cheers, Andreas<br>
--<br>
Andreas Dilger<br>
Lustre Technical Lead<br>
Oracle Corporation Canada Inc.<br>
<br>
</div></div></blockquote></div><br><br clear="all"><br>-- <br>--<br>Wojciech Turek<br><br><br>