I think this work is very interesting.  Will anyone be at CUG 2010 next week to discuss? <div>Cheers,</div><div>Andrew</div><div><br><br><div class="gmail_quote">2010/5/16 Michael Kluge <span dir="ltr"><<a href="mailto:Michael.Kluge@tu-dresden.de">Michael.Kluge@tu-dresden.de</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">Hi WangDi,<br>
<br>
the first version works. Screenshot is attached. I have a couple of counter realized: RPC's in flight and RPC's completed in total on the client, RPC's enqueued, RPC's in processing and RPC'c completed in total on the server. All these counter can be broken down by the type of RPC (op code). The picture has not yet the lines that show each single RPC, I still have to do counter like "avg. time to complete an RPC over the last second" and there are some more TODO's. Like the timer synchronization. (In the screenshot the first and the last counter show total values while the one in the middle shows a rate.)<br>

<br>
What I like to have is a complete set of traces from a small cluster (<100 nodes) including the servers. Would that be possible?<br>
<br>
Is one of you in Hamburg May, 31-June, 3 for ISC'2010? I'll be there and like to talk about what would be useful for the next steps.<div class="im"><br>
<br>
<br>
Regards, Michael<br>
<br>
Am 03.05.2010 21:52, schrieb di.wang:<br>
</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Michael Kluge wrote:<div><div></div><div class="h5"><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

One more question: RPC 1334380768266400 (in the log WangDi sent me)<br>
has on the client side only a "Sending RPC" message, thus missing the<br>
"Completed RPC". The server has all three (received,start work, done<br>
work). Has this RPC vanished on the way back to the client? There is<br>
no further indication what happend. The last timestamp in the client<br>
log is:<br>
1272565368.228628<br>
and the server says it finished the processing of the request at:<br>
1272565281.379471<br>
So the client log has been recorded long enough to contain the<br>
"Completed RPC" message for this RPC if it arrived ever ...<br>
</blockquote>
Logically, yes. But in some cases, some debug logs might be abandoned<br>
for some reasons(actually, it happens not rarely), and probably you need<br>
maintain an average time from server "Handled RPC" to client "Completed<br>
RPC", then you just guess the client "Completed RPC" time in this case.<br>
</blockquote>
<br>
Oh my gosh ;) I don't want to start speculations about the helpfulness<br>
of incomplete debug logs. Anyway, what can get lost? Any kind of<br>
message on the servers and clients? I think I'd like to know what<br>
cases have to be handled while I try to track individual RPC's on<br>
their way.<br>
</blockquote>
Any records can get lost here. Unfortunately, there are not any messages<br>
indicate the missing happened. :(<br>
(Usually, I would check the time stamp in the log, i.e. no records for a<br>
"long" time, for example several seconds, but this is not the accurate<br>
way).<br>
<br>
I guess you can just ignore these uncompleted records in your first<br>
step? Let's see how these incomplete log will<br>
impact the profiling result, then we will decide how to deal with this?<br>
<br>
Thanks<br>
Wangdi<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Regards, Michael<br>
_______________________________________________<br>
Lustre-devel mailing list<br>
<a href="mailto:Lustre-devel@lists.lustre.org" target="_blank">Lustre-devel@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-devel" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-devel</a><br>
</blockquote>
<br>
<br>
</div></div></blockquote>
<br>
<br>
-- <br><div class="im">
Michael Kluge, M.Sc.<br>
<br>
Technische Universität Dresden<br>
Center for Information Services and<br>
High Performance Computing (ZIH)<br>
D-01062 Dresden<br>
Germany<br>
<br>
Contact:<br>
Willersbau, Room WIL A 208<br>
Phone:  (+49) 351 463-34217<br>
Fax:    (+49) 351 463-37773<br>
e-mail: <a href="mailto:michael.kluge@tu-dresden.de" target="_blank">michael.kluge@tu-dresden.de</a><br></div><div><div></div><div class="h5">
WWW:    <a href="http://www.tu-dresden.de/zih" target="_blank">http://www.tu-dresden.de/zih</a><br>
</div></div><br>_______________________________________________<br>
Lustre-devel mailing list<br>
<a href="mailto:Lustre-devel@lists.lustre.org">Lustre-devel@lists.lustre.org</a><br>
<a href="http://lists.lustre.org/mailman/listinfo/lustre-devel" target="_blank">http://lists.lustre.org/mailman/listinfo/lustre-devel</a><br>
<br></blockquote></div><br></div>