<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<HTML><HEAD>
<META http-equiv=Content-Type content="text/html; charset=us-ascii">
<META content="MSHTML 6.00.6000.16587" name=GENERATOR></HEAD>
<BODY>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>We seem to be having 
a problem with lustre 1.6.4.3 and clients getting 
disconnected.</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>We currently have a 
situation where a box that just does maintenance work on the cluster (du/stats 
other work) has some directories it cannot enter.  (The shell just hangs 
and doesn't timeout.)</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>An lfs check servers 
shows all of the servers are ok:</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>% lfs check 
servers<BR>content-MDT0000-mdc-ffff810210b0fc00 
active.<BR>content-OST0000-osc-ffff810210b0fc00 
active.<BR>content-OST0001-osc-ffff810210b0fc00 
active.<BR>content-OST0002-osc-ffff810210b0fc00 
active.<BR>content-OST0003-osc-ffff810210b0fc00 
active.<BR>content-OST0004-osc-ffff810210b0fc00 
active.<BR>content-OST0005-osc-ffff810210b0fc00 
active.<BR>content-OST0006-osc-ffff810210b0fc00 
active.<BR>content-OST0007-osc-ffff810210b0fc00 active.<BR></DIV></FONT></SPAN>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>I enabled the 
rpctrace in the debug logs, and am now seeing this:</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2>00000100:00080000:2:1210181389.481562:0:4282:0:(pinger.c:139:ptlrpc_pinger_main()) 
not pinging MGS (in recovery: FULL or recovery disabled: 
0/1)<BR>00000100:00080000:2:1210181414.476881:0:4282:0:(pinger.c:139:ptlrpc_pinger_main()) 
not pinging MGS (in recovery: FULL or recovery disabled: 
0/1)<BR>00000100:00080000:2:1210181439.471197:0:4282:0:(pinger.c:139:ptlrpc_pinger_main()) 
not pinging MGS (in recovery: FULL or recovery disabled: 
0/1)<BR></FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>I can reboot the 
machine and it will come back.  The other clients connected to this cluster 
are not experiencing this problem.</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial size=2>Is anyone else 
seeing these issues?  Thoughts?</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2>Thanks!</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2></FONT></SPAN> </DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2>--</FONT></SPAN></DIV>
<DIV><SPAN class=738043217-07052008><FONT face=Arial 
size=2>Andrew</DIV></FONT></SPAN></BODY></HTML>