Hi -<br><br>Nikita's discussion is excellent.  I read through and thought about this a bit over the vacation.   Two important issues remain unclear in my mind:<br><br>1. the write back cache mode is not good for scaling (eg. for many nodes creating files in one directory); for that intents save a lot of RPCs.  The recovery correctness discussion doesn't cover this, and I've found this to introduce new opportunities for cascading aborts, that are not managed by client locks.  I think it would be most beautiful if the epoch protocol was somewhat enhanced to also handle intent style processing (where there is dependence on RPC responses).  I think some of the response data (FIDs notably) is not protected by locks (as it is immutable).<br>
<br>2. I'm nervous about broadcasting epoch messages to, for example, 1 million clients (I think that is the current target).  You'd want a tree model for this, and do careful calculations how often failures will occur and what their impact is on recovery time.<br>
<br>Peter<br>