Transformer encoder chunk 流式效果请教

你好，我这边目前在训练流式的encoder模型，采用的结构是咱们的transformer encoder chunk的形式。在实验中我这边目前发现了个现象：
1. 特征直接分块，分块进入一个已经训练好的encoder进行计算（累计形式，**伪流式**） 
2. 使用transformer encoder中自带的chunk mask 来控制视野 
我发现第1类的情况训练出来的模型效果要更好，同样的数据下第二类情况大概差了有3-5个点。不知道咱们这边是否对这里有研究呢，我理解：虽然方法2 控制了视野，但仍有未来的信息泄露，和真实场景仍有区别，只不过可以使用kv cache ，计算更高效。而第一类情况计算量随着积累会逐渐变大，计算不高效，但准确率更高，请问这么理解对吗？
二者能否逼平呢？