你好,我这边目前在训练流式的encoder模型,采用的结构是咱们的transformer encoder chunk的形式。在实验中我这边目前发现了个现象: 1. 特征直接分块,分块进入一个已经训练好的encoder进行计算(累计形式,**伪流式**) 2. 使用transformer encoder中自带的chunk mask 来控制视野 我发现第1类的情况训练出来的模型效果要更好,同样的数据下第二类情况大概差了有3-5个点。不知道咱们这边是否对这里有研究呢,我理解:虽然方法2 控制了视野,但仍有未来的信息泄露,和真实场景仍有区别,只不过可以使用kv cache ,计算更高效。而第一类情况计算量随着积累会逐渐变大,计算不高效,但准确率更高,请问这么理解对吗? 二者能否逼平呢?