Skip to content

Transformer encoder chunk 流式效果请教 #2755

@mahuichao

Description

@mahuichao

你好,我这边目前在训练流式的encoder模型,采用的结构是咱们的transformer encoder chunk的形式。在实验中我这边目前发现了个现象:

  1. 特征直接分块,分块进入一个已经训练好的encoder进行计算(累计形式,伪流式
  2. 使用transformer encoder中自带的chunk mask 来控制视野
    我发现第1类的情况训练出来的模型效果要更好,同样的数据下第二类情况大概差了有3-5个点。不知道咱们这边是否对这里有研究呢,我理解:虽然方法2 控制了视野,但仍有未来的信息泄露,和真实场景仍有区别,只不过可以使用kv cache ,计算更高效。而第一类情况计算量随着积累会逐渐变大,计算不高效,但准确率更高,请问这么理解对吗?
    二者能否逼平呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions