[Token Mixing] Remove the head_first arg from token mixing layers (#347)

yzhangcs · web-flow · commit 6bfd5e671aa8 · 2025-04-12T04:28:34.000+08:00
diff --git a/fla/layers/abc.py b/fla/layers/abc.py
@@ -194,7 +194,6 @@ def forward(
             s=s,
             initial_state=recurrent_state,
             output_final_state=use_cache,
-            head_first=False
         )
         if past_key_values is not None:
             past_key_values.update(
diff --git a/fla/layers/based.py b/fla/layers/based.py
@@ -54,21 +54,19 @@ def forward(self, hidden_states: torch.Tensor, **kwargs):
         q, k, v = map(lambda x: rearrange(x, "... (h d) -> ... h d", d=self.head_dim), [q, k, v])
         if mode == "fused_chunk":
             q, k = self.feature_map(q), self.feature_map(k)
-            o, _ = fused_chunk_linear_attn(q, k, v, normalize=True, scale=1, head_first=False)
+            o, _ = fused_chunk_linear_attn(q, k, v, normalize=True, scale=1)
         elif mode == 'chunk':
             q, k = self.feature_map(q), self.feature_map(k)
-            o, _ = chunk_linear_attn(q, k, v, normalize=True, scale=1, head_first=False)
+            o, _ = chunk_linear_attn(q, k, v, normalize=True, scale=1)
         elif mode == 'parallel':
             assert q.shape[-1] <= 128
-            o = parallel_based(q, k, v, scale=1, use_norm=True, head_first=False)
+            o = parallel_based(q, k, v, scale=1, use_norm=True)
         o = rearrange(o, 'b t h d -> b t (h d)')
         o = self.o_proj(o)
         o = self.dropout(o)
         return o
 
-    # https://github.com/HazyResearch/zoology/blob/main/zoology/mixers/based.py#L119
-
-    def forward_reference(self, hidden_states: torch.Tensor, filters: torch.Tensor = None, *args, **kwargs):
+    def forward_reference(self, hidden_states: torch.Tensor, **kwargs):
         """
         x (torch.Tensor): tensor of shape (b, d, t)
         y (torch.Tensor): tensor of shape (b, d, t)
diff --git a/fla/layers/delta_net.py b/fla/layers/delta_net.py
@@ -249,7 +249,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False,
                 use_qk_l2norm_in_kernel=True if self.qk_norm == 'l2' else False
             )
         elif mode == 'chunk':
@@ -261,7 +260,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False,
                 use_qk_l2norm_in_kernel=True if self.qk_norm == 'l2' else False
             )
         else:
diff --git a/fla/layers/gated_deltanet.py b/fla/layers/gated_deltanet.py
@@ -256,7 +256,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False,
                 use_qk_l2norm_in_kernel=True
             )
         elif mode == 'fused_recurrent':
@@ -269,7 +268,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False,
                 use_qk_l2norm_in_kernel=True
             )
         else:
diff --git a/fla/layers/gated_deltaproduct.py b/fla/layers/gated_deltaproduct.py
@@ -307,7 +307,6 @@ def forward(
                     initial_state=recurrent_state,
                     output_final_state=use_cache,
                     cu_seqlens=offsets,
-                    head_first=False,
                     use_qk_l2norm_in_kernel=True
                 )
             else:
@@ -319,7 +318,6 @@ def forward(
                     initial_state=recurrent_state,
                     output_final_state=use_cache,
                     cu_seqlens=offsets,
-                    head_first=False,
                     use_qk_l2norm_in_kernel=True
                 )
         else:
diff --git a/fla/layers/gla.py b/fla/layers/gla.py
@@ -235,7 +235,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'fused_chunk':
             o, recurrent_state = fused_chunk_gla(
@@ -245,7 +244,6 @@ def forward(
                 g=gk,
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
-                head_first=False
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_gla(
@@ -256,7 +254,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/gsa.py b/fla/layers/gsa.py
@@ -190,7 +190,6 @@ def forward(
                 output_final_state=use_cache,
                 scale=self.scale,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_gsa(
@@ -203,7 +202,6 @@ def forward(
                 output_final_state=use_cache,
                 scale=self.scale,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/hgrn2.py b/fla/layers/hgrn2.py
@@ -162,7 +162,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'fused_chunk':
             o, recurrent_state = fused_chunk_gla(
@@ -172,7 +171,6 @@ def forward(
                 g=g,
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
-                head_first=False
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_gla(
@@ -183,7 +181,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/lightnet.py b/fla/layers/lightnet.py
@@ -168,7 +168,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_gla(
@@ -179,7 +178,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/linear_attn.py b/fla/layers/linear_attn.py
@@ -142,7 +142,6 @@ def forward(
                 k=k,
                 v=v,
                 normalize=self.do_feature_map_norm,
-                head_first=False
             )
         elif mode == 'fused_chunk':
             o, final_state = fused_chunk_linear_attn(
diff --git a/fla/layers/multiscale_retention.py b/fla/layers/multiscale_retention.py
@@ -234,7 +234,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'fused_chunk':
             o, recurrent_state = fused_chunk_retention(
@@ -244,15 +243,13 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'parallel':
             o, recurrent_state = parallel_retention(
                 q=q,
                 k=k,
                 v=v,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'fused_recurrent':
             o, recurrent_state = fused_recurrent_retention(
@@ -262,7 +259,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/nsa.py b/fla/layers/nsa.py
@@ -127,7 +127,6 @@ def forward(
             block_counts=self.block_counts,
             window_size=self.window_size,
             cu_seqlens=cu_seqlens,
-            head_first=False
         )
         o = o.reshape(batch_size, seq_len, -1)
         o = self.o_proj(o)
diff --git a/fla/layers/rebased.py b/fla/layers/rebased.py
@@ -73,7 +73,6 @@ def forward(self, hidden_states: torch.Tensor, **kwargs):
                 v=v,
                 normalize=True,
                 scale=1,
-                head_first=False
             )
         elif mode == 'chunk':
             o = chunk_linear_attn(
@@ -82,7 +81,6 @@ def forward(self, hidden_states: torch.Tensor, **kwargs):
                 v=v,
                 normalize=True,
                 scale=1,
-                head_first=False
             )
         elif mode == 'parallel':
             assert q.shape[-1] <= 128
@@ -93,7 +91,6 @@ def forward(self, hidden_states: torch.Tensor, **kwargs):
                 eps=self.eps,
                 use_scale=True,
                 use_normalize=True,
-                head_first=False
             )
         o = self.o_proj(o)
         o = self.dropout(o)
diff --git a/fla/layers/rwkv6.py b/fla/layers/rwkv6.py
@@ -156,7 +156,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         elif mode == 'chunk':
             o, recurrent_state = chunk_rwkv6(
@@ -169,7 +168,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")
diff --git a/fla/layers/rwkv7.py b/fla/layers/rwkv7.py
@@ -205,7 +205,6 @@ def forward(
             initial_state=recurrent_state,
             output_final_state=use_cache,
             cu_seqlens=cu_seqlens,
-            head_first=False,
         )
 
         if past_key_values is not None:
diff --git a/fla/layers/simple_gla.py b/fla/layers/simple_gla.py
@@ -228,7 +228,6 @@ def forward(
                 initial_state=recurrent_state,
                 output_final_state=use_cache,
                 cu_seqlens=cu_seqlens,
-                head_first=False
             )
         else:
             raise NotImplementedError(f"Not supported mode `{mode}`.")

Original file line number	Diff line number	Diff line change
`@@ -194,7 +194,6 @@ def forward(`
`194`	`194`	`s=s,`
`195`	`195`	`initial_state=recurrent_state,`
`196`	`196`	`output_final_state=use_cache,`
`197`		`- head_first=False`
`198`	`197`	`)`
`199`	`198`	`if past_key_values is not None:`
`200`	`199`	`past_key_values.update(`
Original file line number	Diff line number	Diff line change
`@@ -142,7 +142,6 @@ def forward(`
`142`	`142`	`k=k,`
`143`	`143`	`v=v,`
`144`	`144`	`normalize=self.do_feature_map_norm,`
`145`		`- head_first=False`
`146`	`145`	`)`
`147`	`146`	`elif mode == 'fused_chunk':`
`148`	`147`	`o, final_state = fused_chunk_linear_attn(`