Add num_splits for mha_varlen_fwd FA2, support batch invariant #110

quanliu1991 · 2025-11-17T12:05:08Z

Add num_splits parameter for mha_varlen_fwd FA2 to support batch-invariant processing

Batch-invariant is currently unsupported on FA2 for SM80 GPUs, which can lead to inconsistent outputs for the same input.
This PR adds a num_splits parameter. Setting num_splits=1 ensures consistent outputs when batch-invariant is enabled.

vllm-project/vllm#27433 (comment)
Verified on A800 GPU with Qwen-3 32B model.
Testing done with --disable-cascade-attn disabled, under TP=1 and TP=2 settings.
Outputs are consistent.

Signed-off-by: quanliu <[email protected]>

anxiang1836 · 2025-11-20T10:00:16Z

Thks. I have noticed that vllm 0.11.2 released today, but it currently unsupported SM89 GPUs yet, right?
I need to wait next vllm release version after current PR?

Add num_splits for mha_varlen_fwd FA2, support batch invariant

d2d966b

Signed-off-by: quanliu <[email protected]>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add num_splits for mha_varlen_fwd FA2, support batch invariant #110

Add num_splits for mha_varlen_fwd FA2, support batch invariant #110

Uh oh!

quanliu1991 commented Nov 17, 2025 •

edited

Loading

Uh oh!

anxiang1836 commented Nov 20, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Add num_splits for mha_varlen_fwd FA2, support batch invariant #110

Are you sure you want to change the base?

Add num_splits for mha_varlen_fwd FA2, support batch invariant #110

Uh oh!

Conversation

quanliu1991 commented Nov 17, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

anxiang1836 commented Nov 20, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

quanliu1991 commented Nov 17, 2025 •

edited

Loading