added missing stream argument for repkv_backward

ngc92 · ngc92 · commit e616e00cb629 · 2025-05-02T23:45:08.000+02:00
diff --git a/llmc/repkv.cuh b/llmc/repkv.cuh
@@ -111,11 +111,11 @@ void repkv_forward(floatX* out, const floatX* inp, int B, int T, int NH, int NH_
 }
 
 void repkv_backward(floatX* dinp, const floatX* dout,
-                    const int B, const int T, const int NH, const int NH_KV, const int d) {
+                    const int B, const int T, const int NH, const int NH_KV, const int d, cudaStream_t stream) {
     const int block_size = 128;
     int total_threads = B * T * (3 * NH) * d;
     int num_blocks = CEIL_DIV(total_threads, block_size);
     int replicate_factor = NH / NH_KV;
-    repkv_backward_kernel1<<<num_blocks, block_size>>>(dinp, dout, B, T, NH, replicate_factor, d);
+    repkv_backward_kernel1<<<num_blocks, block_size0, stream>>>(dinp, dout, B, T, NH, replicate_factor, d);
     cudaCheck(cudaGetLastError());
 }
diff --git a/train_llama3.cu b/train_llama3.cu
@@ -922,7 +922,7 @@ void llama3_backward_and_reduce(LLama3 *model, int* inputs, const int* targets,
         floatX* buffer_b = l_fch_pre_gelu;        // this is B x T x 4C, so even larger than what we need
         attention_backward(dl_bt4c, buffer_b, scratchX, buffer_a, dl_btc, l_qkvr, l_att, B, T, C, NH, main_stream);
         // backward repkv (use scratchX as gradient buffer here)
-        repkv_backward(dl_bt4c2, dl_bt4c, B, T, NH, n_kv_head, hd);
+        repkv_backward(dl_bt4c2, dl_bt4c, B, T, NH, n_kv_head, hd, main_stream);
         #endif
         // backward rope (this can be done in-place)
         rope_backward_inplace(dl_bt4c2, dl_bt4c2, model->freqs_cis, B, T, NH, n_kv_head, hd, main_stream);

Original file line number	Diff line number	Diff line change
`@@ -111,11 +111,11 @@ void repkv_forward(floatX* out, const floatX* inp, int B, int T, int NH, int NH_`
`111`	`111`	`}`
`112`	`112`
`113`	`113`	`void repkv_backward(floatX* dinp, const floatX* dout,`
`114`		`- const int B, const int T, const int NH, const int NH_KV, const int d) {`
	`114`	`+ const int B, const int T, const int NH, const int NH_KV, const int d, cudaStream_t stream) {`
`115`	`115`	`const int block_size = 128;`
`116`	`116`	`int total_threads = B * T * (3 * NH) * d;`
`117`	`117`	`int num_blocks = CEIL_DIV(total_threads, block_size);`
`118`	`118`	`int replicate_factor = NH / NH_KV;`
`119`		`- repkv_backward_kernel1<<<num_blocks, block_size>>>(dinp, dout, B, T, NH, replicate_factor, d);`
	`119`	`+ repkv_backward_kernel1<<<num_blocks, block_size0, stream>>>(dinp, dout, B, T, NH, replicate_factor, d);`
`120`	`120`	`cudaCheck(cudaGetLastError());`
`121`	`121`	`}`