Fix typo in GRPO quickstart (#4020)

dwisdom0 · web-flow · commit f5c2fec4a91d · 2025-09-06T10:31:09.000+02:00
diff --git a/docs/source/quickstart.md b/docs/source/quickstart.md
@@ -32,7 +32,7 @@ def reward_function(completions, **kwargs):
 trainer = GRPOTrainer(
     model="Qwen/Qwen2.5-0.5B-Instruct",  # Start from SFT model
     train_dataset=load_dataset("trl-lib/tldr", split="train"),
-    reward_function=reward_function,
+    reward_funcs=reward_function,
 )
 trainer.train()
 ```

Original file line number	Diff line number	Diff line change
`@@ -32,7 +32,7 @@ def reward_function(completions, **kwargs):`
`32`	`32`	`trainer = GRPOTrainer(`
`33`	`33`	`model="Qwen/Qwen2.5-0.5B-Instruct", # Start from SFT model`
`34`	`34`	`train_dataset=load_dataset("trl-lib/tldr", split="train"),`
`35`		`- reward_function=reward_function,`
	`35`	`+ reward_funcs=reward_function,`
`36`	`36`	`)`
`37`	`37`	`trainer.train()`
`38`	`38`	```