huggingface
diff --git a/‎.github/workflows/build_documentation.yml‎
Lines changed: 0 additions & 1 deletion b/‎.github/workflows/build_documentation.yml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎.github/workflows/build_pr_documentation.yml‎
Lines changed: 0 additions & 1 deletion b/‎.github/workflows/build_pr_documentation.yml‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎MANIFEST.in‎
Lines changed: 3 additions & 2 deletions b/‎MANIFEST.in‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎docs/source/lora_without_regret.md‎
Lines changed: 1 addition & 1 deletion b/‎docs/source/lora_without_regret.md‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/vllm_integration.md‎
Lines changed: 348 additions & 44 deletions b/‎docs/source/vllm_integration.md‎
Lines changed: 348 additions & 44 deletions
diff --git a/‎examples/scripts/dpo_vlm.py‎
Lines changed: 1 addition & 5 deletions b/‎examples/scripts/dpo_vlm.py‎
Lines changed: 1 addition & 5 deletions
diff --git a/‎examples/scripts/grpo_vlm.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/scripts/grpo_vlm.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/scripts/gspo_vlm.py‎
Lines changed: 1 addition & 1 deletion b/‎examples/scripts/gspo_vlm.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/scripts/mpo_vlm.py‎
Lines changed: 1 addition & 5 deletions b/‎examples/scripts/mpo_vlm.py‎
Lines changed: 1 addition & 5 deletions
diff --git a/‎examples/scripts/reward_modeling.py‎
Lines changed: 1 addition & 11 deletions b/‎examples/scripts/reward_modeling.py‎
Lines changed: 1 addition & 11 deletions
@@ -14,6 +14,5 @@ jobs:
       commit_sha: ${{ github.sha }}
       package: trl
       version_tag_suffix: ""
-      custom_container: huggingface/transformers-doc-builder
     secrets:
       hf_token: ${{ secrets.HF_DOC_BUILD_PUSH }}
@@ -16,4 +16,3 @@ jobs:
       pr_number: ${{ github.event.number }}
       package: trl
       version_tag_suffix: ""
-      custom_container: huggingface/transformers-doc-builder
@@ -1,6 +1,7 @@
 include LICENSE
 include CONTRIBUTING.md
 include README.md
-recursive-exclude * __pycache__
+include trl/accelerate_configs/*.yaml
 include trl/templates/*.md
-include trl/accelerate_configs/*.yaml
+recursive-exclude * __pycache__
+prune tests
@@ -376,7 +376,7 @@ Here are the parameters we used to train the above models
 |----------------------------------|----------------------------------------------------|-------------------------------|
 | `--model_name_or_path`           | HuggingFaceTB/SmolLM3-3B                           | HuggingFaceTB/SmolLM3-3B      |
 | `--dataset_name`                 | HuggingFaceH4/OpenR1-Math-220k-default-verified    | HuggingFaceH4/OpenR1-Math-220k-default-verified |
-| `--learning_rate`                | 1.0e-6                                             | 1.0e-5                        |
+| `--learning_rate`                | 1.0e-5                                             | 1.0e-6                        |
 | `--max_prompt_length`            | 1024                                               | 1024                          |
 | `--max_completion_length`        | 4096                                               | 4096                          |
 | `--lora_r`                       | 1                                                  | -                           |
 
@@ -85,7 +85,7 @@
     script_args, training_args, model_args = parser.parse_args_and_config()
 
     ################
-    # Model & Tokenizer
+    # Model & Processor
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
 
@@ -117,7 +117,6 @@
     processor = AutoProcessor.from_pretrained(
         model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code, do_image_splitting=False
     )
-    tokenizer = processor.tokenizer
 
     # Set up the chat template
     if model.config.model_type == "idefics2":
@@ -127,8 +126,6 @@
     elif model.config.model_type == "llava":
         processor.chat_template = """{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{% if message['role'] == 'user' %}USER: {% else %}ASSISTANT: {% endif %}{% for item in message['content'] %}{% if item['type'] == 'text' %}{{ item['text'] }}{% elif item['type'] == 'image' %}<image>{% endif %}{% endfor %}{% if message['role'] == 'user' %} {% else %}{{eos_token}}{% endif %}{% endfor %}{% if add_generation_prompt %}ASSISTANT: {% endif %}"""
 
-    if tokenizer.pad_token is None:
-        tokenizer.pad_token = tokenizer.eos_token
     if script_args.ignore_bias_buffers:
         # torch distributed hack
         model._ddp_params_and_buffers_to_ignore = [
@@ -153,7 +150,6 @@
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,
-        processing_class=processor,
         peft_config=peft_config,
     )
 
 
@@ -94,7 +94,7 @@
     parser = TrlParser((ScriptArguments, GRPOConfig, ModelConfig))
     script_args, training_args, model_args = parser.parse_args_and_config()
     ################
-    # Model & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     training_args.model_init_kwargs = dict(
 
@@ -81,7 +81,7 @@
     parser = TrlParser((ScriptArguments, GRPOConfig, ModelConfig))
     script_args, training_args, model_args = parser.parse_args_and_config()
     ################
-    # Model & Processor
+    # Model
     ################
     dtype = model_args.dtype if model_args.dtype in ["auto", None] else getattr(torch, model_args.dtype)
     training_args.model_init_kwargs = dict(
 
@@ -46,7 +46,7 @@
 import torch
 from datasets import load_dataset
 from PIL import Image
-from transformers import AutoModelForImageTextToText, AutoProcessor
+from transformers import AutoModelForImageTextToText
 
 from trl import (
     DPOConfig,
@@ -97,9 +97,6 @@
         )
     else:
         ref_model = None
-    processor = AutoProcessor.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code
-    )
 
     ################
     # Dataset
@@ -135,7 +132,6 @@ def ensure_rgb(example):
         args=training_args,
         train_dataset=train_dataset,
         eval_dataset=test_dataset,
-        processing_class=processor,
         peft_config=peft_config,
     )
 
 
@@ -57,7 +57,7 @@
 import torch
 from accelerate import logging
 from datasets import load_dataset
-from transformers import AutoModelForSequenceClassification, AutoTokenizer, HfArgumentParser
+from transformers import AutoModelForSequenceClassification, HfArgumentParser
 
 from trl import (
     ModelConfig,
@@ -97,18 +97,9 @@
         model_kwargs["device_map"] = get_kbit_device_map()
         model_kwargs["quantization_config"] = quantization_config
 
-    tokenizer = AutoTokenizer.from_pretrained(
-        model_args.model_name_or_path, trust_remote_code=model_args.trust_remote_code, use_fast=True
-    )
     model = AutoModelForSequenceClassification.from_pretrained(
         model_args.model_name_or_path, num_labels=1, trust_remote_code=model_args.trust_remote_code, **model_kwargs
     )
-    # Align padding tokens between tokenizer and model
-    model.config.pad_token_id = tokenizer.pad_token_id
-
-    # If post-training a base model, use ChatML as the default template
-    if tokenizer.chat_template is None:
-        model, tokenizer = setup_chat_format(model, tokenizer)
 
     if model_args.use_peft and model_args.lora_task_type != "SEQ_CLS":
         logger.warning(
@@ -126,7 +117,6 @@
     ##########
     trainer = RewardTrainer(
         model=model,
-        processing_class=tokenizer,
         args=training_args,
         train_dataset=dataset[script_args.dataset_train_split],
         eval_dataset=dataset[script_args.dataset_test_split] if training_args.eval_strategy != "no" else None,