huggingface
diff --git a/‎tests/test_sft_trainer.py‎
Lines changed: 24 additions & 55 deletions b/‎tests/test_sft_trainer.py‎
Lines changed: 24 additions & 55 deletions
@@ -64,9 +64,9 @@ def test_basic_padding(self):
 
         result = self.collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3], [4, 5, -100]]))
 
     def test_completion_mask(self):
@@ -79,9 +79,9 @@ def test_completion_mask(self):
 
         result = self.collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3], [-100, 5, -100]]))
 
     def test_completion_only_loss_disabled(self):
@@ -95,9 +95,9 @@ def test_completion_only_loss_disabled(self):
         result = collator(examples)
 
         # Labels should not be masked when completion_only_loss=False
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3], [4, 5, -100]]))
 
     def test_padding_free_mode(self):
@@ -107,72 +107,42 @@ def test_padding_free_mode(self):
 
         result = collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "position_ids", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5]]))
-        torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 1, 1]]))
         torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0, 1]]))
-        torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3, 4, 5]]))
+        torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3, -100, 5]]))
 
     def test_padding_free_with_completion_mask(self):
         """Test padding-free mode with completion masks."""
         collator = DataCollatorForLanguageModeling(pad_token_id=0, padding_free=True)
         examples = [
-            {"input_ids": [1, 2, 3], "completion_mask": [0, 1, 1]},
+            {"input_ids": [1, 2, 3], "completion_mask": [0, 0, 1]},
             {"input_ids": [4, 5], "completion_mask": [1, 1]},
         ]
 
         result = collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "position_ids", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5]]))
-        torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 1, 1]]))
         torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0, 1]]))
-        torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3, 4, 5]]))
+        torch.testing.assert_close(result["labels"], torch.tensor([[-100, -100, 3, -100, 5]]))
 
-    def test_packing_drops_attention_mask_for_flash_attention(self):
+    def test_packing(self):
         """Test that when using packing with position_ids, attention_mask is dropped with fa2."""
-        collator = DataCollatorForLanguageModeling(pad_token_id=0, padding_free=True, return_position_ids=True)
+        collator = DataCollatorForLanguageModeling(pad_token_id=0, padding_free=True)
 
         # Simulate packed sequences with position_ids that restart (typical of BFD packing)
         examples = [
-            {
-                "input_ids": [1, 2, 3, 4, 5, 6, 7, 8],  # Packed: [1,2,3] + [4,5] + [6,7,8]
-                "seq_lengths": [3, 2, 3],
-            }
+            {"input_ids": [1, 2, 3, 4, 5, 6], "seq_lengths": [3, 3]},
+            {"input_ids": [7, 8, 9, 10, 11], "seq_lengths": [4, 1]},
         ]
 
         result = collator(examples)
 
-        # Verify that attention_mask is NOT present - this allows FlashAttention to use position_ids
-        self.assertNotIn("attention_mask", result, "attention_mask should be dropped for packing with position_ids")
-
-        # Verify essential keys are present
-        self.assertIn("input_ids", result)
-        self.assertIn("position_ids", result)
-        self.assertIn("labels", result)
-
-        # Verify the data is correctly processed
-        torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5, 6, 7, 8]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0, 1, 0, 1, 2]]))
-        torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3, 4, 5, 6, 7, 8]]))
-
-    def test_padding_free_without_position_ids_keeps_attention_mask(self):
-        """
-        Test that padding_free mode without explicit position_ids still creates attention_mask.
-        """
-        collator = DataCollatorForLanguageModeling(pad_token_id=0, padding_free=True, return_position_ids=True)
-
-        # Examples without position_ids (not packed)
-        examples = [{"input_ids": [1, 2, 3, 4, 5]}]
-
-        result = collator(examples)
-
-        # Should still have attention_mask since no packed position_ids
-        self.assertIn("attention_mask", result, "attention_mask should be present when no packed position_ids")
-        self.assertIn("position_ids", result)
-        self.assertIn("input_ids", result)
-
-        torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5]]))
-        torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 1, 1]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 3, 4]]))
+        self.assertEqual(set(result.keys()), {"input_ids", "position_ids", "labels"})
+        torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]]))
+        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0, 1, 2, 0, 1, 2, 3, 0]]))
+        torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3, -100, 5, 6, -100, 8, 9, 10, -100]]))
 
     def test_pad_to_multiple_of(self):
         """Test padding to multiple of specified value."""
@@ -181,9 +151,9 @@ def test_pad_to_multiple_of(self):
 
         result = collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 0], [4, 5, 0, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 0], [1, 1, 0, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0], [0, 1, 0, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3, -100], [4, 5, -100, -100]]))
 
     def test_pad_to_multiple_of_and_padding_free(self):
@@ -193,21 +163,21 @@ def test_pad_to_multiple_of_and_padding_free(self):
 
         result = collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "position_ids", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4, 5, 0, 0, 0]]))
-        torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 1, 1, 0, 0, 0]]))
         torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 0, 1, 0, 0, 0]]))
-        torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3, 4, 5, -100, -100, -100]]))
+        torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3, -100, 5, -100, -100, -100]]))
 
-    def test_custom_position_ids(self):
-        """Test handling of custom position IDs in examples."""
+    def test_custom_position_ids_but_no_padding_free(self):
+        """Test that custom position_ids are ignored if padding_free is False."""
         self.collator = DataCollatorForLanguageModeling(pad_token_id=0)
         examples = [{"input_ids": [1, 2, 3], "seq_lengths": [1, 2]}, {"input_ids": [4, 5], "seq_lengths": [2]}]
 
         result = self.collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 0, 1], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3], [4, 5, -100]]))
 
     def test_single_example(self):
@@ -217,9 +187,9 @@ def test_single_example(self):
 
         result = self.collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3, 4]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1, 1]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2, 3]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3, 4]]))
 
     def test_different_pad_token_id(self):
@@ -229,9 +199,9 @@ def test_different_pad_token_id(self):
 
         result = collator(examples)
 
+        self.assertEqual(set(result.keys()), {"input_ids", "attention_mask", "labels"})
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 999]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[1, 2, 3], [4, 5, -100]]))
 
     def test_assistant_masks(self):
@@ -246,7 +216,6 @@ def test_assistant_masks(self):
 
         torch.testing.assert_close(result["input_ids"], torch.tensor([[1, 2, 3], [4, 5, 0]]))
         torch.testing.assert_close(result["attention_mask"], torch.tensor([[1, 1, 1], [1, 1, 0]]))
-        torch.testing.assert_close(result["position_ids"], torch.tensor([[0, 1, 2], [0, 1, 0]]))
         torch.testing.assert_close(result["labels"], torch.tensor([[-100, 2, 3], [-100, 5, -100]]))
 
     def test_single_example_single_doc(self):