Add oumi[quantization] optional dependency (#1902)

wizeng23 · web-flow · commit 32393df9a4e5 · 2025-08-04T16:17:46.000-07:00
diff --git a/configs/examples/quantization/README.md b/configs/examples/quantization/README.md
@@ -4,6 +4,8 @@
 
 This directory contains example configurations for model quantization using Oumi's AWQ and BitsAndBytes quantization methods.
 
+> **NOTE**: Quantization requires a GPU to run.
+
 ## Configuration Files
 
 - **`awq_quantization_config.yaml`** - AWQ 4-bit quantization with calibration
@@ -15,7 +17,7 @@ This directory contains example configurations for model quantization using Oumi
 # Simplest command-line usage
 oumi quantize --method awq_q4_0 --model "TinyLlama/TinyLlama-1.1B-Chat-v1.0" --output quantized_model
 
-# Using configuration file (requires GPU)
+# Using configuration file
 oumi quantize --config configs/examples/quantization/awq_quantization_config.yaml
 ```
 
@@ -40,10 +42,12 @@ oumi quantize --config configs/examples/quantization/awq_quantization_config.yam
 ## Requirements
 
 ```bash
-# For AWQ quantization
+pip install oumi[quantization]
+
+# Alternatively, for AWQ quantization only
 pip install autoawq
 
-# For BitsAndBytes quantization
+# Alternatively, for BitsAndBytes quantization only
 pip install bitsandbytes
 ```
 
diff --git a/docs/user_guides/quantization.md b/docs/user_guides/quantization.md
@@ -4,6 +4,8 @@
 
 This guide covers the `oumi quantize` command for reducing model size while maintaining performance.
 
+> **NOTE**: Quantization requires a GPU to run.
+
 ## Quick Start
 
 ```bash
@@ -93,10 +95,12 @@ Currently supported output formats:
 ## Installation
 
 ```bash
-# For AWQ quantization
+pip install oumi[quantization]
+
+# Alternatively, for AWQ quantization only
 pip install autoawq
 
-# For BitsAndBytes quantization
+# Alternatively, for BitsAndBytes quantization only
 pip install bitsandbytes
 ```
 
diff --git a/notebooks/Oumi - A Tour.ipynb b/notebooks/Oumi - A Tour.ipynb
@@ -493,7 +493,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.11.8"
+   "version": "3.11.13"
   }
  },
  "nbformat": 4,
diff --git a/notebooks/Oumi - Quantization Tutorial.ipynb b/notebooks/Oumi - Quantization Tutorial.ipynb
@@ -31,13 +31,17 @@
     "\n",
     "⚠️ **DEVELOPMENT STATUS**: The quantization feature is currently under active development. Some features may change in future releases.\n",
     "\n",
-    "First, let's install Oumi with GPU support and the required quantization libraries:\n",
-    "\n",
-    "```bash\n",
-    "pip install oumi[gpu]\n",
-    "pip install autoawq\n",
-    "pip install triton==3.0.0  # Required for AWQ inference compatibility\n",
-    "```"
+    "First, let's install Oumi with GPU support and the required quantization libraries:"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "%pip install oumi[gpu,quantization]\n",
+    "%pip install triton==3.0.0  # Required for AWQ inference compatibility"
    ]
   },
   {
diff --git a/pyproject.toml b/pyproject.toml
@@ -154,6 +154,8 @@ evaluation = [
     "sentencepiece>=0.1.98",
 ]
 
+quantization = ["autoawq>=0.2.0,<0.3", "bitsandbytes>=0.45.0,<0.46"]
+
 bitnet = ["onebitllms>=0.0.3"]
 
 cambrian = [
diff --git a/src/oumi/quantize/awq_quantizer.py b/src/oumi/quantize/awq_quantizer.py
@@ -60,7 +60,7 @@ def raise_if_requirements_not_met(self):
         if self._awq is None:
             raise RuntimeError(
                 "AWQ quantization requires autoawq library.\n"
-                "Install with: `pip install autoawq`\n"
+                "Install with: `pip install oumi[quantization]`\n"
             )
 
         if not torch.cuda.is_available():

Original file line number	Diff line number	Diff line change
`@@ -493,7 +493,7 @@`
`493`	`493`	`"name": "python",`
`494`	`494`	`"nbconvert_exporter": "python",`
`495`	`495`	`"pygments_lexer": "ipython3",`
`496`		`- "version": "3.11.8"`
	`496`	`+ "version": "3.11.13"`
`497`	`497`	`}`
`498`	`498`	`},`
`499`	`499`	`"nbformat": 4,`
Original file line number	Diff line number	Diff line change
`@@ -154,6 +154,8 @@ evaluation = [`
`154`	`154`	`"sentencepiece>=0.1.98",`
`155`	`155`	`]`
`156`	`156`
	`157`	`+quantization = ["autoawq>=0.2.0,<0.3", "bitsandbytes>=0.45.0,<0.46"]`
	`158`	`+`
`157`	`159`	`bitnet = ["onebitllms>=0.0.3"]`
`158`	`160`
`159`	`161`	`cambrian = [`
Original file line number	Diff line number	Diff line change
`@@ -60,7 +60,7 @@ def raise_if_requirements_not_met(self):`
`60`	`60`	`if self._awq is None:`
`61`	`61`	`raise RuntimeError(`
`62`	`62`	`"AWQ quantization requires autoawq library.\n"`
`63`		- "Install with: `pip install autoawq`\n"
	`63`	+ "Install with: `pip install oumi[quantization]`\n"
`64`	`64`	`)`
`65`	`65`
`66`	`66`	`if not torch.cuda.is_available():`