Internal.

adityagupta1089 · Google-ML-Automation · commit 58695a011cbc · 2025-10-01T08:34:29.000-07:00
PiperOrigin-RevId: 813766282
diff --git a/jax_tpu_embedding/sparsecore/lib/nn/embedding.py b/jax_tpu_embedding/sparsecore/lib/nn/embedding.py
@@ -849,7 +849,7 @@ def tpu_sparse_dense_matmul(
             sample_id,
             gain,
             num_minibatches,
-            embedding_variable[0],  # [0] is the embedding table
+            embedding_variable.table,
             device_batch_size=stacked_table.total_sample_count
             // global_device_count,
             max_ids_per_partition=stacked_table.max_ids_per_partition,
diff --git a/jax_tpu_embedding/sparsecore/lib/nn/tests/tpu_sparse_dense_matmul_test.py b/jax_tpu_embedding/sparsecore/lib/nn/tests/tpu_sparse_dense_matmul_test.py
@@ -184,13 +184,14 @@ def test_static_buffer_size_was_too_small(self):
         ),
     ]
     sharding = NamedSharding(mesh, P(None, "x", None))
-    embedding_variables["table"] = tuple([
-        jax.make_array_from_single_device_arrays(
+    embedding_variables["table"] = embedding.EmbeddingVariables(
+        table=jax.make_array_from_single_device_arrays(
             shape=(1000, 8),
             sharding=sharding,
             arrays=embedding_variables["table"],
-        )
-    ])
+        ),
+        slot=(),
+    )
     tpu_sparse_dense_matmul = functools.partial(
         embedding.tpu_sparse_dense_matmul,
         global_device_count=1,
@@ -408,16 +409,18 @@ def test_sparse_dense_matmul_two_chips_sharded(
         global_device_count=mesh.size,
     )
     if using_pmap:
-      embedding_variables["table_a"] = tuple([
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
           _create_embedding_variable_for_pmap(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_aa"] = tuple([
+          ),
+          (),
+      )
+      embedding_variables["table_aa"] = embedding.EmbeddingVariables(
           _create_embedding_variable_for_pmap(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
+          ),
+          (),
+      )
       activations = jax.pmap(
           tpu_sparse_dense_matmul_fn,
           static_broadcasted_argnums=[2],
@@ -427,16 +430,18 @@ def test_sparse_dense_matmul_two_chips_sharded(
           tuple(tree.flatten(feature_specs)),
       )
     else:
-      embedding_variables["table_a"] = tuple([
-          _create_embedding_variable_for_jit(
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_aa"] = tuple([
-          _create_embedding_variable_for_jit(
+          ),
+          slot=(),
+      )
+      embedding_variables["table_aa"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
+          ),
+          slot=(),
+      )
       sharded_matmul = functools.partial(
           tpu_sparse_dense_matmul_fn,
           feature_specs=tuple(tree.flatten(feature_specs)),
@@ -534,16 +539,17 @@ def test_sparse_dense_matmul_two_chips_sharded_stacked(
         global_device_count=mesh.size,
     )
     if using_pmap:
-      embedding_variables["table_a_table_aa"] = tuple([
-          _create_embedding_variable_for_pmap(
+      embedding_variables["table_a_table_aa"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_pmap(
               [
                   VariableInfo(shape=(64, 8), offset=0),
                   VariableInfo(shape=(64, 8), offset=100),
               ],
               devices,
               mesh,
-          )
-      ])
+          ),
+          slot=(),
+      )
       activations = jax.pmap(
           tpu_sparse_dense_matmul_fn,
           static_broadcasted_argnums=[2],
@@ -553,16 +559,17 @@ def test_sparse_dense_matmul_two_chips_sharded_stacked(
           tuple(tree.flatten(feature_specs)),
       )
     else:
-      embedding_variables["table_a_table_aa"] = tuple([
-          _create_embedding_variable_for_jit(
+      embedding_variables["table_a_table_aa"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [
                   VariableInfo(shape=(64, 8), offset=0),
                   VariableInfo(shape=(64, 8), offset=100),
               ],
               devices,
               mesh,
-          )
-      ])
+          ),
+          slot=(),
+      )
       sharded_matmul = functools.partial(
           tpu_sparse_dense_matmul_fn,
           feature_specs=tuple(tree.flatten(feature_specs)),
@@ -687,16 +694,18 @@ def test_sparse_dense_matmul_single_chip(
         global_device_count=mesh.size,
     )
     if using_pmap:
-      embedding_variables["table_a"] = tuple([
-          _create_embedding_variable_for_pmap(
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_pmap(
               [VariableInfo(shape=(32, 8), offset=0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_b"] = tuple([
-          _create_embedding_variable_for_pmap(
+          ),
+          slot=(),
+      )
+      embedding_variables["table_b"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_pmap(
               [VariableInfo((64, 16), 0)], devices, mesh
-          )
-      ])
+          ),
+          slot=(),
+      )
       activations = jax.pmap(
           tpu_sparse_dense_matmul_fn,
           static_broadcasted_argnums=[2],
@@ -706,16 +715,18 @@ def test_sparse_dense_matmul_single_chip(
           tuple(tree.flatten(feature_specs)),
       )
     else:
-      embedding_variables["table_a"] = tuple([
-          _create_embedding_variable_for_jit(
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_b"] = tuple([
-          _create_embedding_variable_for_jit(
+          ),
+          slot=(),
+      )
+      embedding_variables["table_b"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((64, 16), 0)], devices, mesh
-          )
-      ])
+          ),
+          slot=(),
+      )
       sparse_matmul = jax.jit(tpu_sparse_dense_matmul_fn, static_argnums=[2])
       activations = sparse_matmul(
           preprocessed_inputs,
@@ -797,16 +808,18 @@ def test_sparse_dense_matmul_two_tables(
         global_device_count=mesh.size,
     )
     if using_pmap:
-      embedding_variables["table_a"] = tuple([
-          _create_embedding_variable_for_pmap(
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_pmap(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_b"] = tuple([
-          _create_embedding_variable_for_pmap(
+          ),
+          slot=(),
+      )
+      embedding_variables["table_b"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_pmap(
               [VariableInfo((64, 16), 0)], devices, mesh
-          )
-      ])
+          ),
+          slot=(),
+      )
       activations = jax.pmap(
           tpu_sparse_dense_matmul_fn,
           static_broadcasted_argnums=(2),
@@ -816,16 +829,18 @@ def test_sparse_dense_matmul_two_tables(
           tuple(tree.flatten(feature_specs)),
       )
     else:
-      embedding_variables["table_a"] = tuple([
-          _create_embedding_variable_for_jit(
+      embedding_variables["table_a"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((32, 8), 0)], devices, mesh
-          )
-      ])
-      embedding_variables["table_b"] = tuple([
-          _create_embedding_variable_for_jit(
+          ),
+          slot=(),
+      )
+      embedding_variables["table_b"] = embedding.EmbeddingVariables(
+          table=_create_embedding_variable_for_jit(
               [VariableInfo((64, 16), 0)], devices, mesh
-          )
-      ])
+          ),
+          slot=(),
+      )
       sharded_matmul = functools.partial(
           tpu_sparse_dense_matmul_fn,
           feature_specs=tuple(tree.flatten(feature_specs)),
@@ -1327,8 +1342,8 @@ def test_sparse_dense_matmul_four_chips_complex_stacked(
     )
     if using_pmap:
       embedding_variables["country_table_language_table_related_item_table"] = (
-          tuple([
-              _create_embedding_variable_for_pmap(
+          embedding.EmbeddingVariables(
+              table=_create_embedding_variable_for_pmap(
                   [
                       VariableInfo(shape=(256, 16), offset=0),  # country
                       VariableInfo(shape=(384, 16), offset=500),  # language
@@ -1338,8 +1353,9 @@ def test_sparse_dense_matmul_four_chips_complex_stacked(
                   ],
                   devices,
                   mesh,
-              )
-          ])
+              ),
+              slot=(),
+          )
       )
       activations = jax.pmap(
           tpu_sparse_dense_matmul_fn,
@@ -1351,8 +1367,8 @@ def test_sparse_dense_matmul_four_chips_complex_stacked(
       )
     else:
       embedding_variables["country_table_language_table_related_item_table"] = (
-          tuple([
-              _create_embedding_variable_for_jit(
+          embedding.EmbeddingVariables(
+              table=_create_embedding_variable_for_jit(
                   [
                       VariableInfo(shape=(256, 16), offset=0),  # country
                       VariableInfo(shape=(384, 16), offset=500),  # language
@@ -1362,8 +1378,9 @@ def test_sparse_dense_matmul_four_chips_complex_stacked(
                   ],
                   devices,
                   mesh,
-              )
-          ])
+              ),
+              slot=(),
+          )
       )
       sharded_matmul = functools.partial(
           tpu_sparse_dense_matmul_fn,
@@ -1458,11 +1475,12 @@ def test_sparse_dense_matmul_quantized(self):
     )
 
     embedding_variables = {}
-    embedding_variables["quantized_table"] = tuple([
-        _create_embedding_variable_for_jit(
+    embedding_variables["quantized_table"] = embedding.EmbeddingVariables(
+        table=_create_embedding_variable_for_jit(
             [VariableInfo((32, 32), 0)], devices, mesh
-        )
-    ])
+        ),
+        slot=(),
+    )
 
     tpu_sparse_dense_matmul_fn = functools.partial(
         embedding.tpu_sparse_dense_matmul,
diff --git a/jax_tpu_embedding/sparsecore/tests/jax_sc_shakespeare_tests.py b/jax_tpu_embedding/sparsecore/tests/jax_sc_shakespeare_tests.py
@@ -128,13 +128,14 @@ def test_shakespeare_model_loss_convergence(self):
         for i, device in enumerate(devices)
     ]
     sharding = NamedSharding(mesh, P('x', None))
-    embedding_variables[model.table_name] = tuple([
-        jax.make_array_from_single_device_arrays(
+    embedding_variables[model.table_name] = embedding.EmbeddingVariables(
+        table=jax.make_array_from_single_device_arrays(
             shape=(_VOCAB_SIZE.value, _EMBEDDING_SIZE.value),
             sharding=sharding,
             arrays=embedding_variables[model.table_name],
-        )
-    ])
+        ),
+        slot=(),
+    )
 
     # Define the forward pass function.
     loss_grad_fn = jax.value_and_grad(
diff --git a/jax_tpu_embedding/sparsecore/tests/jax_spmd_tc_with_sc_tests.py b/jax_tpu_embedding/sparsecore/tests/jax_spmd_tc_with_sc_tests.py
@@ -163,13 +163,18 @@ def setUp(self):
         for i, device in enumerate(self.devices)
     ]
     sharding = NamedSharding(self.mesh, P('device', None))
-    self.embedding_variables[self.shakespeare_table_spec.name] = tuple([
-        jax.make_array_from_single_device_arrays(
-            shape=(_VOCAB_SIZE.value, _EMBEDDING_SIZE.value),
-            sharding=sharding,
-            arrays=self.embedding_variables[self.shakespeare_table_spec.name],
+    self.embedding_variables[self.shakespeare_table_spec.name] = (
+        embedding.EmbeddingVariables(
+            table=jax.make_array_from_single_device_arrays(
+                shape=(_VOCAB_SIZE.value, _EMBEDDING_SIZE.value),
+                sharding=sharding,
+                arrays=self.embedding_variables[
+                    self.shakespeare_table_spec.name
+                ],
+            ),
+            slot=(),
         )
-    ])
+    )
     # Construct the model.
     self.model = ShakespeareSpmdModel(
         vocab_size=_VOCAB_SIZE.value,