refactoring & clean up

priyakasimbeg · priyakasimbeg · commit b14174b0c637 · 2025-04-03T21:00:12.000Z
diff --git a/algoperf/data_utils.py b/algoperf/data_utils.py
@@ -11,7 +11,7 @@
 from torch.utils.data import DistributedSampler
 from torch.utils.data import Sampler
 
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 
 
@@ -51,7 +51,6 @@ def shard_and_maybe_pad_np(
     weights = batch.get('weights')
     # The weights will also be padded.
     batch['weights'] = np.ones(mask_shape) if weights is None else weights
-  naive_sharding_spec = sharding_utils.get_naive_sharding_spec()
 
   def _prepare(x):
     # Use _numpy() for zero-copy conversion between TF and NumPy.
@@ -62,7 +61,7 @@ def _prepare(x):
     if remainder_size != 0 or pad_to_global_batch_size:
       x = pad(x, pad_size, padding_value=padding_value)
 
-    return jax.device_put(x, naive_sharding_spec)
+    return jax.device_put(x, jax.sharding_utils.get_batch_dim_sharding())
 
   return jax.tree.map(_prepare, batch)
 
diff --git a/algoperf/sharding_utils.py b/algoperf/sharding_utils.py
diff --git a/algoperf/workloads/cifar/cifar_jax/workload.py b/algoperf/workloads/cifar/cifar_jax/workload.py
@@ -12,7 +12,7 @@
 import tensorflow_datasets as tfds
 
 from algoperf import param_utils
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 from algoperf.workloads.cifar.cifar_jax import models
 from algoperf.workloads.cifar.cifar_jax.input_pipeline import create_input_iter
@@ -186,10 +186,10 @@ def _eval_model(
     @functools.partial(
         jax.jit,
         in_shardings=(
-            sharding_utils.get_replicated_sharding(),  # params
-            sharding_utils.get_naive_sharding_spec(),  # batch
-            sharding_utils.get_replicated_sharding(),  # model_state
-            sharding_utils.get_naive_sharding_spec(),  # rng
+            jax_sharding_utils.get_replicated_sharding(),  # params
+            jax_sharding_utils.get_batch_sharding(),  # batch
+            jax_sharding_utils.get_replicated_sharding(),  # model_state
+            jax_sharding_utils.get_batch_sharding(),  # rng
         ),
     )
     def _per_device_eval_model(
diff --git a/algoperf/workloads/criteo1tb/criteo1tb_jax/workload.py b/algoperf/workloads/criteo1tb/criteo1tb_jax/workload.py
@@ -11,7 +11,7 @@
 from algoperf import param_utils
 from algoperf import spec
 from algoperf.workloads.criteo1tb.criteo1tb_jax import models
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf.workloads.criteo1tb.workload import \
     BaseCriteo1TbDlrmSmallWorkload
 
@@ -106,7 +106,7 @@ def init_model_fn(
     initial_params = initial_variables['params']
     self._param_shapes = param_utils.jax_param_shapes(initial_params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    return sharding_utils.shard_replicated(initial_params), None
+    return jax_sharding_utils.shard(initial_params), None
 
   def is_output_params(self, param_key: spec.ParameterKey) -> bool:
     return param_key == 'Dense_7'
@@ -132,11 +132,11 @@ def model_fn(
   @functools.partial(
       jax.jit,
       in_shardings=(
-          sharding_utils.get_replicated_sharding(),
-          sharding_utils.get_naive_sharding_spec(),
+          jax_sharding_utils.get_replicated_sharding(),
+          jax_sharding_utils.get_batch_sharding(),
       ),
       static_argnums=(0,),
-      out_shardings=sharding_utils.get_replicated_sharding())
+      out_shardings=jax_sharding_utils.get_replicated_sharding())
   def _eval_batch_jitted(self,
                          params: spec.ParameterContainer,
                          batch: Dict[str, spec.Tensor]) -> spec.Tensor:
diff --git a/algoperf/workloads/fastmri/fastmri_jax/workload.py b/algoperf/workloads/fastmri/fastmri_jax/workload.py
@@ -10,7 +10,7 @@
 
 from algoperf import param_utils
 from algoperf import spec
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 import algoperf.random_utils as prng
 from algoperf.workloads.fastmri.fastmri_jax.models import UNet
 from algoperf.workloads.fastmri.fastmri_jax.ssim import ssim
@@ -40,7 +40,7 @@ def init_model_fn(
     params = variables['params']
     self._param_shapes = param_utils.jax_param_shapes(params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    params = sharding_utils.shard_replicated(params)
+    params = jax_sharding_utils.shard(params)
     return params, None
 
   def is_output_params(self, param_key: spec.ParameterKey) -> bool:
@@ -96,11 +96,11 @@ def loss_fn(
 
   @functools.partial(
       jax.jit,
-      in_shardings=(sharding_utils.get_replicated_sharding(),
-                    sharding_utils.get_naive_sharding_spec(),
-                    sharding_utils.get_replicated_sharding()),
+      in_shardings=(jax_sharding_utils.get_replicated_sharding(),
+                    jax_sharding_utils.get_batch_sharding(),
+                    jax_sharding_utils.get_replicated_sharding()),
       static_argnums=(0,),
-      out_shardings=sharding_utils.get_replicated_sharding())
+      out_shardings=jax_sharding_utils.get_replicated_sharding())
   def _eval_model(self,
                   params: spec.Tensor,
                   batch: Dict[str, spec.Tensor],
diff --git a/algoperf/workloads/imagenet_resnet/imagenet_jax/workload.py b/algoperf/workloads/imagenet_resnet/imagenet_jax/workload.py
@@ -20,7 +20,7 @@
 
 from algoperf import param_utils
 from algoperf import random_utils as prng
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 from algoperf.workloads.imagenet_resnet import imagenet_v2
 from algoperf.workloads.imagenet_resnet.imagenet_jax import input_pipeline
@@ -103,14 +103,14 @@ def init_model_fn(
     model_state, params = pop(variables, "params")
     self._param_shapes = param_utils.jax_param_shapes(params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    mesh = sharding_utils.get_mesh()
+    mesh = jax_sharding_utils.get_mesh()
     params = jax.tree_map(
         lambda x: jax.device_put(x,
-                                 sharding_utils.get_replicated_sharding(mesh)),
+                                 jax_sharding_utils.get_replicated_sharding(mesh)),
         params)
     model_state = jax.tree_map(
         lambda x: jax.device_put(x,
-                                 sharding_utils.get_replicated_sharding(mesh)),
+                                 jax_sharding_utils.get_replicated_sharding(mesh)),
         model_state)
     return params, model_state
 
@@ -120,13 +120,13 @@ def is_output_params(self, param_key: spec.ParameterKey) -> bool:
   @functools.partial(
       jax.jit,
       in_shardings=(
-          sharding_utils.get_replicated_sharding(),  # params
-          sharding_utils.get_naive_sharding_spec(),  # batch
-          sharding_utils.get_replicated_sharding(),  # model_state
-          sharding_utils.get_replicated_sharding(),  # rng
+          jax_sharding_utils.get_replicated_sharding(),  # params
+          jax_sharding_utils.get_batch_sharding(),  # batch
+          jax_sharding_utils.get_replicated_sharding(),  # model_state
+          jax_sharding_utils.get_replicated_sharding(),  # rng
       ),
       static_argnums=(0,),
-      out_shardings=sharding_utils.get_replicated_sharding())
+      out_shardings=jax_sharding_utils.get_replicated_sharding())
   def _eval_model(self,
                   params: spec.ParameterContainer,
                   batch: Dict[str, spec.Tensor],
diff --git a/algoperf/workloads/imagenet_vit/imagenet_jax/workload.py b/algoperf/workloads/imagenet_vit/imagenet_jax/workload.py
@@ -8,7 +8,7 @@
 import jax.numpy as jnp
 
 from algoperf import param_utils
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 from algoperf.workloads.imagenet_resnet.imagenet_jax.workload import \
     ImagenetResNetWorkload
@@ -46,8 +46,8 @@ def init_model_fn(
     params, model_state = self.initialized(rng, self._model)
     self._param_shapes = param_utils.jax_param_shapes(params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    params = sharding_utils.shard_replicated(params)
-    model_state = sharding_utils.shard_replicated(model_state)
+    params = jax_sharding_utils.shard(params)
+    model_state = jax_sharding_utils.shard(model_state)
     return params, model_state
 
   def is_output_params(self, param_key: spec.ParameterKey) -> bool:
diff --git a/algoperf/workloads/librispeech_conformer/librispeech_jax/workload.py b/algoperf/workloads/librispeech_conformer/librispeech_jax/workload.py
@@ -12,7 +12,7 @@
 
 from algoperf import data_utils
 from algoperf import param_utils
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 from algoperf.workloads.librispeech_conformer import metrics
 from algoperf.workloads.librispeech_conformer import workload
@@ -94,8 +94,8 @@ def init_model_fn(
     self._param_types = param_utils.jax_param_types(self._param_shapes)
 
     # Add sharding
-    params = sharding_utils.shard_replicated(params)
-    model_state = sharding_utils.shard_replicated(model_state)
+    params = jax_sharding_utils.shard(params)
+    model_state = jax_sharding_utils.shard(model_state)
 
     return params, model_state
 
@@ -310,12 +310,12 @@ def greedy_decode(
   @functools.partial(
       jax.jit,
       in_shardings=(
-          sharding_utils.get_replicated_sharding(),  # params
-          sharding_utils.get_naive_sharding_spec(),  # batch
-          sharding_utils.get_replicated_sharding(),  # model_state
-          sharding_utils.get_replicated_sharding(),  # rng
+          jax_sharding_utils.get_replicated_sharding(),  # params
+          jax_sharding_utils.get_batch_sharding(),  # batch
+          jax_sharding_utils.get_replicated_sharding(),  # model_state
+          jax_sharding_utils.get_replicated_sharding(),  # rng
       ),
-      out_shardings=sharding_utils.get_naive_sharding_spec(),
+      out_shardings=jax_sharding_utils.get_batch_sharding(),
       static_argnums=(0,))
   def _eval_step(
       self,
diff --git a/algoperf/workloads/librispeech_deepspeech/librispeech_jax/workload.py b/algoperf/workloads/librispeech_deepspeech/librispeech_jax/workload.py
@@ -10,7 +10,7 @@
 
 from algoperf import param_utils
 from algoperf import spec
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf.workloads.librispeech_conformer.librispeech_jax.workload import \
     LibriSpeechConformerWorkload
 from algoperf.workloads.librispeech_deepspeech.librispeech_jax import models
@@ -55,8 +55,8 @@ def init_model_fn(
     params = variables['params']
     self._param_shapes = param_utils.jax_param_shapes(params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    model_state = sharding_utils.shard_replicated(model_state)
-    params = sharding_utils.shard_replicated(params)
+    model_state = jax_sharding_utils.shard(model_state)
+    params = jax_sharding_utils.shard(params)
     return params, model_state
   
   def model_fn_ref(
@@ -108,7 +108,7 @@ def model_fn(
                                              use_running_average_bn=use_running_average_bn)
 
     model_fn_sharded = shard_map(model_fn_partial,
-                                 sharding_utils.get_mesh(),
+                                 jax_sharding_utils.get_mesh(),
                                  in_specs=(None, P('batch'), None),
                                  out_specs=(P('batch'), None),
                                  )
diff --git a/algoperf/workloads/mnist/mnist_jax/workload.py b/algoperf/workloads/mnist/mnist_jax/workload.py
@@ -10,7 +10,7 @@
 import optax
 
 from algoperf import param_utils
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import spec
 from algoperf.workloads.mnist.workload import BaseMnistWorkload
 
@@ -103,10 +103,10 @@ def loss_fn(
   @functools.partial(
       jax.jit,
       in_shardings=(
-          sharding_utils.get_replicated_sharding(),  # params
-          sharding_utils.get_naive_sharding_spec(),  # batch
-          sharding_utils.get_replicated_sharding(),  # model_state
-          sharding_utils.get_naive_sharding_spec(),  # rng
+          jax_sharding_utils.get_replicated_sharding(),  # params
+          jax_sharding_utils.get_batch_sharding(),  # batch
+          jax_sharding_utils.get_replicated_sharding(),  # model_state
+          jax_sharding_utils.get_batch_sharding(),  # rng
       ),
       static_argnums=(0,))
   def _eval_model(
diff --git a/algoperf/workloads/ogbg/ogbg_jax/workload.py b/algoperf/workloads/ogbg/ogbg_jax/workload.py
@@ -8,7 +8,7 @@
 import jraph
 import optax
 
-from algoperf import sharding_utils
+from algoperf import jax_sharding_utils
 from algoperf import param_utils
 from algoperf import spec
 from algoperf.workloads.ogbg import metrics
@@ -46,7 +46,7 @@ def init_model_fn(
     params = params['params']
     self._param_shapes = param_utils.jax_param_shapes(params)
     self._param_types = param_utils.jax_param_types(self._param_shapes)
-    params = sharding_utils.shard_replicated(params)
+    params = jax_sharding_utils.shard(params)
     return params, None
 
   def is_output_params(self, param_key: spec.ParameterKey) -> bool:
@@ -111,12 +111,12 @@ def _eval_metric(self, labels, logits, masks):
 
   @functools.partial(
     jax.jit,
-    in_shardings=(sharding_utils.get_replicated_sharding(),
-                  sharding_utils.get_naive_sharding_spec(),
-                  sharding_utils.get_replicated_sharding(),
-                  sharding_utils.get_replicated_sharding()),
+    in_shardings=(jax_sharding_utils.get_replicated_sharding(),
+                  jax_sharding_utils.get_batch_sharding(),
+                  jax_sharding_utils.get_replicated_sharding(),
+                  jax_sharding_utils.get_replicated_sharding()),
     static_argnums=(0,),
-    out_shardings=sharding_utils.get_replicated_sharding(),
+    out_shardings=jax_sharding_utils.get_replicated_sharding(),
   )
   def _eval_batch(self, params, batch, model_state, rng):
     return super()._eval_batch(params, batch, model_state, rng)
diff --git a/algoperf/workloads/wmt/wmt_jax/workload.py b/algoperf/workloads/wmt/wmt_jax/workload.py
diff --git a/reference_algorithms/paper_baselines/adamw/jax/submission.py b/reference_algorithms/paper_baselines/adamw/jax/submission.py
diff --git a/reference_algorithms/paper_baselines/nesterov/jax/submission.py b/reference_algorithms/paper_baselines/nesterov/jax/submission.py
diff --git a/reference_algorithms/target_setting_algorithms/jax_submission_base.py b/reference_algorithms/target_setting_algorithms/jax_submission_base.py