remove redundant empty_cache in parallel forward (#161)

akaitsuki-ii · web-flow · commit 665f74ae8451 · 2025-09-01T21:25:57.000+08:00
diff --git a/diffsynth_engine/utils/parallel.py b/diffsynth_engine/utils/parallel.py
@@ -295,8 +295,9 @@ def wrap_for_parallel(module: Union[PreTrainedModel, BasePipeline]):
 
             if (name := data[0]) == "unload_module":
                 module = None
+                empty_cache()
             elif name == "load_module":
-                init_fn, kwargs = to_device(data[1:], device=device)
+                init_fn, kwargs = data[1:]
                 module = wrap_for_parallel(init_fn(**kwargs))
             elif module is None:
                 res = RuntimeError("module is not initialized")
@@ -307,12 +308,10 @@ def wrap_for_parallel(module: Union[PreTrainedModel, BasePipeline]):
                 with torch.no_grad():
                     res = getattr(module, name)(*args, **kwargs)
 
-            data, args, kwargs = None, None, None
-            torch.cuda.synchronize()
-            empty_cache()
-            dist.barrier()
             if rank == 0:
                 queue_out.put(res)
+            data, args, kwargs = None, None, None
+            dist.barrier()
     except Exception:
         import traceback