refactor: make stable diffusion flow work with one sd model (#913)

RSMNYS · freedomtan · anhappdev · web-flow · commit 1053d6ba4fee · 2024-09-11T10:50:44.000+08:00
* refactor: make stable diffusion flow work with one diffusion model
* fix: make use of the dynamic models
* chore: formatting and code cleanup

---------

Co-authored-by: Koan-Sin Tan &lt;koansin.tan@gmail.com&gt;
Co-authored-by: Anh &lt;anh.app.dev@gmail.com&gt;
Co-authored-by: Mohit Mundhra &lt;quic_mmundhra@quicinc.com&gt;
diff --git a/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_invoker.cc b/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_invoker.cc
@@ -44,79 +44,31 @@ std::vector<float> StableDiffusionInvoker::encode_prompt(
 std::vector<float> StableDiffusionInvoker::diffusion_step(
     const std::vector<float>& latent, const std::vector<float>& t_emb,
     const std::vector<float>& context) {
-  // Prepare the first model's inputs
-
-  auto first_input_details =
-      TfLiteInterpreterGetInputTensor(backend_data_->first_interpreter, 0);
-  auto second_input_details =
-      TfLiteInterpreterGetInputTensor(backend_data_->first_interpreter, 1);
-  auto third_input_details =
-      TfLiteInterpreterGetInputTensor(backend_data_->first_interpreter, 2);
+  auto latent_input_details =
+      TfLiteInterpreterGetInputTensor(backend_data_->sd_interpreter, 0);
+  auto context_input_details =
+      TfLiteInterpreterGetInputTensor(backend_data_->sd_interpreter, 1);
+  auto time_stamp_embedding_input_details =
+      TfLiteInterpreterGetInputTensor(backend_data_->sd_interpreter, 2);
 
   std::copy(context.begin(), context.end(),
-            reinterpret_cast<float*>(TfLiteTensorData(first_input_details)));
+            reinterpret_cast<float*>(TfLiteTensorData(context_input_details)));
   std::copy(t_emb.begin(), t_emb.end(),
-            reinterpret_cast<float*>(TfLiteTensorData(second_input_details)));
+            reinterpret_cast<float*>(
+                TfLiteTensorData(time_stamp_embedding_input_details)));
   std::copy(latent.begin(), latent.end(),
-            reinterpret_cast<float*>(TfLiteTensorData(third_input_details)));
+            reinterpret_cast<float*>(TfLiteTensorData(latent_input_details)));
 
-  // Invoke the first model
-  if (TfLiteInterpreterInvoke(backend_data_->first_interpreter) != kTfLiteOk) {
+  // Invoke the model
+  if (TfLiteInterpreterInvoke(backend_data_->sd_interpreter) != kTfLiteOk) {
     std::cerr << "Failed to invoke the first diffusion model!" << std::endl;
     exit(-1);
   }
 
-  // Output names from the first model and corresponding input names for the
-  // second model
-  std::vector<std::string> output_names = {
-      "Identity_6",  "Identity_4", "Identity",    "input_1",    "Identity_12",
-      "Identity_11", "Identity_3", "Identity_10", "Identity_9", "Identity_5",
-      "Identity_8",  "Identity_7", "Identity_2"};
-
-  std::vector<std::string> input_names = {
-      "args_0",    "args_0_1",  "args_0_2", "args_0_4", "args_0_3",
-      "args_0_5",  "args_0_6",  "args_0_7", "args_0_8", "args_0_9",
-      "args_0_10", "args_0_11", "args_0_12"};
-
-  // Copy outputs of the first model to the inputs of the second model based on
-  // names
-  for (size_t i = 0; i < input_names.size(); ++i) {
-    int input_index = get_tensor_index_by_name(
-        backend_data_->second_interpreter, input_names[i], true);
-    int output_index = get_tensor_index_by_name(
-        backend_data_->first_interpreter, output_names[i], false);
-
-    if (input_index == -1 || output_index == -1) {
-      std::cerr << "Failed to find matching input or output tensor by name!"
-                << std::endl;
-      exit(-1);
-    }
-
-    auto first_model_output_details = TfLiteInterpreterGetOutputTensor(
-        backend_data_->first_interpreter, output_index);
-
-    float* output_data =
-        reinterpret_cast<float*>(TfLiteTensorData(first_model_output_details));
-    int output_size =
-        TfLiteTensorByteSize(first_model_output_details) / sizeof(float);
-
-    float* input_data = reinterpret_cast<float*>(
-        TfLiteTensorData(TfLiteInterpreterGetInputTensor(
-            backend_data_->second_interpreter, input_index)));
-
-    std::copy(output_data, output_data + output_size, input_data);
-  }
-
-  // Invoke the second model
-  if (TfLiteInterpreterInvoke(backend_data_->second_interpreter) != kTfLiteOk) {
-    std::cerr << "Failed to invoke the second diffusion model!" << std::endl;
-    exit(-1);
-  }
-
   float* output = reinterpret_cast<float*>(TfLiteTensorData(
-      TfLiteInterpreterGetOutputTensor(backend_data_->second_interpreter, 0)));
+      TfLiteInterpreterGetOutputTensor(backend_data_->sd_interpreter, 0)));
   int output_size = TfLiteTensorByteSize(TfLiteInterpreterGetOutputTensor(
-                        backend_data_->second_interpreter, 0)) /
+                        backend_data_->sd_interpreter, 0)) /
                     sizeof(float);
   return std::vector<float>(output, output + output_size);
 }
@@ -201,9 +153,9 @@ std::vector<float> StableDiffusionInvoker::run_inference(
 
   // Access the input tensors
   void* pos_ids_input_data =
-      TfLiteTensorData(TfLiteInterpreterGetInputTensor(interpreter, 0));
-  void* encoded_input_data =
       TfLiteTensorData(TfLiteInterpreterGetInputTensor(interpreter, 1));
+  void* encoded_input_data =
+      TfLiteTensorData(TfLiteInterpreterGetInputTensor(interpreter, 0));
 
   // Copy data to input tensors (type cast required for correct copy operation)
   std::memcpy(pos_ids_input_data, pos_ids.data(), pos_ids.size() * sizeof(int));
diff --git a/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_pipeline.cc b/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_pipeline.cc
@@ -66,39 +66,31 @@ mlperf_backend_ptr_t StableDiffusionPipeline::backend_create(
 
   // Load models from the provided directory path
   std::string text_encoder_path =
-      std::string(model_path) + "/text_encoder.tflite";
-  std::string first_model_path =
-      std::string(model_path) + "/first_model.tflite";
-  std::string second_model_path =
-      std::string(model_path) + "/second_model.tflite";
-  std::string decoder_path = std::string(model_path) + "/decoder.tflite";
+      std::string(model_path) + "/sd_text_encoder_dynamic.tflite";
+  std::string sd_model_path =
+      std::string(model_path) + "/sd_diffusion_model_dynamic.tflite";
+  std::string decoder_path =
+      std::string(model_path) + "/sd_decoder_dynamic.tflite";
 
   backend_data->text_encoder_model =
       TfLiteModelCreateFromFile(text_encoder_path.c_str());
-  backend_data->first_model =
-      TfLiteModelCreateFromFile(first_model_path.c_str());
-  backend_data->second_model =
-      TfLiteModelCreateFromFile(second_model_path.c_str());
+  backend_data->sd_model = TfLiteModelCreateFromFile(sd_model_path.c_str());
   backend_data->decoder_model = TfLiteModelCreateFromFile(decoder_path.c_str());
 
-  if (!backend_data->text_encoder_model || !backend_data->first_model ||
-      !backend_data->second_model || !backend_data->decoder_model) {
+  if (!backend_data->text_encoder_model || !backend_data->sd_model ||
+      !backend_data->decoder_model) {
     delete backend_data;
     return nullptr;
   }
 
   backend_data->text_encoder_interpreter =
       create_interpreter(backend_data->text_encoder_model);
-  backend_data->first_interpreter =
-      create_interpreter(backend_data->first_model);
-  backend_data->second_interpreter =
-      create_interpreter(backend_data->second_model);
+  backend_data->sd_interpreter = create_interpreter(backend_data->sd_model);
   backend_data->decoder_interpreter =
       create_interpreter(backend_data->decoder_model);
 
   if (!backend_data->text_encoder_interpreter ||
-      !backend_data->first_interpreter || !backend_data->second_interpreter ||
-      !backend_data->decoder_interpreter) {
+      !backend_data->sd_interpreter || !backend_data->decoder_interpreter) {
     backend_delete(backend_data);
     return nullptr;
   }
@@ -142,8 +134,7 @@ void StableDiffusionPipeline::backend_delete(mlperf_backend_ptr_t backend_ptr) {
   SDBackendData* backend_data = static_cast<SDBackendData*>(backend_ptr);
   if (backend_data) {
     TfLiteModelDelete(backend_data->text_encoder_model);
-    TfLiteModelDelete(backend_data->first_model);
-    TfLiteModelDelete(backend_data->second_model);
+    TfLiteModelDelete(backend_data->sd_model);
     TfLiteModelDelete(backend_data->decoder_model);
     delete backend_data;
   }
@@ -214,7 +205,7 @@ mlperf_status_t StableDiffusionPipeline::backend_set_input(
     ++token_count;
   }
 
-  std::vector<int> unconditioned_tokens(87, 49407);
+  std::vector<int> unconditioned_tokens(77, 49407);
   unconditioned_tokens[0] = 49406;
 
   backend_data->input_prompt_tokens.assign(tokens, tokens + token_count);
diff --git a/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_pipeline.h b/mobile_back_tflite/cpp/backend_tflite/stable_diffusion_pipeline.h
@@ -27,13 +27,11 @@ struct SDBackendData {
   const char *accelerator = "CPU";
 
   TfLiteModel *text_encoder_model{nullptr};
-  TfLiteModel *first_model{nullptr};
-  TfLiteModel *second_model{nullptr};
+  TfLiteModel *sd_model{nullptr};
   TfLiteModel *decoder_model{nullptr};
 
   TfLiteInterpreter *text_encoder_interpreter{nullptr};
-  TfLiteInterpreter *first_interpreter{nullptr};
-  TfLiteInterpreter *second_interpreter{nullptr};
+  TfLiteInterpreter *sd_interpreter{nullptr};
   TfLiteInterpreter *decoder_interpreter{nullptr};
 
   std::vector<int> input_prompt_tokens;