openvinotoolkit
diff --git a/‎src/cpp/src/llm/pipeline.cpp‎
Lines changed: 4 additions & 15 deletions b/‎src/cpp/src/llm/pipeline.cpp‎
Lines changed: 4 additions & 15 deletions
diff --git a/‎src/cpp/src/llm/pipeline_stateful_npu.cpp‎
Lines changed: 96 additions & 0 deletions b/‎src/cpp/src/llm/pipeline_stateful_npu.cpp‎
Lines changed: 96 additions & 0 deletions
diff --git a/‎src/cpp/src/llm/pipeline_stateful_npu.hpp‎
Lines changed: 53 additions & 0 deletions b/‎src/cpp/src/llm/pipeline_stateful_npu.hpp‎
Lines changed: 53 additions & 0 deletions
diff --git a/‎src/cpp/src/speculative_decoding/speculative_decoding_impl.hpp‎
Lines changed: 1 addition & 24 deletions b/‎src/cpp/src/speculative_decoding/speculative_decoding_impl.hpp‎
Lines changed: 1 addition & 24 deletions
@@ -9,10 +9,10 @@
 #include "openvino/genai/llm_pipeline.hpp"
 #include "openvino/genai/perf_metrics.hpp"
 
-#include "llm/pipeline_static.hpp"
 #include "llm/pipeline_stateful.hpp"
 #include "llm/pipeline_continuous_batching_adapter.hpp"
 #include "speculative_decoding/speculative_decoding_impl.hpp"
+#include "llm/pipeline_stateful_npu.hpp"
 #include "utils.hpp"
 
 namespace ov {
@@ -85,9 +85,7 @@ ov::genai::LLMPipeline::LLMPipeline(
         auto [device_properties, scheduler_config] = utils::extract_scheduler_config(properties, utils::get_latency_oriented_scheduler_config());
         m_pimpl = std::make_unique<ContinuousBatchingAdapter>(models_path, tokenizer, scheduler_config, device, device_properties);
     } else if (device == "NPU") {
-        m_pimpl = properties.count("STATIC_PIPELINE")
-            ? static_llm::LLMPipelineFactory::create(models_path, tokenizer, properties)
-            : std::make_unique<StatefulLLMPipeline>(models_path, tokenizer, device, properties);
+        m_pimpl = std::make_unique<StatefulLLMPipelineNPU>(models_path, tokenizer, properties);
     } else if (attention_backend == PA_BACKEND) {
         // try to call CB adapter one more time, but with safe guard to silent exception
         try {
@@ -122,9 +120,7 @@ ov::genai::LLMPipeline::LLMPipeline(
         auto [device_properties, scheduler_config] = utils::extract_scheduler_config(properties, utils::get_latency_oriented_scheduler_config());
         m_pimpl = std::make_unique<ContinuousBatchingAdapter>(models_path, scheduler_config, device, device_properties);
     } else if (device == "NPU") {
-        m_pimpl = properties.count("STATIC_PIPELINE")
-            ? static_llm::LLMPipelineFactory::create(models_path, properties)
-            : std::make_unique<StatefulLLMPipeline>(models_path, device, properties);
+        m_pimpl = std::make_unique<StatefulLLMPipelineNPU>(models_path, properties);
     } else if (attention_backend == PA_BACKEND) {
         // try to call CB adapter one more time, but with safe guard to silent exception
         try {
@@ -163,16 +159,9 @@ ov::genai::LLMPipeline::LLMPipeline(
         m_pimpl = std::make_unique<ContinuousBatchingAdapter>(model_str, weights_tensor,
                                                               tokenizer, scheduler_config, device, device_properties, generation_config);
     } else if (device == "NPU") {
-        m_pimpl = properties.count("STATIC_PIPELINE")
-            ? static_llm::LLMPipelineFactory::create(
-                  utils::singleton_core().read_model(model_str, weights_tensor),
-                  tokenizer,
-                  properties,
-                  generation_config)
-            : std::make_unique<StatefulLLMPipeline>(
+        m_pimpl = std::make_unique<StatefulLLMPipelineNPU>(
                 utils::singleton_core().read_model(model_str, weights_tensor),
                 tokenizer,
-                device,
                 properties,
                 generation_config);
     } else if (attention_backend == PA_BACKEND) {
 
@@ -0,0 +1,96 @@
+
+// Copyright (C) 2025 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+
+#include "pipeline_stateful_npu.hpp"
+#include "speculative_decoding/speculative_decoding_npu.hpp"
+#include "llm/pipeline_stateful.hpp"
+#include "llm/pipeline_static.hpp"
+#include "utils.hpp"
+
+#include <fstream>
+
+#include "openvino/runtime/core.hpp"
+#include "openvino/core/parallel.hpp"
+#include "openvino/genai/text_streamer.hpp"
+
+namespace {
+    ov::genai::ModelDesc
+    extract_draft_model_from_config(ov::AnyMap& config) {
+        ov::genai::ModelDesc draft_model;
+        if (config.find(ov::genai::utils::DRAFT_MODEL_ARG_NAME) != config.end()) {
+            draft_model = config.at(ov::genai::utils::DRAFT_MODEL_ARG_NAME).as<ov::genai::ModelDesc>();
+            config.erase(ov::genai::utils::DRAFT_MODEL_ARG_NAME);
+        }
+        return draft_model;
+}
+} // anonymous namespace
+
+namespace ov::genai {
+
+// NB: No constructor for creation of pipeline from infer request, as pipeline from infer request
+//     for NPU is handled inside of ov::genai::StatefulLLMPipeline class iself.
+StatefulLLMPipelineNPU::StatefulLLMPipelineNPU(
+    const std::filesystem::path& models_path,
+    const ov::genai::Tokenizer& tokenizer,
+    const ov::AnyMap& properties)
+    : StatefulLLMPipelineNPU(
+        utils::read_model(models_path, properties),
+        tokenizer,
+        properties,
+        utils::from_config_json_if_exists(models_path)
+    ) {}
+
+StatefulLLMPipelineNPU::StatefulLLMPipelineNPU(
+    const std::filesystem::path& models_path,
+    const ov::AnyMap& plugin_config)
+    : StatefulLLMPipelineNPU{models_path, Tokenizer(models_path, plugin_config), plugin_config} {}
+
+StatefulLLMPipelineNPU::StatefulLLMPipelineNPU(
+    const std::shared_ptr<ov::Model>& model,
+    const ov::genai::Tokenizer& tokenizer,
+    const ov::AnyMap& properties,
+    const ov::genai::GenerationConfig& generation_config)
+    : LLMPipelineImplBase(tokenizer, generation_config) {
+    auto properties_without_draft_model = properties;
+    auto draft_model_descr = extract_draft_model_from_config(properties_without_draft_model);
+     if (draft_model_descr.model != nullptr) {
+        auto main_model_descr = ov::genai::ModelDesc(model, tokenizer, "NPU", properties_without_draft_model, {}, generation_config);
+        m_pimpl = std::make_unique<SpeculativeLLMPipelineNPU>(main_model_descr, draft_model_descr);
+    } else if (properties_without_draft_model.count("STATIC_PIPELINE")) {
+        m_pimpl = static_llm::LLMPipelineFactory::create(model, tokenizer,
+            properties_without_draft_model, generation_config);
+    } else {
+        m_pimpl = std::make_unique<StatefulLLMPipeline>(model, tokenizer, "NPU",
+            properties_without_draft_model, generation_config);
+    }
+}
+
+DecodedResults StatefulLLMPipelineNPU::generate(
+    StringInputs inputs,
+    OptionalGenerationConfig generation_config,
+    StreamerVariant streamer) {
+        return m_pimpl->generate(inputs, generation_config, streamer);
+}
+
+EncodedResults StatefulLLMPipelineNPU::generate(
+    const EncodedInputs& inputs,
+    OptionalGenerationConfig generation_config,
+    StreamerVariant streamer) {
+        return m_pimpl->generate(inputs, generation_config, streamer);
+}
+
+void StatefulLLMPipelineNPU::start_chat(const std::string& system_message) {
+    m_pimpl->start_chat(system_message);
+}
+
+// FIXME: Do we need it?
+// void StatefulLLMPipelineNPU::reset_kv_state() {
+//     m_pimpl->reset_kv_state();
+// }
+
+void StatefulLLMPipelineNPU::finish_chat() {
+    m_pimpl->finish_chat();
+}
+
+} // namespace ov::genai
@@ -0,0 +1,53 @@
+// Copyright (C) 2025 Intel Corporation
+// SPDX-License-Identifier: Apache-2.0
+
+
+#include <limits>
+
+#include "llm/pipeline_base.hpp"
+
+namespace ov::genai {
+
+class StatefulLLMPipelineNPU final : public LLMPipelineImplBase {
+public:
+    StatefulLLMPipelineNPU(
+        const std::filesystem::path& models_path,
+        const ov::genai::Tokenizer& tokenizer,
+        const ov::AnyMap& plugin_config
+    );
+
+    StatefulLLMPipelineNPU(
+        const std::filesystem::path& models_path,
+        const ov::AnyMap& plugin_config
+    );
+
+    StatefulLLMPipelineNPU(
+        const std::shared_ptr<ov::Model>& model,
+        const ov::genai::Tokenizer& tokenizer,
+        const ov::AnyMap& config,
+        const ov::genai::GenerationConfig& generation_config
+    );
+
+    DecodedResults generate(
+        StringInputs inputs,
+        OptionalGenerationConfig generation_config,
+        StreamerVariant streamer
+    ) override;
+
+    EncodedResults generate(
+        const EncodedInputs& inputs,
+        OptionalGenerationConfig generation_config,
+        StreamerVariant streamer
+    ) override;
+
+    void start_chat(const std::string& system_message) override;
+
+    void finish_chat() override;
+
+    ~StatefulLLMPipelineNPU() = default;
+
+private:
+    std::unique_ptr<LLMPipelineImplBase> m_pimpl;
+};
+
+} // namespace ov::genai
@@ -8,33 +8,10 @@
 #include "speculative_decoding/continuous_batching_for_speculative_decoding_impl.hpp"
 #include "speculative_decoding/speculative_decoding_metrics.hpp"
 #include "openvino/genai/speculative_decoding/perf_metrics.hpp"
+#include "utils.hpp"
 
 namespace ov::genai {
 
-struct ModelDesc {
-    std::string device;
-    ov::genai::SchedulerConfig scheduler_config;
-    ov::AnyMap properties;
-    ov::genai::GenerationConfig generation_config;
-    std::shared_ptr<ov::Model> model = nullptr;
-    ov::genai::Tokenizer tokenizer;
-
-    ModelDesc(const std::shared_ptr<ov::Model>& model,
-              const ov::genai::Tokenizer& tokenizer,
-              const std::string& device = {},
-              const ov::AnyMap& properties = {},
-              const ov::genai::SchedulerConfig& scheduler_config = {},
-              const ov::genai::GenerationConfig& generation_config = {}) :
-        model(model),
-        tokenizer(tokenizer),
-        device(device),
-        properties(properties),
-        scheduler_config(scheduler_config),
-        generation_config(generation_config) {}
-    
-    ModelDesc() = default;
-};
-
 class ContinuousBatchingPipeline::SpeculativeDecodingImpl : public ContinuousBatchingPipeline::IContinuousBatchingPipeline {
 protected:
     std::shared_ptr<ContinuousBatchingForSpeculativeDecodingImpl> m_main_pipeline, m_draft_pipeline;