Kv cache transfer support duplicate heads (#4929)

chuangz0 · web-flow · commit 9a874760c17c · 2025-06-09T14:11:19.000+08:00
Signed-off-by: Chuang Zhu &lt;111838961+chuangz0@users.noreply.github.com&gt;
diff --git a/cpp/tensorrt_llm/batch_manager/cacheFormatter.cpp b/cpp/tensorrt_llm/batch_manager/cacheFormatter.cpp
diff --git a/cpp/tensorrt_llm/batch_manager/cacheFormatter.h b/cpp/tensorrt_llm/batch_manager/cacheFormatter.h
@@ -96,6 +96,11 @@ class CacheFormatter final : public IOFormatter
         return mCacheManager;
     }
 
+    static bool needSendCache(CacheState const& selfConfig, CacheState const& destConfig, runtime::SizeType32 selfIdx);
+    std::vector<executor::kv_cache::Connection const*> pickRecvConnections(
+        std::vector<executor::kv_cache::Connection const*> const& connections, CacheState const& selfConfig,
+        SizeType32 selfIdx, CacheState const& destConfig) const override;
+
 private:
     BaseKVCacheManager* mCacheManager{};
 
diff --git a/cpp/tensorrt_llm/batch_manager/dataTransceiver.h b/cpp/tensorrt_llm/batch_manager/dataTransceiver.h
@@ -66,6 +66,11 @@ class IOFormatter
         CacheState const& selfConfig, SizeType32 selfIdx, CacheState const& destConfig) const
         = 0;
 
+    [[nodiscard]] virtual std::vector<executor::kv_cache::Connection const*> pickRecvConnections(
+        std::vector<executor::kv_cache::Connection const*> const& connections, CacheState const& selfConfig,
+        SizeType32 selfIdx, CacheState const& destConfig) const
+        = 0;
+
     /// @brief Destructor.
     virtual ~IOFormatter() = default;
 };
diff --git a/cpp/tensorrt_llm/batch_manager/dataTransceiverImpl.cpp b/cpp/tensorrt_llm/batch_manager/dataTransceiverImpl.cpp
@@ -185,18 +185,28 @@ void DataReceiverImpl::sendRequestInfo(LlmRequest const& llmRequest)
     }
     auto counterParts = mFormatter->getCounterparts(
         mSelfState.getCacheState().value(), mSelfState.getCommState().value().getSelfIdx(), destCacheState);
+
+    auto connections = mManager->getConnections(commState);
+    std::vector<executor::kv_cache::Connection const*> counterPartConnections;
     for (auto index : counterParts)
     {
-        auto const* connection = mManager->getConnections(commState).at(index);
+        auto const* connection = connections.at(index);
+        counterPartConnections.emplace_back(connection);
+    }
+    auto pickUpConnections = mFormatter->pickRecvConnections(counterPartConnections, mSelfState.getCacheState().value(),
+        mSelfState.getCommState().value().getSelfIdx(), destCacheState);
+    for (auto connection : counterPartConnections)
+    {
         // if Manager is agentConnectionManager, then send request info to agent
         auto* agentConnectionManager = dynamic_cast<executor::kv_cache::AgentConnectionManager*>(mManager);
         if (agentConnectionManager != nullptr)
         {
             // TODO: index -> validConnectionIdx conversion
+            auto valideConnectionIdx
+                = std::find(pickUpConnections.begin(), pickUpConnections.end(), connection) - pickUpConnections.begin();
             auto* agentConnection = dynamic_cast<executor::kv_cache::AgentConnection const*>(connection);
             TLLM_CHECK(agentConnection != nullptr);
             TLLM_CHECK(cacheBufferId.has_value());
-            int valideConnectionIdx = std::find(counterParts.begin(), counterParts.end(), index) - counterParts.begin();
             const_cast<executor::kv_cache::AgentConnection*>(agentConnection)
                 ->sendRequestAndBufferInfo(requestInfo, cacheBufferId, valideConnectionIdx);
         }
diff --git a/cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.cpp b/cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.cpp
@@ -41,7 +41,7 @@ namespace tensorrt_llm::batch_manager::kv_cache_manager
 // some context rank in connection
 std::vector<executor::kv_cache::Connection const*> MLACacheFormatter::pickRecvConnections(
     std::vector<executor::kv_cache::Connection const*> const& connections, CacheState const& selfConfig,
-    SizeType32 selfIdx, CacheState const& destConfig)
+    SizeType32 selfIdx, CacheState const& destConfig) const
 {
 
     TLLM_CHECK(!connections.empty());
@@ -469,16 +469,18 @@ void MLACacheFormatter::formatInput(LlmRequest const& llmRequest,
 {
     if (selfConfig.getDataType() != destConfig.getDataType())
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same data type");
         return false;
     }
     if (selfConfig.getAttentionConfig().mAttentionType != CacheState::AttentionType::kMLA
         || destConfig.getAttentionConfig().mAttentionType != CacheState::AttentionType::kMLA)
     {
-
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support MLA");
         return false;
     }
     if (selfConfig.getAttentionConfig().mKvFactor != destConfig.getAttentionConfig().mKvFactor)
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same kv factor");
         return false;
     }
 
@@ -487,48 +489,56 @@ void MLACacheFormatter::formatInput(LlmRequest const& llmRequest,
 
     if (setVecSelf.size() != 1)
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support equal number of heads per layer");
         return false;
     }
     std::unordered_set<int> setVecDest{
         destConfig.getModelConfig().mNbKvHeadsPerLayer.begin(), destConfig.getModelConfig().mNbKvHeadsPerLayer.end()};
 
     if (setVecDest.size() != 1)
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support equal number of heads per layer");
         return false;
     }
     if (selfConfig.getModelConfig().mTokensPerBlock != destConfig.getModelConfig().mTokensPerBlock
         || selfConfig.getModelConfig().mSizePerHead != destConfig.getModelConfig().mSizePerHead)
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same tokens per block and size per head");
         return false;
     }
     if (selfConfig.getModelConfig().mNbKvHeadsPerLayer.size() != destConfig.getModelConfig().mNbKvHeadsPerLayer.size())
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same number of layers");
         return false;
     }
     if ((selfConfig.getModelConfig().mNbKvHeadsPerLayer.at(0) != 1)
         || (selfConfig.getModelConfig().mNbKvHeadsPerLayer.at(0) != 1))
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support MLA");
         return false;
     }
 
     if (selfConfig.getAttentionConfig().mKvFactor != destConfig.getAttentionConfig().mKvFactor)
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same kv factor");
         return false;
     }
     if (selfConfig.getParallelConfig().mEnableAttentionDP
         && (selfConfig.getParallelConfig().mTensorParallelism % selfConfig.getParallelConfig().mDPsize != 0))
     {
-
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be divisible by DP size");
         return false;
     }
     if (destConfig.getParallelConfig().mEnableAttentionDP
         && (destConfig.getParallelConfig().mTensorParallelism % destConfig.getParallelConfig().mDPsize != 0))
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be divisible by DP size");
         return false;
     }
     if ((destConfig.getParallelConfig().mEnableAttentionDP)
         && (destConfig.getParallelConfig().mTensorParallelism != destConfig.getParallelConfig().mDPsize))
     {
+        TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be equal to DP size");
         return false;
     }
 
diff --git a/cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.h b/cpp/tensorrt_llm/batch_manager/mlaCacheFormatter.h
@@ -72,9 +72,9 @@ class MLACacheFormatter final : public IOFormatter
     }
 
     static bool needSendCache(CacheState const& selfConfig, CacheState const& destConfig, runtime::SizeType32 selfIdx);
-    static std::vector<executor::kv_cache::Connection const*> pickRecvConnections(
+    std::vector<executor::kv_cache::Connection const*> pickRecvConnections(
         std::vector<executor::kv_cache::Connection const*> const& connections, CacheState const& selfConfig,
-        SizeType32 selfIdx, CacheState const& destConfig);
+        SizeType32 selfIdx, CacheState const& destConfig) const override;
 
 private:
     BaseKVCacheManager* mCacheManager{};
diff --git a/cpp/tensorrt_llm/executor/cache_transmission/cacheConcatenate.cu b/cpp/tensorrt_llm/executor/cache_transmission/cacheConcatenate.cu
@@ -85,6 +85,8 @@ TargetRanksInfo TargetRanksInfoForDP(
         ? peerCacheState.getParallelConfig().mTensorParallelism / peerCacheState.getParallelConfig().mDPsize
         : peerTPNum;
 
+    int selfNbHeadsPerLayer = selfCacheState.getModelConfig().mNbKvHeadsPerLayer[0];
+    int peerNbHeadsPerLayer = peerCacheState.getModelConfig().mNbKvHeadsPerLayer[0];
     int selfTPrankInDPGroup = selfTpRank % selfTPSizeOneDPGroup;
 
     {
@@ -112,51 +114,26 @@ TargetRanksInfo TargetRanksInfoForDP(
             retRanks.push_back(irank);
         }
     }
-    return {mDomainPPSize, mDomainTPSize, std::move(retRanks)};
+    int mDuplicateHeadFactor = 1;
+    int mPeerDuplicateHeadFactor = 1;
+    if (selfNbHeadsPerLayer * selfTPSizeOneDPGroup > peerNbHeadsPerLayer * peerTPSizeOneDPGroup)
+    {
+        mDuplicateHeadFactor
+            = (selfNbHeadsPerLayer * selfTPSizeOneDPGroup) / (peerNbHeadsPerLayer * peerTPSizeOneDPGroup);
+    }
+    if (peerNbHeadsPerLayer * peerTPSizeOneDPGroup > selfNbHeadsPerLayer * selfTPSizeOneDPGroup)
+    {
+        mPeerDuplicateHeadFactor
+            = (peerNbHeadsPerLayer * peerTPSizeOneDPGroup) / (selfNbHeadsPerLayer * selfTPSizeOneDPGroup);
+    }
+
+    return {mDomainPPSize, mDomainTPSize, std::move(retRanks), mDuplicateHeadFactor, mPeerDuplicateHeadFactor};
 }
 
 TargetRanksInfo targetIRanks(
     kv_cache::CacheState const& peerCacheState, kv_cache::CacheState const& selfCacheState, int selfRank)
 {
-    if (selfCacheState.getAttentionConfig().mAttentionType == CacheState::AttentionType::kMLA
-        || selfCacheState.getParallelConfig().mEnableAttentionDP
-        || peerCacheState.getParallelConfig().mEnableAttentionDP)
-    {
-        return TargetRanksInfoForDP(peerCacheState, selfCacheState, selfRank);
-    }
-    int iPPNum = peerCacheState.getParallelConfig().mPipelineParallelism; // TODO:
-    int oPPNum = selfCacheState.getParallelConfig().mPipelineParallelism;
-    int oNbKvHeads = selfCacheState.getModelConfig().mNbKvHeadsPerLayer[0];
-    int oNbLayers = selfCacheState.getModelConfig().mNbKvHeadsPerLayer.size() / oPPNum;
-    int iNbKvHeads = peerCacheState.getModelConfig().mNbKvHeadsPerLayer[0];
-    int iNbLayers = peerCacheState.getModelConfig().mNbKvHeadsPerLayer.size() / iPPNum;
-    int oTpRank = selfRank % selfCacheState.getParallelConfig().mTensorParallelism;
-    int oPpRank = selfRank / selfCacheState.getParallelConfig().mTensorParallelism;
-    int startHeadId = oTpRank * oNbKvHeads;
-    int endHeadId = (oTpRank + 1) * oNbKvHeads;
-    int startLayerId = oPpRank * oNbLayers;
-    int endLayerId = (oPpRank + 1) * oNbLayers;
-    int iTpRankStart = startHeadId / iNbKvHeads;
-    int iTpRankEndInclude = (endHeadId - 1) / iNbKvHeads;
-    int iPpRankStart = startLayerId / iNbLayers;
-    int iPpRankEndInclude = (endLayerId - 1) / iNbLayers;
-
-    int iTPNum = peerCacheState.getParallelConfig().mTensorParallelism;
-    std::vector<int> retRanks;
-
-    for (int i = iTpRankStart; i <= iTpRankEndInclude; i++)
-    {
-        for (int j = iPpRankStart; j <= iPpRankEndInclude; j++)
-        {
-            int irank = j * iTPNum + i;
-            retRanks.push_back(irank);
-        }
-    }
-    // [tp ,pp]  order
-    int mDomainPPSize = iPpRankEndInclude - iPpRankStart + 1;
-    int mDomainTPSize = iTpRankEndInclude - iTpRankStart + 1;
-    TLLM_CHECK(!retRanks.empty());
-    return {mDomainPPSize, mDomainTPSize, std::move(retRanks)};
+    return TargetRanksInfoForDP(peerCacheState, selfCacheState, selfRank);
 }
 
 template <typename T>
@@ -791,6 +768,10 @@ void splitKVCache(std::vector<runtime::ITensor::SharedPtr> const& kVCacheBlocks,
     {
         outputCacheNum = targetRankInfo.mDomainPPSize;
     }
+    else
+    {
+        outputCacheNum = outputCacheNum / targetRankInfo.mPeerDuplicateHeadFactor;
+    }
     TLLM_CHECK(outputCacheNum == outputSplitBlocks.size());
     TLLM_CHECK(inputBlockNum > 0);
     auto cacheBlockSize = kVCacheBlocks.at(0)->getSize();
@@ -840,7 +821,8 @@ void splitKVCache(std::vector<runtime::ITensor::SharedPtr> const& kVCacheBlocks,
     int iTPNum = destCacheState.getParallelConfig().mTensorParallelism;
     int oTPNum = selfCacheState.getParallelConfig().mTensorParallelism;
     int layerNumDomainPP = numLayers / DomainPPSize;
-    int headNumDomainTP = headNum / DomainTPSize;
+    int headNumDomainTP
+        = headNum / (DomainTPSize / targetRankInfo.mPeerDuplicateHeadFactor); // TODO: duplicate head factor
     int kvFactor = selfCacheState.getAttentionConfig().mKvFactor;
     bool isMLA = selfCacheState.getAttentionConfig().mAttentionType == CacheState::AttentionType::kMLA;
     constexpr int mlaSubWarpSize = 16;
@@ -1017,6 +999,10 @@ void concatenateKVCache(std::vector<runtime::ITensor::SharedPtr> const& inputSpl
     {
         inputCacheNum = targetRankInfo.mDomainPPSize;
     }
+    else
+    {
+        inputCacheNum = inputCacheNum / targetRankInfo.mPeerDuplicateHeadFactor;
+    }
     TLLM_CHECK(inputCacheNum == inputSplitBlocks.size());
     TLLM_CHECK(outputBlockNum > 0);
     auto cacheBlockSize = outputKvCacheBlocks.at(0)->getSize();
@@ -1064,7 +1050,8 @@ void concatenateKVCache(std::vector<runtime::ITensor::SharedPtr> const& inputSpl
     int iTPNum = destCacheState.getParallelConfig().mTensorParallelism;
     int oTPNum = selfCacheState.getParallelConfig().mTensorParallelism;
     int layerNumDomainPP = numLayers / DomainPPSize;
-    int headNumDomainTP = headNum / DomainTPSize;
+    int headNumDomainTP
+        = headNum / (DomainTPSize / targetRankInfo.mPeerDuplicateHeadFactor); // TODO: duplicate head factor
     int kvFactor = selfCacheState.getAttentionConfig().mKvFactor;
 
     bool isMLA = selfCacheState.getAttentionConfig().mAttentionType == CacheState::AttentionType::kMLA;
diff --git a/cpp/tensorrt_llm/executor/cache_transmission/cacheConcatenate.h b/cpp/tensorrt_llm/executor/cache_transmission/cacheConcatenate.h
@@ -36,6 +36,8 @@ struct TargetRanksInfo
     int mDomainPPSize;
     int mDomainTPSize;
     std::vector<int> mIRanks;
+    int mDuplicateHeadFactor;
+    int mPeerDuplicateHeadFactor;
 };
 
 TargetRanksInfo targetIRanks(
diff --git a/cpp/tests/batch_manager/cacheTransceiverTest.cpp b/cpp/tests/batch_manager/cacheTransceiverTest.cpp
@@ -606,16 +606,24 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
         ASSERT_EQ(numLayers % mPpSize, 0);
         if (!isMLA)
         {
-            ASSERT_EQ(numHeads % mTpSize, 0);
+            // ASSERT_EQ(numHeads % mTpSize , 0);
+            ASSERT_TRUE(numHeads % mTpSize == 0 || mTpSize % numHeads == 0);
         }
         else
         {
             ASSERT_EQ(numHeads, 1);
         }
-        int numHeadsPerRank = numHeads / mTpSize;
+        int numHeadsPerRank = (numHeads + mTpSize - 1) / mTpSize;
+        mDuplicateHeadFactor = 1;
+        if (mTpSize > numHeads)
+        {
+            mDuplicateHeadFactor = mTpSize / numHeads;
+            ASSERT_EQ(numHeadsPerRank, 1);
+        }
         if (isMLA || enableDPAttention)
         {
             numHeadsPerRank = numHeads;
+            mDuplicateHeadFactor = 1;
         }
         auto hiddenSize = numHeadsPerRank * sizePerHead;
         auto maxBlocksPerSeq = 10;
@@ -656,7 +664,7 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
             DPsize = mTpSize;
         }
 
-        int numHeadsPerRankForContext = numHeads / mContextTpSize;
+        int numHeadsPerRankForContext = (numHeads + mContextTpSize - 1) / mContextTpSize;
         if (isMLA || mContextDP)
         {
             numHeadsPerRankForContext = numHeads;
@@ -806,7 +814,7 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
         }
         else
         {
-            TLLM_CHECK(false);
+            TLLM_CHECK_WITH_INFO(false, "Please set at least one cache transfer backend");
         }
     }
 
@@ -906,7 +914,7 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
         int layerSizePerRank = mCacheState->getModelConfig().mNbKvHeadsPerLayer.size() / mPpSize;
         int startLayerId = layerSizePerRank * mPpRank;
         int headSizePerRank = mCacheState->getModelConfig().mNbKvHeadsPerLayer.at(0);
-        int startHeadId = headSizePerRank * mTpRank;
+        int startHeadId = headSizePerRank * (mTpRank / mDuplicateHeadFactor);
         bool enableDP = mCacheState->getParallelConfig().mEnableAttentionDP;
         if (mIsMLA || enableDP)
         {
@@ -970,7 +978,7 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
         int layerSizePerRank = mCacheState->getModelConfig().mNbKvHeadsPerLayer.size() / mPpSize;
         int startLayerId = layerSizePerRank * mPpRank;
         int headSizePerRank = mCacheState->getModelConfig().mNbKvHeadsPerLayer.at(0);
-        int startHeadId = headSizePerRank * mTpRank;
+        int startHeadId = headSizePerRank * (mTpRank / mDuplicateHeadFactor);
         bool enableDP = mCacheState->getParallelConfig().mEnableAttentionDP;
         if (mIsMLA || enableDP)
         {
@@ -1063,6 +1071,7 @@ class AsymmetricalCacheTest : public ::testing::TestWithParam<AsymmetricTestPara
     bool mContextDP{false};
     bool mGenerationDP{false};
     bool mIsMLA{false};
+    int mDuplicateHeadFactor{1};
     SizeType32 mMaxNumSequences{};
     std::unique_ptr<KVCacheManager> mManager;
     std::unique_ptr<CacheTransBufferManager> mCacheTransBufferManager;
@@ -1343,6 +1352,28 @@ INSTANTIATE_TEST_CASE_P(AsymmetricCaseTestWithDPForNoMLA2, AsymmetricalCacheTest
         testing::Values(4), testing::Values(4), testing::Values(4), testing::Values(16),
         testing::Values(nvinfer1::DataType::kFLOAT, nvinfer1::DataType::kINT8), testing::Values(2),
         testing::Values(false), testing::Values(false), testing::Values(true)));
+INSTANTIATE_TEST_CASE_P(AsymmetricCaseTestWithDPForNoMLADuplicate0, AsymmetricalCacheTestWithDP,
+    testing::Combine(testing::Values(1, 2), testing::Values(1, 2), testing::Values(4), testing::Values(1),
+        testing::Values(4), testing::Values(2), testing::Values(4), testing::Values(16),
+        testing::Values(nvinfer1::DataType::kFLOAT, nvinfer1::DataType::kINT8), testing::Values(2),
+        testing::Values(false), testing::Values(true, false), testing::Values(false)));
+
+INSTANTIATE_TEST_CASE_P(AsymmetricCaseTestWithDPForNoMLADuplicate1, AsymmetricalCacheTestWithDP,
+    testing::Combine(testing::Values(1, 2), testing::Values(1, 2), testing::Values(2), testing::Values(2),
+        testing::Values(4), testing::Values(1), testing::Values(4), testing::Values(16),
+        testing::Values(nvinfer1::DataType::kFLOAT, nvinfer1::DataType::kINT8), testing::Values(2),
+        testing::Values(false), testing::Values(true, false), testing::Values(false)));
+INSTANTIATE_TEST_CASE_P(AsymmetricCaseTestWithDPForNoMLADuplicate2, AsymmetricalCacheTestWithDP,
+    testing::Combine(testing::Values(4), testing::Values(1), testing::Values(4, 2), testing::Values(1),
+        testing::Values(4), testing::Values(2), testing::Values(4), testing::Values(16),
+        testing::Values(nvinfer1::DataType::kFLOAT, nvinfer1::DataType::kINT8), testing::Values(2),
+        testing::Values(false), testing::Values(false), testing::Values(false)));
+INSTANTIATE_TEST_CASE_P(AsymmetricCaseTestWithDPForNoMLADuplicate4, AsymmetricalCacheTestWithDP,
+    testing::Combine(testing::Values(4), testing::Values(1), testing::Values(1, 2), testing::Values(2),
+        testing::Values(4), testing::Values(1, 2), testing::Values(4), testing::Values(16),
+        testing::Values(nvinfer1::DataType::kFLOAT, nvinfer1::DataType::kINT8), testing::Values(2),
+        testing::Values(false), testing::Values(false), testing::Values(false)));
+
 #endif
 
 TEST(targetTest, CacheStateNODP)

Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@ namespace tensorrt_llm::batch_manager::kv_cache_manager`
`41`	`41`	`// some context rank in connection`
`42`	`42`	`std::vector<executor::kv_cache::Connection const*> MLACacheFormatter::pickRecvConnections(`
`43`	`43`	`std::vector<executor::kv_cache::Connection const*> const& connections, CacheState const& selfConfig,`
`44`		`- SizeType32 selfIdx, CacheState const& destConfig)`
	`44`	`+ SizeType32 selfIdx, CacheState const& destConfig) const`
`45`	`45`	`{`
`46`	`46`
`47`	`47`	`TLLM_CHECK(!connections.empty());`
`@@ -469,16 +469,18 @@ void MLACacheFormatter::formatInput(LlmRequest const& llmRequest,`
`469`	`469`	`{`
`470`	`470`	`if (selfConfig.getDataType() != destConfig.getDataType())`
`471`	`471`	`{`
	`472`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same data type");`
`472`	`473`	`return false;`
`473`	`474`	`}`
`474`	`475`	`if (selfConfig.getAttentionConfig().mAttentionType != CacheState::AttentionType::kMLA`
`475`	`476`	`\|\| destConfig.getAttentionConfig().mAttentionType != CacheState::AttentionType::kMLA)`
`476`	`477`	`{`
`477`		`-`
	`478`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support MLA");`
`478`	`479`	`return false;`
`479`	`480`	`}`
`480`	`481`	`if (selfConfig.getAttentionConfig().mKvFactor != destConfig.getAttentionConfig().mKvFactor)`
`481`	`482`	`{`
	`483`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same kv factor");`
`482`	`484`	`return false;`
`483`	`485`	`}`
`484`	`486`
`@@ -487,48 +489,56 @@ void MLACacheFormatter::formatInput(LlmRequest const& llmRequest,`
`487`	`489`
`488`	`490`	`if (setVecSelf.size() != 1)`
`489`	`491`	`{`
	`492`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support equal number of heads per layer");`
`490`	`493`	`return false;`
`491`	`494`	`}`
`492`	`495`	`std::unordered_set<int> setVecDest{`
`493`	`496`	`destConfig.getModelConfig().mNbKvHeadsPerLayer.begin(), destConfig.getModelConfig().mNbKvHeadsPerLayer.end()};`
`494`	`497`
`495`	`498`	`if (setVecDest.size() != 1)`
`496`	`499`	`{`
	`500`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support equal number of heads per layer");`
`497`	`501`	`return false;`
`498`	`502`	`}`
`499`	`503`	`if (selfConfig.getModelConfig().mTokensPerBlock != destConfig.getModelConfig().mTokensPerBlock`
`500`	`504`	`\|\| selfConfig.getModelConfig().mSizePerHead != destConfig.getModelConfig().mSizePerHead)`
`501`	`505`	`{`
	`506`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same tokens per block and size per head");`
`502`	`507`	`return false;`
`503`	`508`	`}`
`504`	`509`	`if (selfConfig.getModelConfig().mNbKvHeadsPerLayer.size() != destConfig.getModelConfig().mNbKvHeadsPerLayer.size())`
`505`	`510`	`{`
	`511`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same number of layers");`
`506`	`512`	`return false;`
`507`	`513`	`}`
`508`	`514`	`if ((selfConfig.getModelConfig().mNbKvHeadsPerLayer.at(0) != 1)`
`509`	`515`	`\|\| (selfConfig.getModelConfig().mNbKvHeadsPerLayer.at(0) != 1))`
`510`	`516`	`{`
	`517`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support MLA");`
`511`	`518`	`return false;`
`512`	`519`	`}`
`513`	`520`
`514`	`521`	`if (selfConfig.getAttentionConfig().mKvFactor != destConfig.getAttentionConfig().mKvFactor)`
`515`	`522`	`{`
	`523`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: only support same kv factor");`
`516`	`524`	`return false;`
`517`	`525`	`}`
`518`	`526`	`if (selfConfig.getParallelConfig().mEnableAttentionDP`
`519`	`527`	`&& (selfConfig.getParallelConfig().mTensorParallelism % selfConfig.getParallelConfig().mDPsize != 0))`
`520`	`528`	`{`
`521`		`-`
	`529`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be divisible by DP size");`
`522`	`530`	`return false;`
`523`	`531`	`}`
`524`	`532`	`if (destConfig.getParallelConfig().mEnableAttentionDP`
`525`	`533`	`&& (destConfig.getParallelConfig().mTensorParallelism % destConfig.getParallelConfig().mDPsize != 0))`
`526`	`534`	`{`
	`535`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be divisible by DP size");`
`527`	`536`	`return false;`
`528`	`537`	`}`
`529`	`538`	`if ((destConfig.getParallelConfig().mEnableAttentionDP)`
`530`	`539`	`&& (destConfig.getParallelConfig().mTensorParallelism != destConfig.getParallelConfig().mDPsize))`
`531`	`540`	`{`
	`541`	`+ TLLM_LOG_WARNING("MLACacheFormatter::inquireSupport: TP size must be equal to DP size");`
`532`	`542`	`return false;`
`533`	`543`	`}`
`534`	`544`