[Bug]: MLA实现没有带来任何收益

MLA（multi head latent attention）的实现本来是为着提升推理速度，但由于存入缓存的数据比基线（Llama）更大，因此不但未带来任何收益，而且与基线（Llama）相比，占用显存更多，推理更慢。

下面是 DeepSeekV3 HF官网的MLA实现，可见存入KVCache的数据量，比基线（Llama）还大：
![cba6bdda9920aacfab1acc96e21652a](https://github.com/user-attachments/assets/7dbad84d-ff6d-4aff-b5c2-574054bc4fba)

下面是推理测速的结果：
![image](https://github.com/user-attachments/assets/701dd5e2-92b4-4c12-bc67-9dac03149108)