Releases: wangzhaode/mnn-llm
Releases · wangzhaode/mnn-llm
chatglm-6b-mnn
baichuan2-7b-chat-mnn
Baichuan2-7B-Chat导出onnx转换得到的int4量化版本mnn模型。
模型列表:
- tokenizer.txt
- embedding.mnn
- lm.mnn
- block_[0-31].mnn
Linux/Android预编译包
Linux与Android的预编译包
ChatGLM-6B ONNX Models
ChatGLM-6B导出的ONNX模型,权重使用fp32保存;使用顺序如下:
embedding -> block_0 -> ... -> block_27 -> lm_head
提供ONNX便于在其他框架上进行部署与测试。
onnx模型转移到 https://github.com/wangzhaode/llm-export 项目中。
ChatGLM-MNN fp16 models
ChatGLM-MNN models with fp16 weight.
-权值使用fp16存储,相比fp32模型降低一半;推理时precision=Low则使用fp16;否则使用fp32。
- fp16权值会相比于fp32基本无损。