Skip to content

v2.2.0

Latest
Compare
Choose a tag to compare
@Jiang-Jia-Jun Jiang-Jia-Jun released this 08 Sep 16:17
· 201 commits to develop since this release
d40a104

新增功能

  • 采样策略中的bad_words支持传入token ids
  • 新增Qwen2.5-VL系列模型支持(视频请求不支持enable-chunked-prefill)
  • API-Server completions接口prompt 字段支持传入token id列表,同时支持批量推理
  • 新增function call解析功能,支持通过tool-call-parse解析function call结果
  • 支持服务启动或请求中自定义chat_template
  • 支持模型chat_template.jinja文件的加载
  • 请求报错结果增加异常堆栈信息,完善异常log记录
  • 新增混合MTP、Ngram的投机解码方法
  • 支持用于投机解码的Tree Attention功能
  • 模型加载功能增强,实现了使用迭代器加载模型权重,加载速度和内存占用进一步优化
  • API-Server完善日志格式,增加时间信息
  • 新增插件机制,允许用户在不修改FastDeploy核心代码的前提下扩展自定义功能
  • 支持Marlin kernel文件在编译阶段按照模版配置自动生成
  • 支持加载 HuggingFace原生Safetensors格式的文心、Qwen系列模型
  • 完善DP+TP+EP混合并行推理

性能优化

  • 新增W4Afp8 MoE Group GEMM算子
  • CUDA Graph增加对超32K长文的支持
  • 优化moe_topk_select算子性能,提升MoE模型性能
  • 新增Machete WINT4 GEMM算子,优化WINT4 GEMM性能,通过FD_USE_MACHETE=1开启
  • Chunked prefill 默认开启
  • V1 KVCache调度策略与上下文缓存默认开启
  • MTP支持更多草稿token推理,提升多步接受率
  • 新增可插拔轻量化稀疏注意力加速长文推理
  • 针对Decode支持自适应双阶段的All-to-All通信,提升通信速度
  • 支持DeepSeek系列模型MLA Bankend encoder阶段启用Flash-Attrntion-V3
  • 支持DeepSeek系列模型q_a_proj & kv_a_proj_with_mqa linear横向融合
  • API-Server新增zmq dealer 模式通信管理模块,支持连接复用进一步扩展服务可支持的最大并发数

Bug修复

  • completion接口echo回显支持
  • 修复 V1调度下上下文缓存的管理 bug
  • 修复 Qwen 模型固定 top_p=0 两次输出不一致的问题
  • 修复 uvicorn 多worker启动、运行中随机挂掉问题
  • 修复 API-Server completions接口中多个 prompt 的 logprobs 聚合方式
  • 修复 MTP 的采样问题
  • 修复PD 分离cache 传输信号错误
  • 修复异常抛出流量控制信号释放问题
  • 修复max_tokens为0 异常抛出失败问题
  • 修复EP + DP 混合模式下离线推理退出hang问题

文档

  • 更新了最佳实践文档中一些技术的用法和冲突关系
  • 新增多机张量并行部署文档
  • 新增数据并行部署文档

其它

  • CI新增对自定义算子的Approve拦截
  • Config整理及规范化

What's Changed

New Contributors

Full Changelog: v2.1.1...v2.2.0