大模型推理时,每次reponse的tocken长度不一致,意味着每次的输入shape是不一样的,也即每次inference执行的都是动态图_ 我想请教一下,ax是如何处理动态图的? 比如,大多数推理引擎可以根据静态图,在模型编译阶段进行规划,进而在推理过程中发挥出高性能 如果每次的shape不一样,这样就没法在模型编译阶段进行规划,这样的话,性能损失就很严重 请教一下,ax是如何处理这个问题的?