Download Latest Version v2.5.0 source code.tar.gz (7.4 MB)
Email in envelope

Get an email when there's a new version of FastDeploy

Home / v2.5.0
Name Modified Size InfoDownloads / Week
Parent folder
README.md 2026-04-08 131.0 kB
v2.5.0 source code.tar.gz 2026-04-08 7.4 MB
v2.5.0 source code.zip 2026-04-08 9.3 MB
Totals: 3 Items   16.9 MB 1

FastDeploy Release 2.5 Release Note

新增功能

新模型支持

  • 新增Qwen3-VL模型部署支持 [#5763]
  • 新增Qwen3-VL MoE模型部署支持 [#5913]
  • 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 [#5962]
  • 新增GLM模型TP+DP+EP支持 [#6317]

新量化方法支持

  • 新增W4AFP8量化方法支持(v1_loader和v0_loader,支持TP>1) [#5757]
  • 新增NVFP4 MoE在SM100上的支持 [#6003]
  • 新增FusedMoE在Blackwell上的支持 [#5325]
  • 新增统一量化算子 [#5991]
  • 新增FP8量化环境变量FD_USE_PHI_FP8_QUANT支持 [#6320]
  • 新增Weight Only量化方法对QKVGate_proj的支持 [#6669]

PD分离相关功能

  • 新增多模态模型P/D分离支持 [#5323]
  • 新增PD分离部署配置简化和端口管理重构 [#5415]
  • 新增PD分离支持动态C8 IPC [#5750]
  • 新增PD分离RDMA动态C8支持 [#5788]

CUDA Graph相关功能

  • 新增Qwen3-VL和Qwen3-VL MoE CUDA Graph支持 [#5962]
  • 新增reorder ids以分离prefill和decode请求的支持 [#5779]
  • 新增full_cuda_graph控制子图切分 [#6027]
  • 新增max_capture_shape_prefill和cudagraph_capture_sizes_prefill配置 [#6148]
  • 支持CUDAGraph用于P/PD混合Batch,采用SOT子图切分模式 [#6196]
  • Cuda graph模式下跳过ATTN padding部分计算 [#5985]

RL训练相关功能

  • 新增Rollout Routing Replay支持 [#5405]
  • 新增V1 update/clear API for RL支持 [#6974]
  • 新增Thinking Pattern框架优化 [#4302]
  • 新增限制thinking内容长度的CUDA算子统一,支持回复长度限制与注入序列 [#6511]
  • R3支持RDMA Store [#5467]
  • 支持通过load_weights函数加载权重 [#5549]
  • 新增pause、update_weights、resume异步RL接口 [#6052]
  • 支持GLM MTP RL Model [#6223] [#6267]
  • R3支持全层路由Fused Put [#6099]
  • 支持SM100 FP8量化 [#6602]
  • 支持moe_topk_select Paddle原生算子及FP8 MoE量化 [#6935]

KV Cache相关功能

  • 新增KV Cache存储支持 [#5571]
  • 新增attention_store KV Cache后端支持 [#5823]
  • 新增file_store KV Cache后端支持 [#6188]
  • 新增通过attention store上报token index支持 [#6285]
  • 新增RDMACommunicator发送key和value scale支持 [#5737]
  • 新增get_output_kv_signal阻塞读取模式和send_first_token支持 [#5836]

新API/接口支持

  • 新增stop_token_ids支持 [#5399]
  • 新增logprobs/prompt_logprobs token解码开关 [#5463]
  • 新增请求级投机解码指标监控支持 [#5518]
  • 新增健康检查功能 [#5534]
  • 新增请求级延迟细粒度追踪(Tracing Part1) [#5458]
  • 新增Entropy计算支持 [#5692] [#5730]
  • 新增输出缓存默认启用 [#5987]
  • 新增tag phase token enforce生成支持 [#6034]
  • 新增SWA基于appendattn的支持 [#6594]
  • plugin模型支持mm_processor_kwargs [#6491]
  • 新增多模态模型dummy run支持 [#6045]
  • 新增Norm before Rope支持 [#6332]
  • 新增使用phi permute/unpermute并移除swiglu [#6808]

Engine与架构优化

  • 新增基于ZMQ通信的EngineService跨进程async_llm重构 [#4868]
  • 新增Golang Router用于请求调度和负载均衡 [#5882] [#5966]
  • 新增ZMQ-based FMQ实现和benchmark工具 [#5418]
  • 新增Pool模型prefill batch推理支持 [#5436]
  • 新增Paddle启动版本检查机制 [#5769]
  • 新增可配置worker健康检查超时(FD_WORKER_ALIVE_TIMEOUT) [#5865]
  • 新增FD统计信息上报 [#5646]
  • 新增统一请求完成日志格式并增强统计信息 [#6405]
  • 新增控制台打印统计指标 [#6339] [#6413]
  • 新增断开连接后停止在线服务中对应请求推理的支持 [#5320]

Loader相关功能

  • 新增V1 Loader加载静态C8 scale JSON支持 [#5909]
  • 新增V1 Loader按自然key顺序加载safetensors权重 [#6006]
  • 新增TP+EP 下v1_loader支持 [#5465]
  • 新增Loader dummy load weight支持 [#6169]
  • 新增Loader wint2后端支持 [#6139]
  • 新增Loader处理GPU内存碎片支持 [#6790]

模型层优化

  • 新增所有模型VocabParallelEmbedding的forward_meta支持 [#5524]
  • 对expert_dispatch算子支持更多参数配置 [#5748]
  • 新增FA3对GLM-RoPE的支持 [#5586]
  • 新增EPLB冗余专家支持 [#5918]
  • 新增normalization层参数重命名 [#6133]
  • 新增tracelogger stacklevel支持 [#5766]
  • 支持qkv和gate linear融合 [#6552]

性能优化

算子性能优化

  • 优化gather_logprob算子性能 [#5817]
  • 优化Qwen3 QK RMSNorm算子,通过融合Triton Kernel加速 [#5880]
  • 优化mask_quant和swiglu算子性能 [#6222]
  • W4AFp8量化场景下gemm算子采用自适应N参数优化 [#5853]
  • 支持FA2/FA3/FA4算子配合attn_mask_q使用 [#6354]

显存优化

  • MoE prefill阶段添加del操作降低峰值显存 [#5863]
  • Qwen模型支持动态block_wise_fp8缓存 [#5486]
  • 移除decoder_num_blocks_device的memset操作 [#5982]

调度优化

  • 优化engine-worker-queue任务检查性能 [#5376] [#5580]
  • 减少blocks不足时的preemption发生频率 [#5696]
  • 优化preemption发生时的同步状态处理 [#5796]
  • 优化EP模式下的TTFT延迟 [#6098]
  • 简化available_blocks分配逻辑 [#6874]
  • 支持多模态prefill batch [#5313]

量化相关优化

  • 支持W4AFp8 MTP量化 [#5429]
  • 支持W4AFp8 MoE权重离线permute和加载 [#5613]
  • 支持W4AFp8 DeepEP低延迟两阶段模式 [#5608]

图优化

  • PaddleOCR-VL ViT部分使用CINN优化 [#5223]
  • 封装deep gemm和triton为python op [#5673]
  • 为per_token_quant等算子添加infershape和dtype支持 [#5762]
  • 封装m_grouped_gemm_fp8_fp8_bf16_nt_contiguous为自定义pyop [#5847]
  • 从cudagraph中移除static_op_get_block_shape_and_split_kv_block [#6081]

其他性能优化

  • 批量计算real max_logprobs优化 [#5430]
  • 支持logprob异步拷贝 [#6362]
  • 避免不必要的penalty计算 [#6078]
  • 前后处理流水线不再执行dict转换 [#5494]
  • Qwen2.5-VL vision模型采用合并线性层和统一处理优化 [#6037]
  • 支持在自定义allreduce中设置通信组以及解码阶段的all-to-all/transpose融合算子 [#5917]
  • 重构chat_handler和completion_handler,提取基类并使用AsyncLLM [#5195]
  • 更新prompt和prompt_token_ids处理逻辑 [#6334]
  • 在不安装torch时跳过compat guard [#6926]
  • 使用Paddle时为Triton使用独立的driver [#6983]

多硬件支持

昆仑芯XPU

新功能支持

  • 新增 speculate_step_system_cache 支持 [#5397]
  • 支持 get hidden state for mix 功能 [#5513]
  • 新增 speculate_get_logits 功能 [#5497]
  • 支持 PD Disaggregation 场景下 update_inputs_v1 算子 [#5550]
  • 支持 EP+MTP [#5605]
  • 支持 token num = 0 场景 [#5635]
  • 支持 EP4TP4 配置 [#5773]
  • 支持 EP4TP1 配置 (PD disaggregation) [#5860]
  • 支持 Speculative Decoding with PD [#5856]
  • 支持 mm prefill batch [#6072]
  • 支持 plugin model [#6092]
  • 支持 CudaGraph (block attn cuda_graph 支持) [#6116], [#6152], [#6162]
  • 支持从 XPU EP 接口从 xDeepEP 切换到 paddle [#5706]
  • 支持 recover batch sequence [#6142]
  • 支持 noaux_tc [#6326]

性能优化

  • 重构 moe ffn 优化性能 [#5501]
  • 默认设置 top_p=0.0 优化性能 [#5686]
  • 优化 logprob 性能 [#5626], [#5628]
  • 重构 block_attn 参数 'pos_emb_type' [#5511]

Bug修复

  • 修复 mtp multi batch 问题 [#5521]
  • 修复 dp4 问题 [#5946]
  • 修复 moe num_expert 问题 [#6014]
  • 修复 multi-batch bug in VL model [#6015]
  • 修复 text_image_gather_scatter 在 cudagraph 模式下的问题 [#6049]
  • 修复 PD splitwise 模式下 seq_lens_encoder 重置问题 [#6048]
  • 修复 MAX_BSZ 对齐 GPU 设置及 OCR VL 禁用 prefix cache [#5831]

沐曦Metax

新功能支持

  • 新增 CI yaml 配置 [#5520]
  • 支持 cudagraph [#5547]
  • 支持 prefix caching & cpu swap [#5844]
  • 适配不同版本 maca 的 gemm 接口 [#5905]
  • 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode [#5555]

性能优化

  • 优化 MLA backend [#5258]
  • 重构 cutlass moe 并优化 flash attention [#5361]
  • 优化 flash attention backend [#5876]
  • 修改 warpSize 为 WARP_SIZE [#5442]

Bug修复

  • 修复 GetStopFlagsMulti kernel crash 问题 [#5556]
  • 修复 metax runner 问题 [#5629]
  • 修复大图推理时 shape 错误和输出乱码问题 [#5965]
  • 修复 self.share_inputs['preempted_idx']=[] 使用错误 [#6038]
  • 修复 'get_token_penalty_multi_scores' 输入错误 [#6266]
  • 修复 issues based [#6259] [#6338]

Intel HPU

新模型支持

  • 支持 ERNIE-4.5-21B-A3B-Thinking 模型 [#5891]

新功能支持

  • 支持 tensor_wise_fp8 [#5324]
  • 支持 KV cache scheduler v1 [#5648]
  • 支持 chunked prefill [#5903]
  • 支持 MoE EP [#5855]
  • 支持单一 PaddleCustomDevice 发布包 [#5910]

其他

  • 新增 HPU tensorwise_fp8 文档 [#6091]

天数Iluvatar

新功能支持

  • 支持 V1_KVCACHE_SCHEDULER 和 paddleocr-vl rope mode [#5555]

Bug修复

  • 修复 CUDA_VISIBLE_DEVICE 指定时的 FD 启动错误 [#5735]
  • 修复多平台兼容性问题 (使用 paddle.device.get_device_properties) [#6400]

Bug修复

PD分离相关Bug修复

  • 修复PD分离模式下MTP cache attaching问题 [#5884]
  • 修复resource_manager_v1在PD模式下的锁问题 [#5616]
  • 修复PD分离部署时cache int8的问题 [#6571]
  • 修复mix splitwise模式下的pickle加载错误 [#5488]
  • 修复多模态splitwise调度器的bug [#5604]
  • 修复PD重排序问题并添加单元测试 [#6375]
  • 修复MTP场景下PD重排序问题 [#6917]

多模态相关Bug修复

  • 修复PaddleOCR-VL模型参数放置在CPU的问题 [#5413]
  • 修复多模态CUDA Graph问题 [#5266]
  • 修复音频处理结束时的bug [#5464]
  • 修复视频处理bug [#5557]
  • 修复encoder cache bug [#5528]
  • 修复eb5多模态前缀缓存bug [#5638]
  • 修复eb5多模态跳过前缀缓存问题 [#5838]
  • 修复多模态revert bug [#5848], [#6061]
  • 修复eb5前缀bug [#5879]
  • 修复fa3 qwen-vl rope支持问题 [#5869]
  • 修复PaddleOCR-VL非法内存访问问题 [#6042]
  • 修复多模态fetch feature问题 [#6095]
  • 限制prefill batch中多模态请求为1 [#5901]
  • 修复SiglipEncoder中reversed_window_indices的条件判断 [#5795]
  • 修复FlashMask在开源模型上的运行问题 [#6520]
  • 修复MM MTP中不正确的rope embedding [#6586], [#6650]

CUDA Graph相关Bug修复

  • 修复无法进入CUDA Graph的问题 [#5422]
  • 修复0不进入CUDA Graph以节省内存 [#5426]
  • 修复sm89编译错误 [#5809]
  • 修复BatchMLAWithPagedKVCacheKernel的O_tmp问题 [#5895]
  • 更新权重dummy run时重置shared inputs [#6418]

EP并行相关Bug修复

  • 修复custom_all_reduce溢出问题 [#5662]
  • 修复wint4 EP空运行导致的问题 [#5870]
  • 修复ep_moe_expert_combine op返回值不一致问题 [#5812]
  • 修复300B FP8 EP并行测试用例的模型加载错误 [#6436]
  • 修复DP+EP下的NaN错误(添加进程间锁) [#6769]

MTP相关Bug修复

  • 修复MTP在enable_logprob时无logprobs的问题 [#5499]
  • 修复speculative decoding中的attention bug [#5460]
  • 修复speculative decoding中write qknorm cache bug [#5491]
  • 修复splitewise-prefill模式下multistep MTP问题 [#5723]
  • 修复mixed和PD-split模式下multi-step MTP的attn_mask_offset问题 [#5738]
  • 修复MTP权重加载bug [#5744]
  • 修复MTP split kv attention问题 [#5920]
  • 修复MTP logprob在include stop_seq时的hang问题 [#5927]
  • 修复MTP forward meta问题 [#5976]
  • 修复MTP logprob因max_num_logprobs导致的问题 [#6084]
  • 修复GLM MTP中logits计算bug [#6093]
  • 修复MTP acceptance rate下降问题 [#6471]
  • 修复MTP在dummy run时跳过empty_input_forward [#6654]
  • 修复MTP config在RL中的问题 [#6596]
  • 支持suffix decoding [#6967]

Cache相关Bug修复

  • 修复cpu prefix cache bug [#5544]
  • 修复抢占时缓存输出问题 [#5502]
  • 修复抢占后exist_prefill_flag问题 [#6630]
  • 修复dynamic c8在v1 loader中的问题 [#5562]
  • 修复dynamic c8 cache bug [#5958], [#6692]
  • 修复cache manager在MTP或blockwise fp8时未启动的问题 [#5840]
  • 优化cpu和storage cache的准备 [#5777]
  • 修复cache transfer manager updating/clearing问题 [#5930]
  • 将cache创建移回cache transfer process [#6144]
  • 修复cache cleared后cache transfer tasks失败问题 [#6202]
  • 修复storage_backend_type比较bug [#6522]
  • 修复使用block_wise_fp8且无storage backend时cache transfer manager初始化失败 [#6517], [#6564]
  • 修复recycle_gpu_blocks中的安全检查 [#6530]
  • 修复metrics cache tokens问题 [#6001]
  • 修复请求抢占后cache命中率和TTFT不准确问题 [#6626]
  • 修复prefix tree updating超时问题 [#6616]
  • 修复num_cpu_blocks计算问题 [#6473]

量化相关Bug修复

  • 修复W4AFP8数值溢出问题 [#5634]
  • 修复w4afp8 tp=8问题 [#5868]
  • 增加w4afp8 gemm的shape [#5957]
  • 适配hadamard_block_size [#5888]
  • 修复wint2问题 [#6109]
  • 修复weight quant op问题 [#6137]
  • 修复fused_mask_swiglu_fp8_quant bug [#6316]
  • 修复moe activation quant问题 [#5830]

调度相关Bug修复

  • 修复解码时sleep bug [#5461]
  • 修复n>1且enable-logprob时的hung问题 [#5492]
  • 修复Chunked Prefill在max_tokens=1时的问题 [#5736]
  • 修复抢占时超出real_bsz问题 [#5805]
  • 修复enable output caching的bug [#6226]
  • 设置enable_cache_output默认为false [#5751]
  • 修复can_schedule_block_num_threshold计算问题 [#6542]

API/接口相关Bug修复

  • 修复init RequestOutput问题 [#5419]
  • 修复limit_thinking在CUDA kernels中的early return逻辑 [#5471]
  • 修复speculate_limit_thinking_content_length [#5590]
  • 修复process_response_dict支持async in serving_completion [#5758]
  • 修复streaming response中return_token_ids启用时的冗余prompt_logprobs问题 [#5829]
  • 修复console log metrics中waiting queue count [#6453]
  • 支持control socket禁用选项 [#6551]
  • 修复请求中断和推理终止功能的多个bug [#6890]

RL相关Bug修复

  • 移除RL的shutdown_process_group/restart_process_group [#5433]
  • 修复RL weight loading在moe layer的问题 [#5503]
  • 修复RL load_weights [#5642]
  • 修复rl model_weights_signal以支持tp>1 [#5639]
  • 修复rl signal问题 [#5681]
  • 修复RL中MTP config问题 [#6596]
  • 支持Fully Async和PrefixCache [#6727]
  • 支持chunked part files加载并修复IPC snapshot strategy中的model path格式 [#6910]
  • 修复RL中update param问题 [#6722]
  • 添加decoder rope的instantiations [#7010]

其他Bug修复

  • 修复bf16 deepseek loader问题 [#5379]
  • 修复deepseek torch loading [#5410]
  • 修复clearing weight后的不稳定性 [#5493]
  • 修复model executing在clearing/updating完成后跳过 [#5527]
  • 修复Intel HPU平台构建脚本问题 [#5455]
  • 修复Graph Optimization中0size bug [#5495]
  • 修复eplb weight updating [#5529]
  • 移除重复的PaddleOCRVLProcessor初始化代码 [#5526]
  • 修复count_tokens_per_expert_func声明 [#5794]
  • 修复shm在set_data_ipc中打开但未关闭的问题 [#5826]
  • 修复entropy bugs [#5818], [#5941]
  • 修复TP中entropy计算问题 [#5997]
  • 只在CUDA平台运行Triton count_greater_kernel [#5846]
  • 修复logprob因max_num_logprobs导致的问题 [#6067]
  • 修复token_penalty kernel [#6069]
  • 修复mask attention问题 [#6216], [#6214]
  • 修复qk_norm optimization [#6080]
  • 修复shared experts和dense mlp layer不需要TP split的问题 [#6180]
  • 修复tokenizer OOM问题 [#6287]
  • 修复heartbeat signal的sleeptime错误 [#6241]
  • 修复zmq在sampled_token_id=0时hung问题 [#6398]
  • 修复noaux_tc_redundant op的4个返回值处理 [#6384]
  • 修复cutlass的lazy enable_torch_proxy [#6585]
  • 修复reshard错误 [#6537]
  • 修复MC_TCP_BIND_ADDRESS for mooncake store [#6783]
  • 修复grpc在tracing init before workers forked时的失败 [#6744]
  • 修复get_save_output_v1 socket name冲突 [#6759]
  • 用custom_ftok替换ftok [#6824]
  • 设置FD_USE_PHI_MOE_PERMUTE默认为0 [#6888]
  • 修复ErrorInfo code type [#6952]
  • 修复_disable_sequence_parallel_moe_if_needed [#5740]
  • 修复port相关错误 [#6309]
  • 修复download feature bug [#5669]
  • 修复insert_zmq_task_to_scheduler break bug [#5960]
  • 修复rebuild padding bug [#6425]
  • 修复deepgemm import [#6452]
  • 修复assert message [#6310]
  • 修复double shutdown of comm group [#5715]
  • 重命名need_block_num_signal修复shm name冲突 [#5623]
  • 修复更新权重时启用cache storage的问题 [#6720]
  • 修复多api server的rdma script和port check [#5935]
  • 修复worker_process中request counting的误导性日志 [#5939]
  • 修复v0_loader在python3.12的问题 [#6132]
  • 修复tool_calls skipped问题 [#6166]
  • 修复image gen问题 [#6175]
  • 修复get_padding_offset in empty run [#6460]

其它

Benchmark

  • 更新benchmark工具 [#5496] [#5625] [#6335]
  • 更新backend_request_func.py [#5631] [#5633]
  • 支持Completions接口 [#5700]
  • 修复aiohttp streaming返回Chunk too big问题 [#5771]
  • 更新benchmark_serving.py [#5861]
  • 支持SGLang/VLLM获取cached tokens [#6240]
  • 新增Qwen3 VL CE测试 [#6288]
  • 更新README文档 [#6343]

文档

  • 新增text/vl cinn ce配置文档 [#5532]
  • 更新环境变量文档同步最新代码 [#5713]
  • 更新GPU版本至2.3.2 [#5894]
  • 更新FastDeploy版本至2.3.3 [#6010]
  • 更新Docker镜像至2.4.0 [#6168]
  • 新增/v1/pause、/v1/resume、/v1/is_paused接口文档 [#6192]
  • 新增在线量化文档 [#6399]
  • 新增环境变量文档 [#6385]

CI/测试

单元测试补充(Hackathon活动)

  • 新增ernie4_5_vl_processor模块单测 [#5264] [#5265] [#5263]
  • 新增spec_decode/mtp.py单测 [#5533]
  • 新增rollout_model.py单测 [#5552]
  • 新增openai/api_server.py单测 [#5567]
  • 新增scheduler/local_scheduler.py单测 [#5050]
  • 新增guided_decoding模块单测 [#5047] [#5042]
  • 新增entrypoints/engine_client.py单测 [#5807]
  • 新增llm.py单测 [#6108]
  • 新增engine_worker_queue.py单测 [#6102]
  • 新增serving_completion.py单测 [#6227]
  • 新增resource_manager_v1.py单测 [#6243]
  • 新增fused_moe_wint2_backend.py单测 [#6286]
  • 新增zmq_server.py单测 [#6210]
  • 其他功能模块单测补充 [#5057] [#5058] [#5063] [#5060] [#5059] [#5718] [#5717] [#5726] [#5609] [#5328]

CI基础设施优化

  • 新增commit级别RL构建任务 [#5857]
  • 新增CUDA 12.9每日构建任务 [#5936]
  • 新增fd-router构建任务 [#5967]
  • 新增4-GPU端到端测试任务 [#6082]
  • 新增ep4_mtp端到端测试 [#6153]
  • 新增GLM E2E测试(MTP及非MTP)#6163
  • 新增attention TP单元测试 [#5887]
  • 新增attention单元测试用例 [#5931]
  • 新增fused_moe EP TP测试 [#5989]
  • 新增swap_layout单元测试 [#6250]
  • 新增SM100 FP8推理mock测试 [#6273]
  • 新增update weights测试 [#6242]
  • 重构RL测试复用stable_test [#5516]
  • 重构RL测试复用test_metrics.py [#5741]
  • 重构iluvatar_ci [#5588]
  • 修复approve配置 [#5443]
  • 优化stable_test资源调度 [#6235]
  • 切换nightly构建使用FD_UNIFY_BUILD [#6246]
  • 移除--ipc=host和--pid=host配置 [#6270]
  • 更新build_linux_rl.yml [#6274]
  • 更新stable test工作流 [#6352]
  • 更新check-bypass.yml [#6360]
  • 禁用GPU清理 [#5781]
  • 启用custom_device_check重试 [#5786]
  • 暂时禁用fp8测试用例 [#5963]
  • 添加重试和清理机制 [#5725]
  • 减少test_mtp超时时间 [#5512]
  • 适配vl_model基线变更 [#5576] [#6033]
  • 移除不兼容的test_metrics.py [#5578]
  • 添加MTP accept ratio CI用例 [#5570]
  • 添加ERNIE45T 21B sot测试 [#5538]
  • 移除不稳定的IPC测试 [#6190]
  • 支持异步R3精度测试 [#5937]
  • 固定gunicorn版本至25.0.3 [#6499]
  • 禁用test_batch_invariance_op_mm.py [#6549]
  • 切换2.5分支使用Paddle release/3.3 [#6621]
  • 同步CI优化到release/2.5分支 [#6684] [#6964]

代码重构/清理

Speculative Decoding(投机解码)

  • 支持投机解码不同inferseed [#5568]
  • 支持multi-step mtp with cudagraph [#5624] [#5886]
  • 优化draft logprob [#5842]
  • 返回每个head的accepted tokens [#5947]
  • 支持GLM-4.5-Air MTP [#6047]
  • 支持enable_thinking为false时的约束解码 [#6248]
  • 重构MTP pre_process [#6358]

MoE优化

  • 支持GPT-OSS MXFP4量化 [#5435]
  • 支持FP8权重加载 [#5565]
  • 使用max_tokens_per_expert优化MoE网格维度 [#6007]
  • 移除permute_x_fp8_kernel模板NUM_EXPERTS_PER_RANK [#5620]
  • ep_moe_expert_dispatch支持num_experts_per_rank=5 [#5890]

代码清理与重构

  • 移除无用代码,支持mixed FA3 [#5404]
  • FA3支持qwen3 [#5441]
  • 支持0-dim tensor进入ar [#5451]
  • 移除add_bias选项 [#5425]
  • 新增cuda_graph断言并只统计实际负载 [#5445]
  • 更新tbo相关代码 [#5485] [#6281]
  • 清理代码 [#5543] [#5548] [#5691]
  • 移除无效paddleocr processor分支 [#5821]
  • 移除stop_nums [#6182]
  • 移除flash_mask_attention未使用参数 [#6218]
  • 移除speculate_get_padding_offset op [#6308]
  • 移除MTP rebuild_padding无用代码 [#6336]
  • MLA代码清理 [#5979]
  • 添加PADDLE_ENFORCE [#6321]

其他优化

  • 控制台日志重定向到llm日志 [#5680]
  • 防止Paddle版本检查时的core dump [#5657]
  • 插件错误信息抛出 [#5675]
  • reschedule preempt任务支持可选函数 [#5649]
  • 升级paddleformers至0.4.0 [#5599]
  • 重命名tensor_parallel_degree为tensor_model_parallel_size [#5727]
  • flash_mask attention pybind [#5783]
  • 禁用ernie5中的chunked_mm_input [#5774]
  • 启用PFCC deep_ep [#5822]
  • 新增flashinfer-python-paddle依赖 [#5912]
  • TSP last_norm allgather移至model.py [#5924] [#5961] [#5972]
  • KVCache仅在启用hierarchical cache或kv cache storage时启动传输进程 [#5871]
  • metrics_port参数传递 [#6056]
  • 新增exist_prefill_flag [#6172]
  • 新增scale_wrapper for per_block_cast_to_fp8 [#6183]
  • 改进deep_ep导入处理 [#6207]
  • 支持多SM架构构建到单一whl包 [#6173]
  • 新增token生成速率监控指标 [#6236]
  • 增强deep_ep导入,支持mixed mode flash_mask_attn [#6238]
  • 重构execute_model支持GPU异步调度 [#6176]
  • 移除cuda_check(多次回滚)#5883 [#5915]
  • 新增data_processor及tool parser插件 [#6096]
  • 新增paddleocr配置yaml [#6097]
  • 新增目录导航到mkdocs配置 [#6121]
  • 支持overlap schedule [#6259]
  • 跳过paddle.to_tensor如果is_not_swapped [#6342]
  • KVCache Storage支持c8模型 [#6298]
  • 支持cpu-cache-block-num监控 [#6390]
  • 支持从fleet ops导入deepgemm/deepep [#6351]
  • apiserver和engine启动失败时退出 [#6322]
  • 退出时确保无残留进程 [#6377]
  • 懒写入日志 [#6323]

Cherry-Pick

  • 新增reasoning effort及tool string参数支持 [#6706]
  • 新增qwen3vl prompt_token_ids支持 [#6786]

What's Changed

New Contributors

Full Changelog: https://github.com/PaddlePaddle/FastDeploy/compare/v2.4.0...v2.5.0

Source: README.md, updated 2026-04-08