Files
FastDeploy/README_CN.md
T
Jiang-Jia-Jun 33682c6749 [Docs] Update docs for release/2.5 (#7267)
* Update docs for release/2.5

* Update English docs for release/2.5

- Update README_EN.md: add v2.5 news entry, reformat v2.4 entry with release link
- Update docs/get_started/installation/nvidia_gpu.md:
  - Docker image: 2.4.0 -> 2.5.0, notice now shows SM80/86/89/90 support
  - paddlepaddle-gpu: 3.3.0 -> 3.3.1, add CUDA 12.9 alternatives
  - fastdeploy-gpu: 2.4.0 -> 2.5.0, unified arch install with CUDA 12.9 option
- Update docs/zh/get_started/installation/nvidia_gpu.md:
  - Fix remaining paddlepaddle-gpu==3.3.0 refs in sections 4&5 -> 3.3.1

Agent-Logs-Url: https://github.com/PaddlePaddle/FastDeploy/sessions/fa0be381-324e-4b0d-b7a6-e2c1fa12174f

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

* Clarify --extra-index-url usage in installation docs

Add note explaining that --extra-index-url is only for downloading
fastdeploy-gpu dependencies; fastdeploy-gpu itself must be installed
from the Paddle source specified by -i. Applied to both Chinese and
English nvidia_gpu.md installation guides.

Agent-Logs-Url: https://github.com/PaddlePaddle/FastDeploy/sessions/9fa8b3c9-7555-4eae-b9b9-026cddd7e74c

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

* Update nvidia_gpu.md

---------

Co-authored-by: jiang-jia-jun <jiangjiajun@baidu.com>
Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com>
2026-04-09 16:07:18 +08:00

6.1 KiB
Raw Blame History

English | 简体中文

PaddlePaddle%2FFastDeploy | Trendshift
安装指导 | 快速入门 | 支持模型列表


FastDeploy 飞桨大模型高效部署套件

最新活动

[2026-03] FastDeploy v2.5 全新发布! 新增Qwen3-VL与Qwen3-VL MoE模型部署支持,新增W4AFP8量化方法,增强强化学习训练支持能力,包含170+项Bug修复与性能优化,升级全部内容参阅 v2.5 ReleaseNote

[2026-01] FastDeploy v2.4: 新增 DeepSeek V3 与 Qwen3-MoE 模型的 PD 分离部署,增强MTP 投机解码能力,全面优化多硬件平台上的 MoE 推理与多模态前缀缓存性能,升级全部内容参阅 v2.4 ReleaseNote

[2025-11] FastDeploy v2.3: 新增ERNIE-4.5-VL-28B-A3B-ThinkingPaddleOCR-VL-0.9B两大重磅模型在多硬件平台上的部署支持,进一步优化全方位推理性能,以及带来更多部署功能和易用性的提升,升级全部内容参阅v2.3 ReleaseNote

[2025-09] FastDeploy v2.2: HuggingFace生态模型兼容,性能进一步优化,更新增对baidu/ERNIE-21B-A3B-Thinking支持!

[2025-08] FastDeploy v2.1:全新的KV Cache调度策略,更多模型支持PD分离和CUDA Graph,昆仑、海光等更多硬件支持增强,全方面优化服务和推理引擎的性能。

关于

FastDeploy 是基于飞桨(PaddlePaddle)的大语言模型(LLM)与视觉语言模型(VLM)推理部署工具包,提供开箱即用的生产级部署方案,核心技术特性包括:

  • 🚀 负载均衡式PD分解:工业级解决方案,支持上下文缓存与动态实例角色切换,在保障SLO达标和吞吐量的同时优化资源利用率
  • 🔄 统一KV缓存传输:轻量级高性能传输库,支持智能NVLink/RDMA选择
  • 🤝 OpenAI API服务与vLLM兼容:单命令部署,兼容vLLM接口
  • 🧮 全量化格式支持W8A16、W8A8、W4A16、W4A8、W2A16、FP8等
  • 高级加速技术:推测解码、多令牌预测(MTP)及分块预填充
  • 🖥️ 多硬件支持NVIDIA GPU、昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCU、沐曦GPU、英特尔Gaudi等

要求

  • 操作系统: Linux
  • Python: 3.10 ~ 3.12

安装

FastDeploy 支持在英伟达(NVIDIAGPU昆仑芯(KunlunxinXPU天数(IluvatarGPU燧原(EnflameGCU海光(HygonDCU 以及其他硬件上进行推理部署。详细安装说明如下:

入门指南

通过我们的文档了解如何使用 FastDeploy:

支持模型列表

通过我们的文档了解如何下载模型,如何支持torch格式等:

进阶用法

致谢

FastDeploy 依据 Apache-2.0 开源许可证. 进行授权。在开发过程中,我们参考并借鉴了 vLLM 的部分代码,以保持接口兼容性,在此表示衷心感谢。