FastDeploy/docs/zh/best_practices/FAQ.md

# 常见问题FAQ
## 1.显存不足
1. 启动服务时显存不足：
- 核对模型和量化方式对应的部署最小卡数，如果不满足则需要增加部署卡数
- 如果开启了CUDAGraph，尝试通过降低 `gpu_memory_utilization`来为CUDAGraph留存更多的显存，或通过减少 `max_num_seqs`，设置`cudagraph_capture_sizes`来减少CUDAGraph的显存占用。

2. 服务运行期间显存不足：
- 检查log中是否有类似如下信息，如有，通常是输出block不足导致，需要减小`kv-cache-ratio`
```
need_block_len: 1， free_list_len: 0
step max_id: 2， max_num: 133， encoder block len: 24
recover seq_id: 2， free_list_len: 144， used_list_len: 134
need_block_len: 1， free_list_len: 0
step max_id: 2， max_num: 144， encoder_block_len: 24
```

建议启用服务管理全局 Block功能，在启动服务前，加入环境变量
```
export ENABLE_V1_KVCACHE_SCHEDULER=1
```

## 2.模型性能差
1. 首先检查输出长度是否符合预期，是否是解码过长导致。
如果场景输出本身较长，请检查log中是否有类似如下信息，如有，通常是输出block不足导致，需要减小`kv-cache-ratio`
```
need_block_len: 1， free_list_len: 0
step max_id: 2， max_num: 133， encoder block len: 24
recover seq_id: 2， free_list_len: 144， used_list_len: 134
need_block_len: 1， free_list_len: 0
step max_id: 2， max_num: 144， encoder_block_len: 24
```
同样建议启用服务管理全局 Block功能，在启动服务前，加入环境变量
```
export ENABLE_V1_KVCACHE_SCHEDULER=1
```

2. 检查自动profile分配的KVCache block是否符合预期，如果自动profile中受到显存波动影响可能导致分配偏少，可以通过手工设置`num_gpu_blocks_override`参数扩大KVCache block。