大模型推理框架,SGLang和vLLM有哪些区别? vLLM全称Vectorized Large Language Model Inference(向量化大型语言模型推理),简单说就是个专为大模型推理和服务的高性能库。它在速度、效率和易用性上做了优化,所以很多人部署DeepSeek、Qwen、Llama这些模型会选它。 vLLM的设计重点在于:一是 省内存、高吞吐, 特别是在请求同步进行时,让模型推理更省
vllm 为什么没在 prefill 阶段支持 cuda graph? - 知乎 vLLM 在 prefill 阶段未支持 CUDA Graph,并非技术上不可行,而是 在通用推理场景下,收益远小于复杂度和灵活性的损失。 prefill 的动态长度、一次性执行、不可预测的 batching 模式,使得 CUDA Graph 的静态录制机制难以发挥作用。