-
Notifications
You must be signed in to change notification settings - Fork 1.2k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Dev/use vllm #1053
Dev/use vllm #1053
Conversation
- 新增基于队列和线程的异步推理机制 - 优化同步推理接口,使用新机制实现
- 删除了 LLM 类中的 async_llm_inference 方法 - 该方法尚未使用,且再在loop_thread之外运行后会导致 vllm 崩溃,因此将其移除
- 新增 speed_test.ipynb 文件,用于测试 CosyVoice2模型的性能 - 包含测试环境配置、默认情况下的使用示例、使用 vllm 加速 LLM 推理的步骤
- 移除任务队列和单任务处理限制 - 使用 asyncio.run_coroutine_threadsafe() 在后台线程中运行推理任务
@qi-hua 你好,感谢你的分享,我尝试你这个分支,想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢 |
vllm需要大概3-4G的显存就可以了,gpu_memory_utilization的设置目前放在了cosyvoice/llm/llm_vllm.py:39 ENGINE_ARGS中,还没有暴露设置的位置,需要手动修改。 |
- 在 Frontend 中,恢复原本逐个生成文本令牌 - 在 Model 类中,移除了不必要的日志信息和断言,简化了文本令牌的处理流程
哦哦,感谢感谢,另外,我发现一个问题是,我按下面的测试脚本测试出现了下面的错误, |
我不了解这两种方式的区别,但默认会启动很多的进程。 |
@lyblsgo 麻烦帮忙看一下这个代码 |
@qi-hua dev/use_vllm 按照speed_test.ipynb加载vllm模型还跑不通。async_cosyvoice可以跑通。 |
我没改代码
if name == 'main': |
目前使用 vllm 的 AsyncLLMEngine 加速推理
增加了 cosyvoice.llm.llm_vllm.VllmQwen2LM ,其他文件主要是简单修改;
VllmQwen2LM目前支持多任务推理,并发需对原接口适当修改;
使用trt的情况下,加速后效果 rtf 能够达到 0.1-0.15。