Dev/use vllm #1053

qi-hua · 2025-03-07T16:49:07Z

目前使用 vllm 的 AsyncLLMEngine 加速推理

增加了 cosyvoice.llm.llm_vllm.VllmQwen2LM ，其他文件主要是简单修改；

VllmQwen2LM目前支持多任务推理，并发需对原接口适当修改；

使用trt的情况下，加速后效果 rtf 能够达到 0.1-0.15。

- 新增基于队列和线程的异步推理机制 - 优化同步推理接口，使用新机制实现

- 删除了 LLM 类中的 async_llm_inference 方法 - 该方法尚未使用，且再在loop_thread之外运行后会导致 vllm 崩溃，因此将其移除

- 新增 speed_test.ipynb 文件，用于测试 CosyVoice2模型的性能 - 包含测试环境配置、默认情况下的使用示例、使用 vllm 加速 LLM 推理的步骤

- 移除任务队列和单任务处理限制 - 使用 asyncio.run_coroutine_threadsafe() 在后台线程中运行推理任务

wang-TJ-20 · 2025-03-08T02:55:35Z

@qi-hua 你好，感谢你的分享，我尝试你这个分支，想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢

qi-hua · 2025-03-08T04:19:50Z

@qi-hua 你好，感谢你的分享，我尝试你这个分支，想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢 !

vllm需要大概3-4G的显存就可以了，gpu_memory_utilization的设置目前放在了cosyvoice/llm/llm_vllm.py:39 ENGINE_ARGS中，还没有暴露设置的位置，需要手动修改。

- 在 Frontend 中，恢复原本逐个生成文本令牌 - 在 Model 类中，移除了不必要的日志信息和断言，简化了文本令牌的处理流程

wang-TJ-20 · 2025-03-09T06:20:50Z

@qi-hua 你好，感谢你的分享，我尝试你这个分支，想问下需要多少显存可以呢。gpu_memory_utilization在代码的哪块加呢 !

vllm需要大概3-4G的显存就可以了，gpu_memory_utilization的设置目前放在了cosyvoice/llm/llm_vllm.py:39 ENGINE_ARGS中，还没有暴露设置的位置，需要手动修改。

哦哦，感谢感谢，另外，我发现一个问题是，我按下面的测试脚本测试出现了下面的错误，

根据报错提示改成下面的调用方式就可以了，请问是vllm版本实现中启动了多进程吗

qi-hua · 2025-03-09T08:00:06Z

我不了解这两种方式的区别，但默认会启动很多的进程。

aluminumbox · 2025-03-10T01:13:51Z

@lyblsgo 麻烦帮忙看一下这个代码

deyituo · 2025-03-13T07:09:02Z

@qi-hua dev/use_vllm 按照speed_test.ipynb加载vllm模型还跑不通。async_cosyvoice可以跑通。
@wang-TJ-20 你改了一些代码？

wang-TJ-20 · 2025-03-13T07:20:12Z

@qi-hua dev/use_vllm 按照speed_test.ipynb加载vllm模型还跑不通。async_cosyvoice可以跑通。 @wang-TJ-20 你改了一些代码？

我没改代码
运行步骤如下：
1、先按requirements_vllm.txt安装环境，建议新建个conda环境，完全按照requirements_vllm.txt里装。
2、在speed_test.ipynb里运行一下，下面这个代码块，注册下模型的类。

3、将async_cosyvoice仓库里的配置文件（如下图）复制到2.0的模型权重文件夹下

4、使用下面的代码进行调用，我是使用的自己的spk_id，指定的是girl，这个根据自己选择，也可以直接用prompt_speech_16k。
`def main():
# 初始化模型
cosyvoice = CosyVoice2(CosyVoice2-0.5B',
load_jit=False,
load_trt=True,
fp16=True,
use_vllm=True)

# 加载提示语音
prompt_speech_16k = load_wav("girl_cut.wav", 16000)
text = "今天天气不错"
for _ in range(20):
    time1 = time.time()
    audio_list = []
    # for i, j in enumerate(cosyvoice.inference_instruct2("今天天气不错", '以悲伤的情感说', prompt_speech_16k, stream=True)):
    for i, j in enumerate(cosyvoice.inference_instruct2_by_spk_id(text, "以悲伤的情感说", 'girl', stream=True)):
        if i == 0:
            logging.info(f"首包耗时: {time.time() - time1}")
        audio_list.append(j['tts_speech'])
    full_tts = torch.cat(audio_list, dim=1)
    torchaudio.save('instruct.wav', full_tts, cosyvoice.sample_rate)

if name == 'main':
main()`

qi-hua added 6 commits March 7, 2025 20:26

初步合并vllm支持，异步推理的通道处理还存在bug

90b666e

refactor(llm): 重构 VLLM 推理方式

d4d187b

- 新增基于队列和线程的异步推理机制 - 优化同步推理接口，使用新机制实现

refactor(llm): 移除未使用的异步推理方法

2fbeba5

- 删除了 LLM 类中的 async_llm_inference 方法 - 该方法尚未使用，且再在loop_thread之外运行后会导致 vllm 崩溃，因此将其移除

chore: 新增 requirements_vllm.txt 文件，指定VLLM 模型所需的依赖

a1314e5

docs: 添加speed_test.ipynb文件

b4fe05d

- 新增 speed_test.ipynb 文件，用于测试 CosyVoice2模型的性能 - 包含测试环境配置、默认情况下的使用示例、使用 vllm 加速 LLM 推理的步骤

refactor(llm): 重构 vLLM 推理任务处理方式，支持多任务处理

ab5b8eb

- 移除任务队列和单任务处理限制 - 使用 asyncio.run_coroutine_threadsafe() 在后台线程中运行推理任务

fix(async_cosyvoice): 恢复原本文本令牌处理逻辑

c0f6a47

- 在 Frontend 中，恢复原本逐个生成文本令牌 - 在 Model 类中，移除了不必要的日志信息和断言，简化了文本令牌的处理流程

lyblsgo merged commit 00b454c into FunAudioLLM:dev/Comet Mar 13, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dev/use vllm #1053

Dev/use vllm #1053

qi-hua commented Mar 7, 2025 •

edited

Loading

wang-TJ-20 commented Mar 8, 2025 •

edited

Loading

qi-hua commented Mar 8, 2025

wang-TJ-20 commented Mar 9, 2025

qi-hua commented Mar 9, 2025

aluminumbox commented Mar 10, 2025

deyituo commented Mar 13, 2025

wang-TJ-20 commented Mar 13, 2025 •

edited

Loading

Dev/use vllm #1053

Dev/use vllm #1053

Conversation

qi-hua commented Mar 7, 2025 • edited Loading

wang-TJ-20 commented Mar 8, 2025 • edited Loading

qi-hua commented Mar 8, 2025

wang-TJ-20 commented Mar 9, 2025

qi-hua commented Mar 9, 2025

aluminumbox commented Mar 10, 2025

deyituo commented Mar 13, 2025

wang-TJ-20 commented Mar 13, 2025 • edited Loading

qi-hua commented Mar 7, 2025 •

edited

Loading

wang-TJ-20 commented Mar 8, 2025 •

edited

Loading

wang-TJ-20 commented Mar 13, 2025 •

edited

Loading