[index-tts]我的显卡是4090感觉速度没有完全发挥出来

Reference audio length: 10.04 seconds gpt_gen_time: 11.80 seconds gpt_forward_time: 0.08 seconds bigvgan_time: 0.35 seconds Total inference time: 12.28 seconds Generated audio length: 16.64 seconds RTF: 0.7383 wav file saved to: outputs/spk_1747217713.wav

显存只用了 python 2930MiB 有没有大佬指导下怎么提升速度

jinJian888

打印一下 torch 的信息，是否安装了 cuda 版本。

pip show torch

正常情况下，是这样的：

Name: torch
Version: 2.6.0+cu124

juntaosun

(index-tts) root@wu-qx:/appdata/index-tts# pip show torch Name: torch Version: 2.7.0 Summary: Tensors and Dynamic neural networks in Python with strong GPU acceleration Home-page: https://pytorch.org/ Author: PyTorch Team Author-email: packages@pytorch.org License: BSD-3-Clause Location: /root/anaconda3/envs/index-tts/lib/python3.10/site-packages Requires: filelock, fsspec, jinja2, networkx, nvidia-cublas-cu12, nvidia-cuda-cupti-cu12, nvidia-cuda-nvrtc-cu12, nvidia-cuda-runtime-cu12, nvidia-cudnn-cu12, nvidia-cufft-cu12, nvidia-cufile-cu12, nvidia-curand-cu12, nvidia-cusolver-cu12, nvidia-cusparse-cu12, nvidia-cusparselt-cu12, nvidia-nccl-cu12, nvidia-nvjitlink-cu12, nvidia-nvtx-cu12, sympy, triton, typing-extensions Required-by: accelerate, encodec, indextts, torchaudio, vocos

已经显示的确实是GPU版本了就是感觉有点慢比如10秒钟的音频需要5秒钟还能不能再加速

jinJian888

@jinJian888 Version: 2.7.0, 明显是 CPU 啊~

juntaosun

python test.py True 12.6

执行出来的结果是GPU

jinJian888

gpt gen time 是这里最慢的——这是第一代还是一个长句子？

总之，试试vllm仓库，因为它能加速gpt转换步骤：

https://github.com/index-tts/index-tts/issues/148

dignome

欢迎参考此导出脚本，获得IndexTTS-ONNX后，再进一步量化与优化模型，体验一下ONNX Runtime CUDAExecutionProvider 的加速效果。

DakeQQ

[index-tts]我的显卡是4090感觉速度没有完全发挥出来

回答