AI 音乐生成器 MusicGPT,同声传译StreamSpeech!Web短视频平台Sharine。
项目简介
MusicGPT 是一款应用程序,允许在任何平台上以高性能方式本地运行最新的音乐生成 AI 模型,而无需安装 Python 或机器学习框架等严重依赖项。
目前它仅支持 Meta 的 MusicGen,但计划是对用户透明地支持不同的音乐生成模型。
该项目的主要里程碑是:
文本条件音乐生成
旋律条件音乐生成
不确定长/无限音乐流
安装
Mac 和 Linux
MusicGPT 可以使用 brew 安装在 Mac 和 Linux 上:
brew install gabotechs/taps/musicgpt
Windows
在 Windows 上,可以从此链接下载可执行文件。
Docker(推荐与 CUDA 一起运行)
如果您想使用支持 CUDA 的 GPU 运行 MusicGPT,这是最好的方法,因为您只需要在系统中安装基本的 NVIDIA 驱动程序。
docker pull gabotechs/musicgpt
下载镜像后,您可以使用以下命令运行它:
docker run -it --gpus all -p 8642:8642 -v ~/.musicgpt:/root/.local/share/musicgpt gabotechs/musicgpt --gpu --ui-expose
With cargo
如果您的系统中安装了 Rust 工具链,则可以使用 cargo 进行安装。
cargo install musicgpt
用法
与 MusicGPT 交互有两种方式:UI 模式和 CLI 模式。
用户界面模式
此模式将显示一个类似聊天的 Web 应用程序,用于与 LLM 交换提示。它会:
存储您的聊天记录
允许您随时播放生成的音乐样本
在后台生成音乐样本
允许您在与执行 LLMs 的设备不同的设备中使用 UI
您只需执行以下命令即可运行 UI:
musicgpt
您还可以选择不同的模型来运行推理,以及是否使用 GPU,例如:
musicgpt --gpu --model medium
如果您想使用支持 CUDA 的 GPU,建议您使用 Docker 运行 MusicGPT:
docker run -it --gpus all -p 8642:8642 -v ~/.musicgpt:/root/.local/share/musicgpt gabotechs/musicgpt --ui-expose --gpu
项目链接
https://github.com/gabotechs/MusicGPT
项目简介
“一体化”无缝模型,同步执行语音识别、语音翻译和语音合成。
StreamSpeech可以同时提供ASR、翻译和合成结果
同步语音到语音翻译(Simul-S2ST,又名流式语音翻译)在接收流式语音输入的同时输出目标语音,这对于实时通信至关重要。除了完成语音之间的翻译之外,Simul-S2ST 还需要一个策略来控制模型在语音输入的适当时刻生成相应的目标语音,从而提出了翻译和策略的双重挑战。在本文中,我们提出了 StreamSpeech,这是一种直接 Simul-S2ST 模型,可以在多任务学习的统一框架中联合学习翻译和同时策略。StreamSpeech 是一种用于语音识别、语音翻译和语音合成的“一体化”无缝流式模型,它可以有效地识别流式语音输入中开始翻译的合适时机。CVSS 基准测试表明 StreamSpeech 在离线 S2ST 和 Simul-S2ST 任务中均实现了最先进的性能。此外,StreamSpeech能够在同声翻译过程中呈现高质量的中间结果(即ASR或翻译结果),提供更全面的实时沟通体验。
StreamSpeech 采用两遍架构,首先将源语音转换为目标文本隐藏状态(自回归语音到文本翻译,AR-S2TT),然后通过非自回归文本到单元生成生成目标语音。引入源/目标/单元 CTC 解码器,通过语音识别(ASR)、非自回归语音到文本翻译(NAR-S2TT)和语音到单元翻译(S2UT)的多个任务来学习对齐,从而指导StreamSpeech 何时开始识别、翻译和合成。