ai解说软件 最强文本转语音工具:Bark,本地安装+云端部署+在线体验详细教程

默认分类1年前 (2023)发布 admin
211 0
ChatGPT国内版

AI文本转语音工具可以说真是太多了,其中我感觉用的最好的是微软的文本转语音,并且市面上大部分的文本转语音工具都是调用的微软的接口,像一些影视解说或是其它非真人出镜的解说视频,声音你一听就听过的那些很熟悉的声音都是微软的,但是现在有了一个更牛的文本转语音工具,那就是Bark。Bark 是由Suno创建的基于转换器的文本到音频模型。Bark 可以生成高度逼真的多语言语音以及其他音频 – 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。bark是支持多语言的,但是目前做的最好的还是英语,其它语言还在优化改善中。这是一个开源项目,你可以在中查看项目具体信息,地址:

今天讲一下3种体验Bark文本转语音的方法

1、本地电脑安装

2、 colab云端部署

3、 face及在线体验

1、本地安装

这个工具没有软件客户端,如果想使用的话需要自己配置环境,首先安装环境,打开网站下载页面: 下载稳定版3.10.11,如果是其它操作系统请对应选择。

下载到电脑上之后双击运行安装,注意在安装时一定要勾选add .exe to path,如果不会自定义安装全都默认即可

然后按键盘win+R键打开运行,输入cmd,点击确定,打开命令提示符界面。复制下面命令,然后鼠标右键单击命令提示符界面自动粘贴代码,然后回车运行,安装bark程序

pip install git+https://github.com/suno-ai/bark.git

安装需要下载很多文件,时间长短取决于你的网速,等到出现下面的提示界面就表示bark安装完成了。

接下来安装代码编辑工具vs code,这个是微软出品的工具,打开网站下载链接:,.zip这个是免安装版的,解压后可以直接运行的。

vs code下载完成并打开它,点击左上角【文件】-【新建文本文件】,然后复制输入如下命令,然后保存为bark.py

from bark import SAMPLE_RATE, generate_audio, preload_modelsfrom scipy.io.wavfile import write as write_wavfrom IPython.display import Audio# download and load all modelspreload_models()# generate audio from texttext_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""audio_array = generate_audio(text_prompt)# save audio to diskwrite_wav("bark_generation.wav", SAMPLE_RATE, audio_array)# play text in notebookAudio(audio_array, rate=SAMPLE_RATE)

系统提示有错误,有个包没有导入,在cmd窗口中输入如下命令,回车安装就可以了。

pip install -U IPython

ai解说软件 最强文本转语音工具:Bark,本地安装+云端部署+在线体验详细教程

再次返回vs code里,已经没有错误提示了,然后点击右上角运行按钮,首次运行会下载模型文件,比较大,而且多个,大约超13G,需要一些时间。

内容就是需要转换成音频的文本,音频生成完成后会保存在bark.py这个文件的相同文件夹内,如需生成其它文本,直接修改 内容,如果需要更换发音人如v2/,可以在里设置,如下面代码所示:

# generate audio from texttext_prompt = """
你知道今天星期几吗?
"""audio_array = generate_audio(text_prompt, history_prompt="v2/zh_speaker_7")# save audio to diskwrite_wav("bark_generation2.wav", SAMPLE_RATE, audio_array)# play text in notebookAudio(audio_array, rate=SAMPLE_RATE)

在提示词前后加上音乐符号♪,音频将以歌唱的形式生成。还可以生成音效和非语音声音,如下显示

[]

[]

[sighs]

[music]

[gasps]

[ ]

— or … for

♪ for song

for of a word

[MAN] and [WOMAN] to bias Bark male and ,

所有可用发音人列表:

这个用的是CPU,没有使用显存。

2、 colab云端部署

首先打开谷歌,网站地址:,如果没登录的话,点击页面右上角登录按钮登录账号,然后点击页面左上角【文件】-【新建笔记本】

然后点击页面左侧文件夹图标,然后点击谷歌云盘文件夹图标,链接谷歌云盘,

然后点击确定链接云盘,接下来按提示操作就可以。

ai解说软件 最强文本转语音工具:Bark,本地安装+云端部署+在线体验详细教程

链接到谷歌云盘后创建的文件会自动保存到云盘,关闭colab也不会丢失了。然后在colab内右侧输入bark安装命令,然后点击左侧的三角号运行命令。

pip install git+https://github.com/suno-ai/bark.git

这个过程42秒,安装完成后左侧三角号不再转圈了,下面显示 …..这个就代表安装成功了。

然后点击三角号上方【+代码】按钮新建代码输入框,输入如下命令:

from bark import SAMPLE_RATE, generate_audio, preload_modelsfrom scipy.io.wavfile import write as write_wavfrom IPython.display import Audio# download and load all modelspreload_models()# generate audio from texttext_prompt = """
Hello, my name is Suno. And, uh — and I like pizza. [laughs]
But I also have other interests such as playing tic tac toe.
"""audio_array = generate_audio(text_prompt)# save audio to diskwrite_wav("/content/drive/MyDrive/Colab Notebooks/bark_generation.wav", SAMPLE_RATE, audio_array)# play text in notebookAudio(audio_array, rate=SAMPLE_RATE)

然后运行代码,系统就会开始将:Hello, my name is Suno. And, uh — and I like pizza. []But I also have other such as tic tac toe.这段文本转成语音,这个过程耗时时间会长一点,

语音生成完成后可以直接点击播放按钮播放音频,点击三个点可以将音频下载到本地。

路径设置为谷歌云盘路径//drive//Colab ,生成的文件会自动保存到云盘,

再次运行命令生成语音的话只输入下面这部分指令即可:

# generate audio from texttext_prompt = """
这里输入待转换成语音的文本内容。
"""audio_array = generate_audio(text_prompt,history_prompt="v2/zh_speaker_7")# save audio to diskwrite_wav("bark_generation.wav", SAMPLE_RATE, audio_array)# play text in notebookAudio(audio_array, rate=SAMPLE_RATE)

所有可用发音人列表:

3、 face及在线体验

在线体验链接:

这个网站需要先登录才能使用,用账号登录,设置完成后点击下方的【】按钮即可生成,感觉这个网站生成速度比较快,但是是收费的。

如果电脑配置比较高的话可以在自己电脑上操作,其次的话荐用 colab部署,速度适中,也无需付费。以上演示为15秒短音频生成教程。下期会做一期长音频生成教程。

bark上手略微有些难度,不像其它文本转语音那么简单,但是bark生成语音的功能确实很强大,目前英语发音比较好,其它语言发音会带一些口音,比如就像老外说中文那样的发音,不过程序也在逐步完善过程中,期待以后会更强大。

原文:

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...