chatgpt接口开发上下文关联我创建了一个由 ChatGPT API 提供支持的语音聊天机器人，方法请收下

默认分类2年前 (2023)发布 admin

2,041 0 0

今天这篇文章的重点是使用 API 创建私人语音 Web 应用程序。目的是探索和发现人工智能的更多潜在用例和商业机会。我将逐步指导您完成开发过程，以确保您理解并可以复制自己的过程。

为什么需要

足够的理论，让我们开始吧。

1.框图

在这个应用程序中，我们按处理顺序分为三个关键模块：

Web框架由构建。

如果您已经知道如何使用 GPT 3.5 模型下的 API 以及如何使用设计 Web 应用程序，建议您跳过第 1 部分和第 2 部分以节省阅读时间。

2. GPT API获取您的 API 密钥

如果您已经拥有一个 API 密钥，请坚持使用它而不是创建一个新密钥。但是，如果您是新手，请注册一个新帐户并在您的帐户菜单中找到以下页面：

生成 API 密钥后，请记住它只会显示一次，因此请确保将其复制到安全的地方以备将来使用。

API 的使用

目前GPT-4.0刚刚发布，该模型的API还没有完全发布，所以我将介绍开发仍然是GPT 3.5模型，它足以完成我们的AI语音演示。

现在让我们看一下来自的最简单的演示，以了解 API（或称为 gpt-3.5 API 或 API）的基本定义：

安装包：

!pip install opena

如果您之前从开发了一些遗留 GPT 模型，您可能必须通过 pip 升级您的包：

!pip install --upgrade openai

创建并发送提示：

import openai
complete = openai.ChatCompletion.create(
  model="gpt-3.5-turbo",
  messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who won the world series in 2020?"},
        {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
        {"role": "user", "content": "Where was it played?"}
    ]
)

接收文本响应：

message=complete.choices[0].message.content

因为 GPT 3.5 API 是基于聊天的文本完成 API，所以请确保请求的消息正文包含对话历史记录作为上下文，您希望模型参考更上下文相关的响应来响应您的当前请求。

为了实现此功能，消息体的列表对象应按以下顺序组织：

3. 网页开发

我们将继续使用强大的库来构建 Web 应用程序。

是一个开源框架，它使数据科学家和开发人员能够快速构建和共享用于机器学习和数据科学项目的交互式 Web 应用程序。它还提供了一堆小部件，只需要一行代码即可创建，如 st.table(…)。

如果您不太擅长 Web 开发并且不愿意像我一样构建大型商业应用程序，始终是您的最佳选择之一，因为它几乎不需要 HTML 方面的专业知识。

让我们看一个构建 Web 应用程序的快速示例：

安装包：

!pip install streamlit

创建一个文件“demo.py”：

import streamlit as st


st.write("""
# My First App
Hello *world!*
""")

chatgpt接口开发上下文关联我创建了一个由 ChatGPT API 提供支持的语音聊天机器人，方法请收下

在本地机器或远程服务器上运行：

!python -m streamlit run demo.py

打印此输出后，您可以通过列出的地址和端口访问您的网站：

You can now view your Streamlit app in your browser.


  Network URL: http://xxx.xxx.xxx.xxx:8501
  External URL: http://xxx.xxx.xxx.xxx:8501

提供的所有小部件的用法可以在其文档页面中找到：api-

4.语音转文字的实现

此 AI 语音聊天机器人的主要功能之一是它能够识别用户语音并生成我们的 API 可用作输入的适当文本。

的 API 提供的高质量语音识别是一个很好的选择，但它是有代价的。或者，来自的免费 Web API 提供可靠的多语言支持和令人印象深刻的性能。

虽然开发项目似乎与定制的不兼容，但不要害怕！在下一部分中，我将介绍一种在程序中调用代码的简单技术。

不管怎样，让我们看看如何使用 Web API 快速开发语音转文本演示。您可以找到它的文档（地址：）。

语音识别的实现可以很容易地完成，如下所示。

var recognition = new webkitSpeechRecognition();
recognition.continuous = false;
recognition.interimResults = true;
recognition.lang = 'en';


recognition.start();

通过方法 ion() 初始化识别对象后，需要定义一些有用的属性。属性表示您是否希望函数在语音输入的一种模式处理成功完成后继续工作。

我将其设置为 false，因为我希望语音聊天机器人能够以稳定的速度根据用户语音输入生成每个答案。

设置为 true 的属性将在用户语音期间生成一些中间结果，以便用户可以看到从他们的语音输入输出的动态消息。

lang 属性将设置请求识别的语言。请注意，如果它在代码中是未设置，则默认语言将来自 HTML 文档根元素和关联的层次结构，因此在其系统中使用不同语言设置的用户可能会有不同的体验。

识别对象有多个事件，我们使用 . 回调来处理来自中间结果和最终结果的文本生成结果。

recognition.onresult = function (e) {
    var value, value2 = "";
    for (var i = e.resultIndex; i < e.results.length; ++i) {
        if (e.results[i].isFinal) {
            value += e.results[i][0].transcript;
            rand = Math.random();


        } else {
            value2 += e.results[i][0].transcript;
        }
    }
}

5.引入Bokeh库

从用户界面的定义来看，我们想设计一个按钮来启动我们在上一节中已经用实现的语音识别。

库不支持自定义 JS 代码，所以我们引入了 Bokeh。Bokeh 库是另一个强大的数据可视化工具。可以支持我们的演示的最佳部分之一是嵌入自定义代码，这意味着我们可以在 Bokeh 的按钮小部件下运行我们的语音识别脚本。

为此，我们应该安装 Bokeh 包。为了兼容后面会提到的-bokeh-库，Bokeh的版本应该是2.4.2：

!pip install bokeh==2.4.2

导入按钮和：

from bokeh.models.widgets import Button
from bokeh.models import CustomJS

创建按钮小部件：

spk_button = Button(label='SPEAK', button_type='success')

定义按钮点击事件：

spk_button.js_on_event("button_click", CustomJS(code="""
    ...js code...
"""))

定义了.()方法来注册的事件。

在这种情况下，我们注册了“”事件，该事件将在用户单击后触发由 () 方法嵌入的 JS 代码块…js 代码…的执行。

chatgpt接口开发上下文关联我创建了一个由 ChatGPT API 提供支持的语音聊天机器人，方法请收下

speak 按钮及其回调方法实现后，下一步是将 Bokeh 事件输出（识别的文本）连接到其他功能块，以便将提示文本发送到 API。

幸运的是，有一个名为“ Bokeh ”的开源项目专为此目的而设计，它提供与 Bokeh 小部件的双向通信。你可以在这里找到它的页面。

这个库的使用非常简单。首先安装包：

!pip install streamlit-bokeh-events

通过 ts 方法创建结果对象。

result = streamlit_bokeh_events(
    bokeh_plot = spk_button,
    events="GET_TEXT,GET_ONREC,GET_INTRM",
    key="listen",
    refresh_on_update=False,
    override_height=75,
    debounce_time=0)

使用属性来注册我们在上一节中创建的。使用属性来标记多个自定义的 HTML 文档事件

我们可以使用 JS 函数 .(new (…)) 来生成事件，例如和事件：

spk_button.js_on_event("button_click", CustomJS(code="""
    var recognition = new webkitSpeechRecognition();
    recognition.continuous = false;
    recognition.interimResults = true;
    recognition.lang = 'en';


    var value, value2 = "";
    for (var i = e.resultIndex; i < e.results.length; ++i) {
        if (e.results[i].isFinal) {
            value += e.results[i][0].transcript;
            rand = Math.random();


        } else {
            value2 += e.results[i][0].transcript;
        }
    }
    document.dispatchEvent(new CustomEvent("GET_TEXT", {detail: {t:value, s:rand}}));
    document.dispatchEvent(new CustomEvent("GET_INTRM", {detail: value2}));


    recognition.start();
    }
"""))

并且，检查事件处理的 .get() 方法，例如：

tr = st.empty()
if result:
    if "GET_INTRM" in result:
        if result.get("GET_INTRM") != '':
            tr.text_area("**Your input**", result.get("GET_INTRM"))

这两个代码片段表明，当用户正在讲话时，任何临时识别文本都将显示在小部件上：

6. 文字转语音实现

提示请求完成，GPT-3.5模型通过 API生成响应后，我们通过 st.write()方法将响应文本直接显示在网页上。

但是，我们需要将文本转换为语音，这样我们的 AI 语音的双向功能才能完全完成。

有一个名为“gTTS”的流行库能够完美地完成这项工作。在与谷歌翻译的文本转语音 API 接口后，它支持多种格式的语音数据输出，包括 mp3 或。你可以在这里找到它的页面。

只需几行代码即可完成转换。首先安装包：

!pip install gTTS

在这个演示中，我们不想将语音数据保存到文件中，所以我们可以调用 () 来临时存储语音数据：

sound = BytesIO()
tts = gTTS(output, lang='en', tld='com')
tts.write_to_fp(sound)

输出的是要转换的文本字符串，你可以根据自己的喜好，通过tld从不同的域中选择不同的语言by lang。例如，您可以设置 tld=’co.uk’ 以生成英式英语口音。

然后，通过小部件创建一个像样的音频播放器：

st.audio(sound)

全语音聊天机器人

要整合上述所有模块，我们应该完成完整的功能：

请找到完整的演示代码供您参考：

import streamlit as st
from bokeh.models.widgets import Button
from bokeh.models import CustomJS


from streamlit_bokeh_events import streamlit_bokeh_events


from gtts import gTTS
from io import BytesIO
import openai


openai.api_key = '{Your API Key}'


if 'prompts' not in st.session_state:
    st.session_state['prompts'] = [{"role": "system", "content": "You are a helpful assistant. Answer as concisely as possible with a little humor expression."}]


def generate_response(prompt):


    st.session_state['prompts'].append({"role": "user", "content":prompt})
    completinotallow=openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages = st.session_state['prompts']
    )


    message=completion.choices[0].message.content
    return message


sound = BytesIO()


placeholder = st.container()


placeholder.title("Yeyu's Voice ChatBot")
stt_button = Button(label='SPEAK', button_type='success', margin = (5, 5, 5, 5), width=200)




stt_button.js_on_event("button_click", CustomJS(code="""
    var value = "";
    var rand = 0;
    var recognition = new webkitSpeechRecognition();
    recognition.continuous = false;
    recognition.interimResults = true;
    recognition.lang = 'en';


    document.dispatchEvent(new CustomEvent("GET_ONREC", {detail: 'start'}));


    recognition.onspeechstart = function () {
        document.dispatchEvent(new CustomEvent("GET_ONREC", {detail: 'running'}));
    }
    recognition.onsoundend = function () {
        document.dispatchEvent(new CustomEvent("GET_ONREC", {detail: 'stop'}));
    }
    recognition.onresult = function (e) {
        var value2 = "";
        for (var i = e.resultIndex; i < e.results.length; ++i) {
            if (e.results[i].isFinal) {
                value += e.results[i][0].transcript;
                rand = Math.random();


            } else {
                value2 += e.results[i][0].transcript;
            }
        }
        document.dispatchEvent(new CustomEvent("GET_TEXT", {detail: {t:value, s:rand}}));
        document.dispatchEvent(new CustomEvent("GET_INTRM", {detail: value2}));


    }
    recognition.onerror = function(e) {
        document.dispatchEvent(new CustomEvent("GET_ONREC", {detail: 'stop'}));
    }
    recognition.start();
    """))


result = streamlit_bokeh_events(
    bokeh_plot = stt_button,
    events="GET_TEXT,GET_ONREC,GET_INTRM",
    key="listen",
    refresh_on_update=False,
    override_height=75,
    debounce_time=0)


tr = st.empty()


if 'input' not in st.session_state:
    st.session_state['input'] = dict(text='', sessinotallow=0)


tr.text_area("**Your input**", value=st.session_state['input']['text'])


if result:
    if "GET_TEXT" in result:
        if result.get("GET_TEXT")["t"] != '' and result.get("GET_TEXT")["s"] != st.session_state['input']['session'] :
            st.session_state['input']['text'] = result.get("GET_TEXT")["t"]
            tr.text_area("**Your input**", value=st.session_state['input']['text'])
            st.session_state['input']['session'] = result.get("GET_TEXT")["s"]


    if "GET_INTRM" in result:
        if result.get("GET_INTRM") != '':
            tr.text_area("**Your input**", value=st.session_state['input']['text']+' '+result.get("GET_INTRM"))


    if "GET_ONREC" in result:
        if result.get("GET_ONREC") == 'start':
            placeholder.image("recon.gif")
            st.session_state['input']['text'] = ''
        elif result.get("GET_ONREC") == 'running':
            placeholder.image("recon.gif")
        elif result.get("GET_ONREC") == 'stop':
            placeholder.image("recon.jpg")
            if st.session_state['input']['text'] != '':
                input = st.session_state['input']['text']
                output = generate_response(input)
                st.write("**ChatBot:**")
                st.write(output)
                st.session_state['input']['text'] = ''


                tts = gTTS(output, lang='en', tld='com')
                tts.write_to_fp(sound)
                st.audio(sound)


                st.session_state['prompts'].append({"role": "user", "content":input})
                st.session_state['prompts'].append({"role": "assistant", "content":output})