怎么让chatgpt生成语音对话大模型超进化！ChatGPT将支持图片和语音输入

默认分类2年前 (2023)发布 admin

4,542 0 0

据IT之家，近日，宣布推出新版，增加了两项新功能：语音输入和图像输入。称，新功能将在未来两周内向 Plus订阅用户推出，其他人也将“很快”能够使用这些功能。

语音输入功能类似于手机上的语音助手，用户只需按下一个按钮，说出自己的问题，就会将其转换为文本，然后生成答案，再将答案转换为语音，播放给用户。AI识别语音在技术上并非难事，相当于加了一个“语言-文本”转换环节，目前更重要的是提升准确性，尤其是在面对不同语言、甚至是方言和俚语的情况下，能否依旧准确识别并输出对用户有帮助的内容。另外，跨语种场景下的识别和生成结果，同样需要细细打磨。

怎么让chatgpt生成语音对话大模型超进化！ChatGPT将支持图片和语音输入

图像输入功能方面，用户可以拍摄自己感兴趣的事物，并上传到中。会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。的优势在于它可以进行多轮对话，而不是一次性搜索。如果用户对答案不满意或想要更多信息，可以继续向提问，从而得到更准确和全面的答案。

而在公司经营层面，除了要面对高昂的运营和训练成本，以及尚未寻找到实现盈利的突破口等挑战外，公司还遭到了阻击。当地时间周一，美国电商和云服务巨头亚马逊宣布，将投资40亿美元，投资人工智能初创企业。根据新合作协议，将使用亚马逊自研的人工智能芯片来构建、训练和部署亚马逊的智能大模型。同时，未来将通过亚马逊云来完成其大部分工作业务，从而帮助提升亚马逊云的服务质量。确实在技术上存在优势地位，但面对“钞能力”这种不讲道理的竞争方式，同样压力山大。