ai语言软件 OpenAI宣布开源多语言语音识别系统Whisper

默认分类1年前 (2024)发布 admin

3,043 0 0

ChatGPT国内版

尽管包括、亚马逊和 Meta 在内的科技巨头，都将各自开发的功能强大的语音识别系统置于其软件和服务的核心地位。但在人工智能和机器学习领域，语音识别仍是一个颇具挑战性的话题。好消息是，今日隆重地宣布了的开源 —— 可知作为一套自动语音识别系统，官方宣称它能够实现多种语言的强大转录、并将它们翻译成英语。

表示，的不同之处，在于其接受了从网络收集的 68 万小时的多语言和“多任务”训练数据，从而提升了该方案对独特口音、背景噪声和技术术语的识别能力。

官方存储库上的概述称：

模型的主要目标用户，是研究当前模型稳健性、泛化、能力、偏差和约束的 AI 研究人员。

与此同时，它也很适合作为面向开发者的自动语音识别解决方案尤其是英语语音识别。

感兴趣的朋友，可以从托管平台上下载系统的多个版本，其模型在大约 10 种语言上展现出了强大的 ASR 结果。

此外假如在某些任务上加以微调的话，它们还有望在语音活动检测、讲述者分类等应用场景下表现出额外的能力。

ai语言软件 OpenAI宣布开源多语言语音识别系统Whisper

架构示意

遗憾的是，尚未在相关领域得到强有力的评估、且模型也有其局限性 —— 有其在文本预测领域。

由于该系统接受了大量“嘈杂”的数据训练，决定提前给大家打一剂预防针，警告称可能在转录中包含实际上未讲述的单词。

原因可能是既试图预测音频中的下一个单词、又试图转录音频本身。

流程示例

此外在不同语言场景下的表现也不大一致，尤其涉及在训练数据中没有很好被代表的语言的讲述者时，其错误率也会更高。

不过后者在语音识别领域早已不是什么新鲜事，即使业内首屈一指的系统，也一直受到此类偏差的困扰。

ai语言软件 OpenAI宣布开源多语言语音识别系统Whisper

参考斯坦福大学在 2020 年分享的一项研究结果 —— 相较于黑人，来自亚马逊、苹果、、IBM 和微软的系统，针对白人用户的错误率要低得多（大约 35%）。

有约 1/3 的音频数据集为非英语

即便如此，还是认为的转录功能，可被用于改进现有的可访问性工具。其在上写道：

尽管模型不适用于开箱即用的实时转录，但其速度和大小表明，其他人可在此基础上构建近乎实时的语音识别和翻译应用程序。

建立在模型之上的有益应用程序，其价值切实地表明了这些模型的不同性能，有望发挥出真正的经济影响力。

我们希望大家能够将该技术积极应用于有益目的，使自动语音识别技术更易获得改进、让更多参与者能够打造出更负责任的项目。

在速度和准确性的双重优势下，将允许对大量通信提供可负担得起的自动转录和翻译体验。

# 默认分类 # 科技新闻 # 语音识别

© 版权声明

文章版权归作者所有，未经允许请勿转载。

广告也精彩

相关文章

ai系统新型AI服务器助智慧计算系统升级

admin

2,056 0

用chatgpt写课程论文这段文本是人写的吗？能代写论文的ChatGPT开发者发布反作弊工具

admin

5,032 0

chatgpt的信息安全问题 ChatGPT因数据安全问题遭多国监管调查网安企业能否助其跳出“潘多拉魔盒”？

admin

2,052 0

ai智能语音聊天系统智能语音生活助手实现（QT）

admin

5,048 0

百度chatgpt文心一言怎么用百度李彦宏：文心一言和ChatGPT水平差距不是很大，也就一两个月

admin

3,540 0

chatgpt4.0的底层语言是什么一文讲透以ChatGPT4.0开启的AI人工智能的到来

admin

1,549 0

暂无评论

暂无评论...

323AI导航网（323ai.com）—— 精选全球实用AIGC工具箱。 AI人工智能爱好者使用学习必备导航网站，收录了国内外5000+优质AI实用工具网址，一个专业、全面、实用的AIGC工具与AI资讯导航网站，我们聚焦于最新的AI文本、AI绘画、AI视频、ChatGPT、Stable-Diffusion、Midjourney等AI项目，帮助用户发现最前沿的AIGC项目，探索人工智能的无限可能。

友链申请免责声明广告合作关于我们

Copyright © 2025 323AI导航网陕ICP备2023007327号-3