AI音频超分辨率简介
音频超分技术(Audio Super 或 Audio )是一种利用人工智能,特别是深度学习技术,来提高音频质量的方法。这种技术的目标是从低质量或低带宽的音频信号中恢复出更高质量的音频,例如将窄带语音信号扩展到宽带,以提供更丰富的频率成分和更好的听感体验。
业界对音频超分辨率的研究主要专注于时域或者频域,采样率16K,且绝大多数针对语音信号,少有针对音乐。对于通过音乐超分辨生成后的音频,需要满足失真少、听感自然、不引入额外杂音、MOS评分高等要求。业界研究的音频超分辨率普遍在语音上展开,面向语音通话、VoIP、网络会议等场景。通过下表中语音与音乐音频的差异对比,更能说明针对音乐研发超分辨率技术的挑战。
语音音乐
组成成分
单一
各乐器重叠
频谱建模难度
频谱结构分明,简单
频谱结构复杂,难
高频能量
稀疏
能量大
听感评价角度
可懂度
艺术欣赏
听者容忍度
高
低
行业方案
音频超分辨率在引入深度学习技术后,可通过DNN网络学习超分信号前后的相关性,总体来讲业界关于音频超分辨率主要有两种方法:
时域插值 (): 在时域做“有效”插值,不同于
频域修复 (): 在频域由低频信息映射得到高频信息
随着DNN技术的深入发展,按照时域或者频域两个方向,业界对音频超分辨率的研究越来越多,按照时间先后顺序现总结如下:
行业竞品
RX: RX是一款专业的音频修复和编辑软件,其中包含了音频超分功能。它提供了高级的音频处理工具和算法,可用于将低分辨率音频信号转换为高分辨率。
Waves :Waves 是一款专业的实时音频处理软件,其中包含了音频超分功能。它提供了实时音频处理和增强功能,可用于提高音频的质量和分辨率。
Magix SOUND FORGE Pro:Magix SOUND FORGE Pro是一款专业的音频编辑和处理软件,其中包含了音频超分功能。它提供了强大的音频处理工具和效果,可用于提高音频的质量和分辨率。
:是一款免费的开源音频编辑软件,提供了一些插件和工具,可以用于音频超分。虽然功能相对简单,但也能满足一般用户的音频超分需求。
: 是一款专业的音频制作软件,其中包含了一些音频处理和增强功能,可以用于音频超分。它提供了灵活的音频处理工具,适合专业音频制作人员使用。
环境要求使用场景算法调用
语音音频增强:输入一个8K/16K的音频,生成一个44k/48K的音频
音乐音频增强:输入一个8k/16k/22.05k/44.1k的音频,生成一个48K的音乐
算法demo展示
输入音频
输出音频
输入音频
输出音频
![image]()
323AI导航网发布