News Release 23-Mar-2020

自动语音识别与种族偏见

Peer-Reviewed Publication

Proceedings of the National Academy of Sciences

一项研究发现，自动语音识别（ASR）系统对于黑人说话者的表现比对白人说话者更差。自动语音识别（ASR）系统在诸如虚拟助手和不用手的计算等应用中变得越来越流行。这类机器学习算法根据用文本数据训练的一个语言模型和用音频数据训练的一个声学模型把语音转化成文本。考虑到近来关于其他类型的机器学习算法的种族偏见的报道，Sharad Goel 及其同事研究了种族差异是否也存在于自动语音识别（ASR）系统中。这组作者评估了亚马逊、苹果、谷歌、IBM和微软开发的最先进的自动语音识别（ASR）系统在识别来自美国各地的42名白人说话者和73名黑人说话者的19.8小时的音频的表现。平均起来，这些自动语音识别（ASR）系统对于黑人说话者的错误率是每词0.35，相比之下对于白人说话者是每词0.19。额外的结果提示，自动语音识别（ASR）系统的种族差异被归结为声学模型准确捕捉非洲裔美国人白话英语的发音和韵律的能力的缺陷，非洲裔美国人白话英语是一种得到长久研究的自然的体系。这组作者说，这些发现凸显了自动语音识别（ASR）系统的开发者需要使用一个广泛包容的音频训练数据集合，从而确保这项技术以一种平等的方式造福社会。

###

Journal

Proceedings of the National Academy of Sciences

Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.