人机交互技术及应用
上QQ阅读APP看书,第一时间看更新

1.3.4 语音交互

语音交互是人以自然语音或机器合成语音同计算机进行交互的综合性技术。机器通过识别和理解,把语音信号转变为相应的文本或命令,人通过语音与机器进行对话交流,让机器明白用户的交互意图。

语音交互是一种高效的交互方式,解放了人的双手,在智能机器人、智能家居以及驾驶导航等多种场合应用广泛。自从iPhone 4S推出Siri后,智能语音交互应用得到飞速发展,图1-16给出了语音交互的示例商业产品。典型的场景如语音助手苹果Siri、谷歌Assistant、微软Cortana;语音音箱亚马逊Echo、苹果HomePod、谷歌Home、微软Invoke及阿里天猫精灵等。中文典型的智能语音交互应用如虫洞语音助手和讯飞语点也已得到越来越多的用户认可。

图1-16 语音交互产品

a)苹果Siri b)亚马逊Echo

语音交互需要对语音识别和语音合成进行研究,还要对人在语音通道下的交互机理、行为方式等进行研究。语音交互过程包括四部分:语音采集、语音识别、语义理解和语音合成。语音采集完成音频的录入、采样及编码;语音识别完成语音信息到机器可识别的文本信息的转化;语义理解根据语音识别转换后的文本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转换。

作为人类沟通和获取信息最自然最便捷的手段,语音交互能为人机交互带来根本性变革,具有广阔的发展和应用前景。