Alexa, 谷歌助手, Siri: 声音作为内容交付的未来

人们越来越依赖自己的设备,他们越来越依赖语音激活的服务,如 Alexa、Google 助手和 Siri。利用长期承诺的免提语音计算的便利性和灵活性,这些领先的语音助理(以及类似的技术和解决方案)只会随着人工智能的实现而扩展其智能和受欢迎程度,做:学习。

瞻步研究最近预测,未来四年(到 2023 年),数字语音助理的使用数量将跃升至 80 亿(2018 年底为 25 亿)。如今,许多这些助手都使用手机和平板电脑,但设备的广泛性将大为爆炸式增长:智能电视、可穿戴设备、智能扬声器和其他家庭/智能家居设备将变得更加重要。

在这里,我们进入有趣的领域,如何使用语音技术。功能将变得更加复杂,导致更复杂的计算和安全需求,例如当电子商务和银行/金融交易变得更加常规时,功能将变得更加复杂,而不是仅仅使用技术来获得基本帮助。

语音只是另一种形式的内容:缓存是关键

随着基于语音技术范围的不可避免的扩展,我们开始意识到,Web 性能的基本原理再次成为基本考虑因素。最终用户期望速度和可用性能够为其高质量的用户体验提供动力,无论用户如何访问内容,这都应该是完全不可见和无缝的。

语音内容传递与任何其他类型的内容传递没有区别。其理念是,用户通过语音激活设备(无论是 Alexa 还是 Google)发出请求,语音请求通过云进行流式传输,在这里语音将转换为文本。此文本请求转到后端,后端将其作为任何其他请求处理。后端回复时带有文本响应,该响应通过云,并转换为语音,并将流式传输回用户。

正如您所想象的那样,云中发生的所有这些转换都增加了一些延迟,并且高度依赖于亚马逊或 Google。同时,建议不仅尽可能缓存内容,而且真正必须这样做。这里确实回到了基本内容:缓存所有可以减少源服务器流量以及每个请求内容的创建和交付时间。