AI 可以复制任何人类的声音：这对播客意味着什么？

播客正在向一种更非正式的音频叙事流派发展。更加强调主持人和听众之间的关系，这种关系是由不太精心使用的语言所促进的。

也就是说，主持人试图讲每个人的语言，使一切更容易理解和反应。因此，音频讲故事在人气方面呈上升趋势。数字支持此说法。

根据Statista的统计，2018年，美国播客听众已经拥有7500万，预计到2024年，每月的听众人数将达到1.64亿。2019年至2023年的复合年增长率估计为17%。

2020年，四分之三的美国人宣称知道播客，其中超过一半（55%）已经听了播客。世界上收入最高的播客，乔·罗根的《乔·罗根体验》在2019年赚了5000万美元，据说每月的下载量接近2亿次。

播客行业目前的主要问题是保持其编辑独立性，同时能够收集必要的资源来支持这种非凡的增长。正如现在的情况一样，具有语音克隆能力的人工智能技术可能至少提供部分解决方案。

一个相关的例子是尼克松项目——它提出了一个令人信服的案例，即人工智能可以复制人类的声音，其方式与原始声音无法区分。麻省理工学院的一组研究人员、记者和艺术家与语音克隆公司Respeecher和 VDR公司 Canny AI 合作，创造了第一次登月冒险的交替历史，宇航员尼尔·阿姆斯特朗和埃德温·”布兹”奥尔德林未能完成任务，被困在月球上

播客如何利用人工智能

计算机化声音的主要挑战是复制人类的声音与它的所有情感细微差别，并避免机器人的声音。其目的是使声音具备表达微妙细微差别的能力。语音到语音转换技术以人工智能技术为支撑，为精确实现这一点提供了手段。

像苹果的Siri，亚马逊的Alexa，微软的Cortana，或者谷歌助手这样的虚拟助手仍然使用文本到语音。虽然 TTS 仍然是一项非常有用的技术，但它使得获取不同声音的声音变得相当复杂，例如，让 Siri 听起来像一个年长的人：它要求一个新的音频文件，除了预先录制的文件，其中包含对话中可能需要的所有单词。因此，让我们看看演讲到演讲承诺带来的一些好处。

如何使用 AI 语音克隆播客？

人工智能支持语音克隆。它可以帮助您完美地复制任何播客项目的任何语音。一种通常由两种成分（经典的数字信号处理算法和专有的深度生成建模技术）组成，允许内容制作者使用最合适的语音，尽管存在后勤问题（例如，演员在您需要时无法到演播室，演员已经去世）。

下面是如何使用语音克隆来改进播客制作，同时使播客更接近受众想要收听内容的列表。

1. 将名人纳入您的项目

演员、作家、运动员等越出名，在播客中使用他们的声音就越难。但是，如果你利用人工智能来复制人类的声音，你不再需要等到他们非常繁忙的日程允许他们来到工作室。因此，您可以向观众提供他们最喜欢的声音的录音，而无需投入大量的时间和金钱资源，把他们带到工作室。

2. 带回过去的声音

语音克隆可以施展其魔力，帮助您按照自己的期望完成项目，即使不幸的是，您的一个演员已经去世。你在制作一个关于肯尼迪总统最后日子的历史播客吗？语音转换技术可以帮助您使用他的确切语音，而不仅仅是”接近近似”。

3. 使用儿童的声音，而不用大惊小怪，与孩子一起工作通常涉及

孩子们经常说一些令人惊奇有趣的话，不一定是因为内容，而仅仅是因为他们说话的方式（音调、语调、口音等）。同时，它们的工作可能非常具有挑战性。语音合成通过让你让专业演员说出孩子们说的话来简化这个过程，正是他们这样做的方式快走，保持它，直到你完成你的播客项目

AI 可以在一瞬间复制人类的声音。所有你需要提供的目标语音的高质量录音，并在很短的时间，你会很好去。

结论

2017年，播客的广告收入达到2.2亿美元，并且每年翻一番。用户参与度的上升是潜在广告客户的主要吸引力，此外，播客广告实际上被听到，完成率在90%左右就证明了这一点。

此外，广告客户愿意为一些播客时段支付高达 30 美元的 CPM（每千美元成本，或每千次广告展示的成本）。如果你认为 Facebook 的平均 CPM 约为 6 美元，这个数字就更有意义了。

有线电视缓慢但肯定地代替了网络电视，播客和广播之间的关系之间似乎有一个密切的类比。即使我们将类比限制在电台的广告预算上，它意味着播客行业当前的财务状况将获得200亿美元的奖金。而且，正如我们在开始时所说的，听众人数的增加证明，人们期望有计划、持续的利润增长。

诸如此类的数字清楚地表明，播客将在这里停留，并且非常需要通过更有效的方法增强音频内容制作者的能力。

上述列表中的点可提高生产力和盈利能力，因此利用 AI 语音克隆实现播客可以促进该部门的发展，从而更好地处理编辑独立性问题。

AI 可以复制任何人类的声音： 这对播客意味着什么？