当你轻触屏幕右上角的三个小点,并选择“听全文”功能时,可能会有一番全新的听觉体验正等待着你。微信公众号悄然引入AI音色克隆功能:微信微进步,AI大跨越
映入眼帘的是一幅图片,随后,你听到的声音或许不再是千篇一律、众人皆知的男声,而是经过AI技术克隆的我的声音。微信此刻可能会利用我的声音,为你朗读这篇文章。我之所以频繁使用“可能”,是因为尽管我在后台进行了相应设置,但只有这篇新发布的文章,才能让我确认我的声音是否真正生效。
不过,无论结果如何,这都是微信发展历程中的一小步,却是AI技术的一大步。
在这个周末,当我登录手机端公众号后台时,意外发现公众号版本又更新了,版本号为2.29.1。当然,版本号本身并不重要,关键在于新版本中的新功能——“朗读音色”。
以前,这个功能是完全不存在的。作为一个几乎以公众号为职业的我,对公众号后台的任何细微变动都极为敏感。点击“朗读音色”后,你会看到一个系统默认的音色选项,并且你还可以选择创建自己的音色。
点击“创建新的音色”,你会进入一个新页面,系统会要求你现场朗读一句话。甚至,它还会从你的实际文章中抽取一些片段,让你朗读,这个过程非常有趣。
这里,我顺便解释一下,为什么现在微信、豆包、kimi等产品在做AI音色克隆时,都要求用户现场朗读一段文本,而不是允许用户随意上传一段音频。原因很简单,主要是为了合规和风控。
前段时间发生的一些AI音频事件,如三只羊AI音频事件、AI雷军在微博上“骂人”等,都让我们意识到,一旦AI克隆音色被滥用,将会带来极大的诈骗风险。如果允许用户随意上传音频,那么最开心的可能不是你我,而是那些骗子。
对于了解AI音频的人来说,在收到一些亲近人的语音时可能会产生警惕,但我们家里的老人呢?他们中的很多人对AI并不了解,一旦AI音色克隆被滥用,骗子很容易就能用你短短几秒的音频去骗取他们的信任。
因此,现在大多数产品都采用实时录制的方式,让用户念出文本上的随机话语,并且不能念错。这种方式可以在一定程度上证明用户的身份,提高门槛,降低风险。
在你读完这段话后,系统就会迅速进入克隆步骤,速度非常快,大约十几秒就能完成。然后,你就可以听到克隆好的声音示例了。音色基本很完美,与我的声音非常相似。虽然情绪表达仍然是TTS(文本转语音)的老问题,但整体听感还算不错。
最后,你就可以将这个音色应用到文章中了。我测试了一下,发现只有新的文章才能支持我的音色。所以,只有这篇新发布的文章,我才能知道我的音色在“听全文”功能中到底是什么感觉。
其实,我曾经幻想过公众号会如何接入AI来为这个可能是最大的长图文平台赋能。我想过AI创作、AI起标题、AI搜索、AI总结等可能性,但没想到第一个到来的竟然是AI音色克隆。
不过,仔细想想也合理。公众号作为长图文领域的王者,一直存在一个在我看来很大的问题,那就是IP化很难。而这次更新,我觉得很有趣的一点是,微信公众号终于把声音这个元素补上了。
你不仅可以看到我的文字,还可以听到我的声音。在过去,我们用文字表达思想,用图片传递视觉;而现在,我们又多了一个维度——可以用自己的声音来传递情感。声音终于成为了我们这群做图文内容的人的有机组成部分,而不再只是机械的朗读。
我很高兴看到微信的每一次变化,特别是与AI有关的更新。这是微信的一小步,却是AI的一大步。AI就像空气一样,只有当你感受不到它的存在,觉得它是我们生活中理所应当的一部分时,AI才算真正成功进入了每个普通人的生活。
微信作为国内最大的超级APP之一,它与AI的结合无疑将产生广泛的影响。未来的某一天,可能所有的公众号都会拥有自己的专属声音。到时候,还会有谁在乎这是不是AI呢?这一切,难道不是本来就应该是这样的吗?