您的位置：首页 > 国内 > 正文

AIGC音频合成知识入门|头条焦点

来源：人人都是产品经理时间：2023-06-30 20:04:37

随着信息技术的发展，AI能帮助我们做的内容越来越多。本篇文章，作者以AI音频合成为主，分析音频合成的流程，以及需要考虑的几个方面，帮助音频合成零基础的伙伴，快速掌握音频合成。

(资料图)

今年席卷而来的AI风潮刮到了各个模态，音频创作作为重要形态之一，也逐渐涌现出众多产品与模型，但音频合成的基本原理你是否了解呢？一起来看看吧。

一、定义

组成声音的结构包括音素、音节、音位、语素等，音频生成是对这些基本单位进行预测和组合，通过频谱逼近或波形逼近的合成策略来生成对应的声音波形。

语音合成的本质是通过对于语句结构和关系的学习来预测其声学特征，还原声音波形的过程。语音＋音频结合后才得到我们常见的歌曲、朗读等形态。

音频生成目前主要包括：根据文本合成语音（text-to-speech），进行不同语言之间的语音转换，音色克隆（Singing Voice Conversion），根据视觉内容（图像或视频）进行语音描述，以及生成旋律、音乐等。

二、发展历程

音频生成随着计算机技术的发展，逐渐形成了以“文本分析-声学模型-声码器”为基本结构的语音合成方法。

基于对这个结构部分模块的替代或优化，音频生成的关键技术大致经历了拼接合成阶段、参数合成阶段、端到端合成阶段三个时期。

1. 波形拼接语音合成

顾名思义，波形拼接法是通过对语句的音素、音节、单词等进行特征标注和切分之后，在已有的语音数据库中查找基本单位，拼接合成语音。

其背后需要录制大量的音频，尽可能覆盖全所有的音节、音素等，数据库中的录音量（样本）越多，最后合成的音频效果越好。

优点：基于真人录制的语音音质较好，听觉上比较真实。缺点：拼接效果依赖于语音库的数据量，需要录制大量的语音才能保证覆盖率；字词的衔接过渡较为生硬，不够自然。2. 参数语音合成技术

参数合成法是主要是通过数学方法对已有声音数据进行声学特征参数建模，构建文本序列映射到语音特征的映射关系，生成参数合成器。

训练好的模型对输入数据进行分词、断句、韵律分析等，映射出对应的声学特征，再由声学模型（声码器）合成音频。

优点：原始录音数据量小；字间协同过渡平滑，自然。缺点：存在音质损失，没有波形拼接的好；机械感强，有杂音。3. 端到端语音合成技术

端到端语音合成技术是目前最为主流的技术，通过神经网络学习的方法，采用编码器-注意力机制-解码器（Encoder-Attention-Decoder）的声学模型，实现直接输入文本或者注音字符。

中间为黑盒部分，最后输出频谱和声音波形合成音频，简化了复杂的语言分析部分和特征抽取过程。

端到端合成大大降低了对语言学知识的要求，可以实现多种语言的语音合成。通过端到端合成的音频，效果得到的进一步的优化，更加自然，趋近真人发声效果。

目前，语音生成领域应用广泛且效果优秀的产品均基于端到端合成框架实现的，模型性能和应用能力的提升使其逐渐成为主流。

优点：对语言学知识要求降低；合成的音频自然，趋近人声，效果好；同参数合成一样所需录音量小。缺点：黑盒模型，合成的音频不能人为调优；复杂合成任务需要较多资源。

当前的开源模型在不断迭代更新，端到端合成目前比较火的有Tacotron2、Transformer-TTS、WavLM等模型。

三、影响应用能力的关键因素

四、输入类型

五、效果指标

1. MOS值

定义：找一些业内专家，对合成的音频效果进行打分，分值在1-5分之间，通过平均得到最后的分数。

这是一个相对主观的评分，没有具体的评分标准。根据个人对音色的喜好，对合成音频内容场景的掌握情况，以及对语音合成的了解程度是强相关的。

虽然mos值是一个比较主观的测试方式，但也有一些可评判的标准。例如在合成的音频中，多音字的读法、当前场景下数字的播报方式、英语的播报方式，以及在韵律方面，词语是否连在一起播报、应该重读的地方是否有重读、停顿的地方是否合理、音色是否符合应用于当前的这个场景。都可以在打分的时候做为得分失分的依据。

2. ABX测评

定义：熟知的AB测试，选择相同的文本以及相同场景下的音色，用不同的模型合成来对比哪个的效果较好，也是人为的主观判断。

但是具有一定的对比性，哪个模型更适合当前的场景，合成的效果更好。

3. 其他指标

围绕合成音频的可懂性、自然度、相似度。以中文为例，还有些指标包括PER（拼音-不包含声调-错误率，越低越好）、PTER（拼音-包含声调-错误率，越低越好）、Sim（与真人声音的相似度，越高越好）等。

六、应用场景

1. 文本-语音合成（TTS）

目前技术发展已经较为成熟，市面上已有较多公司（讯飞、出门问问、思必驰等）推出了商业化产品，主要聚焦的应用场景是AI语音合成

虚拟人主播

2. 音色迁移/语音克隆（SVC）

这段时间爆火的“AI孙燕姿”就是音色克隆的代表之一，只需要一定数量的训练集录音，就可将输入的文本或语音转换为目标模型音色

部分商业化产品目前也在试行推广这一功能。

目前也有开源模型支持个人训练，仅需满足硬件限制（6GB以上显存的NVDIA显卡、Windows系统）。

例如比较主流的模型so-vits-svc，部署后可直接通过webui即可进行训练操作。

github仓库地址：so-vits-svc/README_zh_CN.md at 4.1-Stable · svc-develop-team/so-vits-svc · GitHub

至此音频合成的知识入门就告一段落，感兴趣的同学可以尝试语音克隆的模型训练去了解更多，实践出真知~

本文引用数据源：

易观千帆：https://qianfan.analysys.cn/

本文由 @白金之星原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

相关阅读

AIGC音频合成知识入门|头条焦点

06-30

云南城投：对于与公司相关的重大事项，公司将按照相关监管规则及时履行决策流程及披露义务

06-30

*ST柏龙一地鸡毛律师支招投资者如何挽回损失|全球热点评

06-30

京泉华：6月29日公司高管谢光元减持公司股份合计2.79万股

06-30

今日快讯：大理药业：6月29日公司高管杨君祥减持公司股份合计95.76万股

06-30

世界聚焦：关键节点再发力经济回升向好态势明显——6月全国各地经济社会发展扫描

06-30

【金融街发布】财政部、国家税务总局：对烷基化油（异辛烷）按照汽油征收消费税-世界速讯

06-30

安徽建工摇号中标合肥瑶海YH202307号地块

06-30

顺发恒业聘任盛树浩为总经理王竞楠不再担任

06-30

157轮竞价建发9.64亿元夺得台州椒江商住地

06-30

融创中国债务重组相关决议案获股东特别大会投票通过-快消息

06-30

环球观热点：伟星3.2亿竞得合肥瑶海宅地溢价率14.96%

06-30

环球信息:北方热过南方高温屡破纪录！大数据看这个6月北方有多热

06-30

债市日报：6月30日

06-30

怎样用电脑收看广西空中课堂_怎样用电脑收发传真世界实时

06-30

龙溪股份：目前公司暂无生产交叉滚子轴承、谐波减速器等产品

06-30

三孚新科：公司一直高度重视环境保护、社会责任及公司治理，相关情况已在年度报告相关章节披露

06-30

大发地产披露前五月销售及复牌进度：财报尚在审计日期另行公告-滚动

06-30

宋都股份申请延期回复上交所问询函计划7月7日前回复

06-30

世茂股份上半年公开市场债务累计7.8亿元未能按期支付

06-30

推荐阅读

: 绿地集团上半年交付面积1123万平方米 6月交付616

上半年，绿地集团实现整体交付面积1123 2万平方米，同比增长20 3%，交更多
2023-06-30 18:17:42

: 中南建设控股股东新增质押3344万股减少质押约89

根据中南城投通知，自2022年8月15日至2023年6月29日，其持有的公司股份更多
2023-06-30 18:21:48

: 【金融街发布】人民银行增加支农支小再贷款、再贴

中国人民银行决定增加支农支小再贷款、再贴现额度2000亿元，其中，支农更多
2023-06-30 18:30:21

: 最新消息：【金融街发布】9个区域性股权市场入选

北京股权交易中心、浙江省股权交易中心、江西联合股权交易中心等9个区更多
2023-06-30 18:27:32

: 商品日报（6月30日）：沪锡强势反弹超3% 黑色链

本月最后一个交易日，国内商品期货市场整体偏强震荡，活跃品种收盘大多更多
2023-06-30 18:28:09

: 科普：阿斯巴甜的“致癌”争议

据媒体报道，世界卫生组织下属的国际癌症研究机构7月将宣布阿斯巴甜为更多
2023-06-30 18:28:17

: 当前时讯：每日机构分析：6月30日

•凯投宏观：英国央行约60%的加息影响尚未显现•德国复兴信贷银行：更多
2023-06-30 18:33:25

: 快看：斯莱克：公司在关节型机器人应用领域向外采

同花顺金融研究中心6月30日讯，有投资者向斯莱克提问，请介绍一下贵公更多
2023-06-30 17:51:37

+ 点击查看更多精彩

财经热图

AIGC音频合成知识入门|头条焦点

云南城投：对于与公司相关的重大事项，公司将按照相关监管规则及时履行决策流程及披露义务

*ST柏龙一地鸡毛律师支招投资者如何挽回损失|全球热点评

京泉华：6月29日公司高管谢光元减持公司股份合计2.79万股

今日快讯：大理药业：6月29日公司高管杨君祥减持公司股份合计95.76万股

世界聚焦：关键节点再发力经济回升向好态势明显——6月全国各地经济社会发展扫描

【金融街发布】财政部、国家税务总局：对烷基化油（异辛烷）按照汽油征收消费税-世界速讯

安徽建工摇号中标合肥瑶海YH202307号地块

热门标签

汇宇制药：公司产...

天天滚动:[路演]信...

华域汽车：公司20...

科华控股：目前公...

郁亮回应市场形势...

世界看热讯：北京...

环球短讯！高银金...

今日讯！金地商置...

每日观察!杭州六批...

【世界热闻】【高...

助力把握基金投资...

新华指数|市场供需...

热热热！全球多地...

注意！盛航股份：...

汉马科技：公司业...

杭齿前进：公司现...

全球速读：万泰生...

环球微资讯！神马...

今日精选：惠州发...

播报：重庆博安驹...

必看

紫光重组：清华控股对紫光重整发表声明称赵伟国发布不实信息

河南又一4A级旅游景区揭牌！仰韶仙门山正式开园迎宾！

陶醉山水间，仰韶仙门山。4月20日上午10：00，仰韶酒庄·仙门...

浏览排行

24小时

一周

湖北黄冈：遗爱湖畅想曲

东坡问稼景区再现苏轼躬耕黄州城东的一面坡地（东坡）的场景，景...

在影帝哥哥黄渤的调教下张艺兴奉献了"一出好戏"

《一出好戏》的邋遢外形让人几乎认不出张艺兴来。张艺兴（左一）...

影版《爱情公寓》成"欺诈片" 凭口碑赚钱才是出路

陈赫娄艺潇等人继续出演，但电影版早已不是熟悉的味道。袁弘承担...

《爱情公寓》变"盗墓公寓" 观众批"挂羊头卖狗肉"

三部新片同天上映，《一出好戏》昨日票房反超《爱情公寓》三部新...

《延禧攻略》服化道的"秘密" 透过热播剧感受非遗之美

富察皇后的绒花发饰非常亮眼清宫织绣类扇子以缂丝最为精美《延禧...

电影《风语咒》：瑕瑜互见值得鼓励

看片·热映鉴定对象：《风语咒》上映日期：2018年8月3日自《大圣...

国内

国际

产经

金融

文化