摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 单通道语音增强技术研究现状
- 1.2.1 传统单通道语音增强算法
- 1.2.2 基于深度学习的单通道语音增强算法
1.3 扩散模型在语音生成与增强中的应用与挑战
- 1.3.1 扩散模型在语音增强中的发展
- 1.3.2 面临的主要挑战(推理速度、复杂声学环境映射等)
1.4 本文的主要研究内容与章节安排
- 1.4.1 主要研究内容
- 1.4.2 论文结构安排
第二章 语音增强理论与扩散概率模型基础
2.1 室内声学原理与语音退化物理模型
- 2.1.1 噪声干扰与环境混响的数学建模
- 2.1.2 降噪与去混响解耦及联合处理的理论差异
2.2 深度学习语音增强范式的演进
- 2.2.1 判别式网络(如掩蔽与映射)在语音增强中的局限
- 2.2.2 早期生成式模型(GAN、VAE)在语音处理中的应用
2.3 扩散概率模型的理论体系
- 2.3.1 离散去噪扩散概率模型(DDPM)的马尔可夫链框架
- 2.3.2 连续时间视角:随机微分方程(SDE)与常微分方程(ODE)
- 2.3.3 离散DDPM在复杂分布拟合中的技术劣势与SDE架构的优势对比
2.4 语音质量与可懂度客观评价体系
- 2.4.1 常用客观评价指标(PESQ, STOI, SI-SDR 等)
2.5 本章小结
第三章 基于速度场引导的插值扩散语音增强算法
3.1 引言
3.2 插值扩散框架(Interpolant Framework)理论基础
- 3.2.1 概率流与状态插值的数学表示
- 3.2.2 传统分数匹配(Score-matching)在语音任务中的局限性
3.3 速度场引导的插值扩散模型构建
- 3.3.1 面向语音增强的动态插值变量设计
- 3.3.2 基于速度场(Velocity-field)的直接拟合目标函数
3.4 结合 SDE 与 ODE 的灵活采样策略
- 3.4.1 前向概率流常微分方程求解
- 3.4.2 随机采样扩散与自适应校正器
3.5 基础降噪任务的实验验证与评估
- 3.5.1 实验数据集与参数设置
- 3.5.2 增强性能对比分析(对比现有基线模型)
- 3.5.3 推理速度与计算效率评估
3.6 本章小结
第四章 基于方差保持与自适应采样的扩散语音去噪去混响算法
4.1 引言
4.2 面向复杂声学场景的方差保持机制
- 4.2.1 方差保持(Variance-Preserving)在速度场中的重构
- 4.2.2 联合去噪与去混响的扩散轨迹设计
4.3 改进的采样网络与校正器(Corrector)机制
- 4.3.1 采样过程中的误差累积问题分析
- 4.3.2 自适应步长与校正反馈网络
4.4 复杂声学环境下的综合性能剖析
- 4.4.1 复杂混响与噪声混合数据集构建
- 4.4.2 联合去噪去混响性能评估(VoiceBank-DEMAND与WSJ0-CHIME3)
- 4.4.3 消融实验(不同采样策略对去混响效果的影响)
4.5 本章小结
第五章 基于小波变换与频域注意力的多尺度扩散增强算法
5.1 引言
5.2 面向高频恢复与参数压缩的小波神经网络架构
- 5.2.1 传统网络在语音高频细节建模中的瓶颈
- 5.2.2 离散小波变换(DWT)特征提取与重构模块
5.3 融合频域注意力机制(Frequency-aware Attention)
- 5.3.1 频域注意力模块的设计与实现
- 5.3.2 多尺度特征与速度场引导目标的联合优化
5.4 极低信噪比与高频场景的模型对比实验
- 5.4.1 极低信噪比与高频丰富场景的对比验证
- 5.4.2 模型计算复杂度(FLOPs与参数量)分析
5.5 本章小结
第六章 总结与展望
6.1 论文工作总结
6.2 未来工作展望
参考文献
致谢
攻读硕士学位期间发表的学术论文及参与科研情况