摘要
Abstract
第一章 绪论
1.1 研究背景与意义
1.2 单通道语音增强技术研究现状
- 1.2.1 传统单通道语音增强算法
- 1.2.2 基于深度学习的单通道语音增强算法
1.3 扩散模型在语音生成与增强中的应用与挑战
- 1.3.1 扩散模型在语音增强中的发展
- 1.3.2 面临的主要挑战(推理速度、复杂声学环境映射等)
1.4 本文的主要研究内容与章节安排
- 1.4.1 主要研究内容
- 1.4.2 论文结构安排
第二章 相关工作与理论基础
2.1 语音增强问题的数学模型与评价指标
- 2.1.1 降噪与去混响问题建模
- 2.1.2 常用客观评价指标(PESQ, STOI, SI-SDR 等)
2.2 经典扩散概率模型基础
- 2.2.1 去噪扩散概率模型(DDPM)
- 2.2.2 随机微分方程(SDE)与常微分方程(ODE)视角
2.3 插值扩散框架(Interpolant Framework)理论
- 2.3.1 概率流与状态插值
- 2.3.2 传统分数匹配(Score-matching)的局限性
2.4 本章小结
第三章 基于速度场引导的插值扩散语音增强算法
3.1 引言
3.2 速度场引导的插值扩散模型构建
- 3.2.1 面向语音增强的动态插值变量设计
- 3.2.2 基于速度场(Velocity-field)的直接拟合目标函数
3.3 结合 SDE 与 ODE 的灵活采样策略
- 3.3.1 前向概率流常微分方程求解
- 3.3.2 随机采样扩散与自适应校正器
3.4 实验结果与分析
- 3.4.1 实验数据集与参数设置
- 3.4.2 增强性能对比分析(对比现有基线模型)
- 3.4.3 推理速度与计算效率评估
3.5 本章小结
第四章 基于方差保持与自适应采样的扩散语音去噪去混响算法
4.1 引言
4.2 面向复杂声学场景的方差保持机制
- 4.2.1 方差保持(Variance-Preserving)在速度场中的重构
- 4.2.2 联合去噪与去混响的扩散轨迹设计
4.3 改进的采样网络与校正器(Corrector)机制
- 4.3.1 采样过程中的误差累积问题分析
- 4.3.2 自适应步长与校正反馈网络
4.4 实验结果与分析
- 4.4.1 复杂混响与噪声混合数据集构建
- 4.4.2 综合声学环境下的性能评估(VoiceBank-DEMAND与WSJ0-CHIME3)
- 4.4.3 消融实验(不同采样策略对去混响效果的影响)
4.5 本章小结
第五章 基于小波变换与频域注意力的多尺度扩散增强算法
5.1 引言
5.2 面向高频恢复与参数压缩的小波神经网络架构
- 5.2.1 传统网络在语音高频细节建模中的瓶颈
- 5.2.2 离散小波变换(DWT)特征提取与重构模块
5.3 融合频域注意力机制(Frequency-aware Attention)
- 5.3.1 频域注意力模块的设计与实现
- 5.3.2 多尺度特征与速度场引导目标的联合优化
5.4 实验结果与分析
- 5.4.1 极低信噪比与高频丰富场景的对比验证
- 5.4.2 模型计算复杂度(FLOPs与参数量)分析
5.5 本章小结
第六章 总结与展望
6.1 论文工作总结
6.2 未来工作展望
参考文献
致谢
攻读硕士学位期间发表的学术论文及参与科研情况