论文大纲记录 – wassing's home

论文大纲记录

wassing

|

学术

|

2026-2-28 16:16

|

100

|

0

摘要
Abstract

第一章绪论

1.1 研究背景与意义

1.2 单通道语音增强技术研究现状

1.2.1 传统单通道语音增强算法
1.2.2 基于深度学习的单通道语音增强算法

1.3 扩散模型在语音生成与增强中的应用与挑战

1.3.1 扩散模型在语音增强中的发展
1.3.2 面临的主要挑战（推理速度、复杂声学环境映射等）

1.4 本文的主要研究内容与章节安排

1.4.1 主要研究内容
1.4.2 论文结构安排

第二章语音增强理论与扩散概率模型基础

2.1 室内声学原理与语音退化物理模型

2.1.1 噪声干扰与环境混响的数学建模
2.1.2 降噪与去混响解耦及联合处理的理论差异

2.2 深度学习语音增强范式的演进

2.2.1 判别式网络（如掩蔽与映射）在语音增强中的局限
2.2.2 早期生成式模型（GAN、VAE）在语音处理中的应用

2.3 扩散概率模型的理论体系

2.3.1 离散去噪扩散概率模型（DDPM）的马尔可夫链框架
2.3.2 连续时间视角：随机微分方程（SDE）与常微分方程（ODE）
2.3.3 离散DDPM在复杂分布拟合中的技术劣势与SDE架构的优势对比

2.4 语音质量与可懂度客观评价体系

2.4.1 常用客观评价指标（PESQ, STOI, SI-SDR 等）

2.5 本章小结

第三章基于速度场引导的插值扩散语音增强算法

3.1 引言

3.2 插值扩散框架（Interpolant Framework）理论基础

3.2.1 概率流与状态插值的数学表示
3.2.2 传统分数匹配（Score-matching）在语音任务中的局限性

3.3 速度场引导的插值扩散模型构建

3.3.1 面向语音增强的动态插值变量设计
3.3.2 基于速度场（Velocity-field）的直接拟合目标函数

3.4 结合 SDE 与 ODE 的灵活采样策略

3.4.1 前向概率流常微分方程求解
3.4.2 随机采样扩散与自适应校正器

3.5 基础降噪任务的实验验证与评估

3.5.1 实验数据集与参数设置
3.5.2 增强性能对比分析（对比现有基线模型）
3.5.3 推理速度与计算效率评估

3.6 本章小结

第四章基于方差保持与自适应采样的扩散语音去噪去混响算法

4.1 引言

4.2 面向复杂声学场景的方差保持机制

4.2.1 方差保持（Variance-Preserving）在速度场中的重构
4.2.2 联合去噪与去混响的扩散轨迹设计

4.3 改进的采样网络与校正器（Corrector）机制

4.3.1 采样过程中的误差累积问题分析
4.3.2 自适应步长与校正反馈网络

4.4 复杂声学环境下的综合性能剖析

4.4.1 复杂混响与噪声混合数据集构建
4.4.2 联合去噪去混响性能评估（VoiceBank-DEMAND与WSJ0-CHIME3）
4.4.3 消融实验（不同采样策略对去混响效果的影响）

4.5 本章小结

第五章基于小波变换与频域注意力的多尺度扩散增强算法

5.1 引言

5.2 面向高频恢复与参数压缩的小波神经网络架构

5.2.1 传统网络在语音高频细节建模中的瓶颈
5.2.2 离散小波变换（DWT）特征提取与重构模块

5.3 融合频域注意力机制（Frequency-aware Attention）

5.3.1 频域注意力模块的设计与实现
5.3.2 多尺度特征与速度场引导目标的联合优化

5.4 极低信噪比与高频场景的模型对比实验

5.4.1 极低信噪比与高频丰富场景的对比验证
5.4.2 模型计算复杂度（FLOPs与参数量）分析

5.5 本章小结

第六章总结与展望

6.1 论文工作总结

6.2 未来工作展望

参考文献
致谢
攻读硕士学位期间发表的学术论文及参与科研情况