论文大纲记录 – wassing's home

论文大纲记录

wassing

|

学术

|

2026-2-28 16:16

|

15

|

0

摘要
Abstract

第一章绪论

1.1 研究背景与意义

1.2 单通道语音增强技术研究现状

1.2.1 传统单通道语音增强算法
1.2.2 基于深度学习的单通道语音增强算法

1.3 扩散模型在语音生成与增强中的应用与挑战

1.3.1 扩散模型在语音增强中的发展
1.3.2 面临的主要挑战（推理速度、复杂声学环境映射等）

1.4 本文的主要研究内容与章节安排

1.4.1 主要研究内容
1.4.2 论文结构安排

第二章相关工作与理论基础

2.1 语音增强问题的数学模型与评价指标

2.1.1 降噪与去混响问题建模
2.1.2 常用客观评价指标（PESQ, STOI, SI-SDR 等）

2.2 经典扩散概率模型基础

2.2.1 去噪扩散概率模型（DDPM）
2.2.2 随机微分方程（SDE）与常微分方程（ODE）视角

2.3 插值扩散框架（Interpolant Framework）理论

2.3.1 概率流与状态插值
2.3.2 传统分数匹配（Score-matching）的局限性

2.4 本章小结

第三章基于速度场引导的插值扩散语音增强算法

3.1 引言

3.2 速度场引导的插值扩散模型构建

3.2.1 面向语音增强的动态插值变量设计
3.2.2 基于速度场（Velocity-field）的直接拟合目标函数

3.3 结合 SDE 与 ODE 的灵活采样策略

3.3.1 前向概率流常微分方程求解
3.3.2 随机采样扩散与自适应校正器

3.4 实验结果与分析

3.4.1 实验数据集与参数设置
3.4.2 增强性能对比分析（对比现有基线模型）
3.4.3 推理速度与计算效率评估

3.5 本章小结

第四章基于方差保持与自适应采样的扩散语音去噪去混响算法

4.1 引言

4.2 面向复杂声学场景的方差保持机制

4.2.1 方差保持（Variance-Preserving）在速度场中的重构
4.2.2 联合去噪与去混响的扩散轨迹设计

4.3 改进的采样网络与校正器（Corrector）机制

4.3.1 采样过程中的误差累积问题分析
4.3.2 自适应步长与校正反馈网络

4.4 实验结果与分析

4.4.1 复杂混响与噪声混合数据集构建
4.4.2 综合声学环境下的性能评估（VoiceBank-DEMAND与WSJ0-CHIME3）
4.4.3 消融实验（不同采样策略对去混响效果的影响）

4.5 本章小结

第五章基于小波变换与频域注意力的多尺度扩散增强算法

5.1 引言

5.2 面向高频恢复与参数压缩的小波神经网络架构

5.2.1 传统网络在语音高频细节建模中的瓶颈
5.2.2 离散小波变换（DWT）特征提取与重构模块

5.3 融合频域注意力机制（Frequency-aware Attention）

5.3.1 频域注意力模块的设计与实现
5.3.2 多尺度特征与速度场引导目标的联合优化

5.4 实验结果与分析

5.4.1 极低信噪比与高频丰富场景的对比验证
5.4.2 模型计算复杂度（FLOPs与参数量）分析

5.5 本章小结

第六章总结与展望

6.1 论文工作总结

6.2 未来工作展望

参考文献
致谢
攻读硕士学位期间发表的学术论文及参与科研情况