Few-shot SED相关论文
Few-shot SED相关论文技术报告注重少样本,低延迟在实验里体现
少样本找few shot SED的论文改一改
国内外研究现状
Method
实验
少样本低延时声音事件检测系统Few shot sound event detection(ICASSP 2020)现代的基于深度学习的声音事件识别和检测方法,主要需要大量的训练数据或者在特定的下游任务上微调模型。
因此,对于检测未收录的或者比较稀有的声音类别限制很大(因为样本很少)。在(11)中,提出了使用少量数据用于训练声音分类器的不同策略,然而,这项工作主要侧重于处理训练过程中有限的数据,然而我们的目标是训练在推理遇到的很少样本的时可以泛化到unsean classes的模型。
传统的few-shot learning 方法考虑了一个 C-way k-shot 分类任务作为一个闭合集分类问题,这种方法使用C个唯一类标签分别作为音频查询(query)的标签,对于每个类别,给定 K 个标记的样本,其中C是固定的(有点像什么K means聚类)然而,few-shot learning尚未应用于开放集问题,例如声音事件检测,需要从一系列位 ...
PoDA: Prompt-driven Zero-shot Domain Adaptation
PoDA: Prompt-driven Zero-shot Domain AdaptationIntroduction仅使用文本prompt做图像语义分割的域自适应,这里是使用了CLIP连接图像和文本之间的特征。
Domain adaptation
Domain adaptation参考:https://zhuanlan.zhihu.com/p/463835164
问题描述直观来看,就是在训练集和测试集数据分布差距较远,然后需要这个域自适应方法,将模型从源域迁移到目标域。
域自适应的理论理论出发点域自适应理论最核心的想法就是如何将目标域上的泛化误差和源域上的泛化误差联系在一起。那么通过降低源域上的误差,就能间接地降低目标域上的误差。首先,定义函数 ℎ 和 ℎ′ 在数据分布 $D$ 上的**差异(Disparity)
然后,只需要使用泛化误差的定义以及_三角不等式_,我们就可以将目标域误差与源域误差联系起来。
不等式右边的三个部分,分别为源域误差 ,最优联合误差,差异分歧最优联合误差是指函数空间 H 中最优的函数在源域和目标域上的泛化误差,通常认为深度网络的函数空间足够大,最优联合误差可以忽略不计。差异分歧刻画了不同数据域之间的距离,而大部分域自适应理论的出发点就是估计并缩小不同数据域之间的差异分歧,无法直接计算
不同的域自适应理论的区别就在于他们是差异分歧不同的上界。
经典理论 $\mathcal H \Delta \mathca ...
Diffusion-TTA
Diffusion-TTAIntroduction作者指出,对于分类模型,模型通常会忽略对于下游任务无关的细节,学习了捷径来更好的适应 $p(y|x)$ ,然而对于生成模型,生成的能力让其对数据有更丰富和更细致的理解,从而增强了其判别潜力。
Generative models for discriminative tasks分成三个类别基于反转的方法给定一个测试输入 $x$ 和一个条件的生成模型 $p_{\phi}(x|c)$ ,这些方法通过找到最大化 $p_{\phi}(x|c)$ 估计似然的条件表示 $c$ 做出测试输入的预测什么意思呢?就是这次训练拟合的Loss是生成模型的Loss,拟合目标是找条件表示 c
使用生成模型做样本增强使用生成模型作为特征抽取器
我们的工作是在第一个概念上建立的我们建议,与其反转条件表示,不如直接使用似然损失来适应预训练的判别模型
Test-time Adaptation也被称为 Unsupervised domain adaptation,是一种通过在不使用任何标记实例的情况下更新参数来提高目标域上模型准确性的技术
Test-Time Adaptat ...
StegaDDPM
StegaDDPM
In addition, it can securely conceal and accurately extract secret messages up to 9 bits per pixel.
汗流浃背了,一个像素的信息量也没有9比特吧
Introduction隐写有基于嵌入的隐写和无需嵌入的隐写
Proposed Approach
基于DDPM的隐写网络又讲了一遍DiffusionStegaDDPM分析了DDPM的逆生成过程来实现生成式图像隐写,并推导出适合于隐写的两个属性。详情如下
消噪扩散概率模型定义了扩散步骤的马尔可夫链。
Z的分量服从高斯分布,其维数与生成的图像的维数相等。算法:和传统DDPM模型生成图像的不同:初始采样噪声(即 $t=T$ 时)使用约定的 $Seed_1$ 生成,中间的去噪过程使用 $Seed_2$ 作为Diffusion去噪条件(类比条件诱导生成中的条件特征向量?),在最后一步使用一个残差 $R_1$ 作为嵌入信息,得到隐写图片 $X_0^S$
信息隐藏和提取隐藏过程秘密信息 $m$ ,长 $L$, 使用 $K$ 先加密得到 ...
AudioLDM2
AudioLDM2作者:Haohe Liu, Qiao Tian, Yi Yuan, Xubo Liu, Xinhao Mei, Qiuqiang Kong, Yuping Wang, Wenwu Wang, Yuxuan Wang, Mark D. Plumbley
Introduction做Audio generation的大一统工作(有空可以看看这里提到的几篇)
Recent advancements in addressing problems from a unified perspective have yielded substantial progress [16]– [19]. This trend highlights the potential of constructing a unified audio generation framework.
引入了 language of audio(LOA),作为音频片段的特征表示,这个片段需要能够表示细粒度和粗粒度的音频信息,考虑到这些需求,我们建议使用 audio masked autoencoder(Audi ...
读论文过程中碰到的深度学习网络
读论文过程中碰到的深度学习相关知识Res NetTransformerillustrated-transformerBERT
小组会记录
小组会记录看关于attention和transformer的内容,熟悉整体架构Transformerillustrated-transformerBERT
注意到transformer训练的参数是得到KQV的矩阵
12-15看看bert和Transformer之间的关系
看域自适应,和Test time adaptation对比adaptation真实环境SED做SED从实验室到真实环境迁移diffusion用text做conditionPODA思想加上面的方法用TTA的框架
CLAP
CLAP : LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION作者:Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang机构:微软发表情况:未发表
Introduction注意到在这之前,也有人用类似的方法训练,Wav2clip和Audioclip从CLIP中提取,并且使用AS中的音频和类别标签训练而不是自然语言(应该就是这里的区别)CLAP使用和CLIP一样的方法,两个Encoder,通过对比学习将音频和文本描述投射到一个联合的多模态空间
方法
和图中描述的一样首先需要选定一个大小为 $N$ 的 batch,就是图中做矩阵乘法的两个向量组的大小。图里省略了两个线性投影层audio是以梅尔谱图的形式作为输入的
\hat X_a = f_a(X_a);\;\hat X_t = f_t(X_t)其中 $\hat X_a \in \mathbb R ^{N\times V},\hat X_t \in \mathbb R ^{N\times U}$ ...
AudioLDM
AudioLDM作者:Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumley机构:CVSSP, University of Surrey, Guildford, UK;Department of EEE, Imperial College London, London, UK发表情况: ICML 2023
学习过程参考的相关文章Diffusion Model
Introduction贡献:
第一次将连续的隐扩散模型(LDM)应用于TTA生成,且取得了SOTA效果
使用了CLAP嵌入使TTA生成的训练不用依赖音频文本对
实验证明了在LDM训练中只使用音频数据可以得到高质量和高计算效率的TTA系统
展示了提出的TTA系统能够在未经过微调的情况下进行文本引导的音频风格操作,比如音频风格迁移,高分辨率生成,音频修复。
Text-Conditional Audio GenerationContrastive Language-Audio Pretrain ...