脚踏车的日志站

发表于2024-04-19|查阅用

Linux相关命令

发表于2024-04-12

用VQ-VAE做生成式隐写从码本变量中抽取若干作为代表隐写比特的特征仔细一想又行不通，因为一个码本变量会解码为音频的一帧

发表于2024-04-08

生成相关AudiogenICLR 2023Meta AI包括两个主要的阶段第一阶段将原始音频编码成离散的token序列，通过一个压缩模型进行该模型以端到端的方式进行训练，使用压缩表示重建输入音频，并以一组鉴别器的形式添加感知损失。第二阶段使用一个自回归的Transformer-decoder language-model，在文本条件的基础上重建音频序列主要贡献： sota方法提高TTA生成性能的两个方法：classifier free guidance，动态文本和音频混合来提高组合性可以做条件和非条件的音频延续探索了音频保真度和采样时间之间的关系MethodAudio representation一个时长为d的音频信号可以表示为一个序列 $x\in[-1,1]^{C_a \times T}$ ，$C_a$ 是通道数，$T=d\cdot f_{sr}$ 是采样点数，至于为什么是 $[-1,1]$ ，是因为py库读取wav文件会自动归一化Audio representation model 包含三个部分 encoder network E：将音频片段作为输入，输出一个late ...

无题

发表于2024-04-08

对于生成任务（训练资源、各种耗时也更长马别先把生成的最近几年的看下

VITS

发表于2024-04-03|论文笔记

VITS采用variational inference augmented with normalizing flows and an adversarial training process 提高了生成模型的表现力拆解一下，使用的是变分推理，增强方法为：normalizing flows 和 adversarial training process 提出了一个随机持续时间预测器(stochastic duration predictor)，可以从输入文本合成具有不同韵律的语音 Introduction现阶段的TTS都由两部分组成，一是由text到中间语音表示，比如梅尔谱图或者linguistic features二是从中间特征生成原始波形两个阶段的模型是独立开发的 Autoregression is a time series model that uses observations from previous time steps as input to a regression equation to predict the value at the next time ste ...

Conda环境迁移

发表于2024-03-25|技术问题记录

Conda环境迁移实验室服务器根目录容量快满了，把环境迁移到其他盘首先把自己的环境目录复制到其他盘，可以通过 conda env list 查看1cp -r /home/adgroup/anaconda3/envs/yyp /mnt2/anaconda3/envs然后删除自己的原环境（注意这里不要激活自己的环境）1conda env remove -n yyp然后导入新的环境路径1conda config --add envs_dirs /mnt2/anaconda3/envs/yyp 发现pip用不了，会报错：1bash: /mnt2/anaconda3/envs/yyp/bin/pip: /home/adgroup/anaconda3/envs/yyp/bin/python: bad interpreter: No such file or directorypip 文件中的 python 路径还是原来的，修改为现在的路径就行1vim /mnt2/anaconda3/envs/yyp/bin/pip然后将首行的 #!/home/adgroup/anaconda3/envs/yyp/ ...

PyTorch Lighting框架学习

发表于2024-03-25|技术问题记录

无题

发表于2024-03-05

先把工作细分数据预处理抹平分布等数据增强模型 PaSST 再说，没什么经验半监督学习方法 MixMatch MeanTeacher Data Augment日志开个写每天干的啥 3.7调通了baseline模型＋mixmatch半监督学习方法的代码模型准确率呈现先高后低的情况，不知道怎么回事 3.8样本里基本没有前景声，对于mixup方案是否会有影响？但是这个方案本来就是用在声音场景分类里的，可以试试baseline的acc最高为0.961 修改baseline的lr策略，从指数退化改成先线性增加再指数退化然后pse_training的时候acc就爆了，不知道为什么把baseline训练的max_epoch改成40，acc来到了0.970 3.10整理实验数据用更大的cnn模型替换baseline模型（？尝试用BEATs提取的特征做分类，加几层线性层做adapter考虑到BEATs在ESC50数据集上已经很强了，有没有必要再finetune？ 3.11重新整理思路半监督：mixmatch 加上数据增强方法（torchaudio现 ...

ICME2024介绍

发表于2024-02-26|声学相关

ICME2024介绍题目：在域转移下的半监督声学场景分类（ Semi-Supervised Acoustic Scene Classification Under Domain Shift） Introduction声学场景分类（ASC）：在环境中的预定义类中识别一个声学场景，比如广场，街道，餐厅在ASC的深度学习方法的发展中产生了两个关键的考虑 domain shift 标记数据的稀缺比赛建议大家从半监督学习入手数据集Chinese Acoustic Scene(CAS) 2023 dataset超过130小时，使用三个工业级的录音设备，从中国22个城市采集的10个不同的声学场景每个声音片段为10s，有位置和时间戳等元数据采集时间为2023年四月到九月训练集有24小时，来自8个城市，有20%的带标签数据测试集从12个城市中选择，有5个未见城市用于评估域转移 Baselinepipeline如下基线模型架构包括两个SE块，一个Transformer encoderSE block: 两个卷积层，通道数相同，kernel3x3两个块的通道分别为64和128每个块后面都有一个平均 ...

未命名音频生成工作汇总

发表于2024-02-02|论文笔记

音频生成工作汇总