一种结合帧级特征预测的多任务学习声纹确认方法-长江信息通信

一种结合帧级特征预测的多任务学习声纹确认方法

doi:

综述

一种结合帧级特征预测的多任务学习声纹确认方法

李晋

收稿日期：: 2023-07-24

作者简介：: 李晋（1987-），男，安徽蒙城人，博士研究生，科大讯飞股份有限公司，工程师，主要研究方向：声纹识别、深度学习等。

摘要

摘要：: 目前主流的声纹确认算法通常采用有监督、区分性的训练方式得到神经网络模型，如卷积神经网络（ConvolutionalNeural Network，CNN）、长短时记忆网络（Long-Short-Term Memory Network，LSTM）等，再利用该神经网络模型提取语音中包含个性化信息的声纹模型向量，从而进行相同人或不同人的声纹相似性比对。文章提出一种结合帧级特征预测的多任务学习训练方式，额外增加对帧级特征进行预测的神经网络模型分支，通过联合训练达到提高声纹确认算法性能的目的。在基准 VoxCeleb 三个测试集合上开展的实验结果表明，本文提出的方法可以有效提升声纹确认算法性能。

关键词：: 声纹确认；多任务学习；帧级特征预测；

中图分类号：: TN912.34

文献标识码：: A

文章编号：: 2096-9759（2023）06-0001-04

引用本文

使用本文

摘要回顶部