个人简介

我的主要研究方向是语音信号处理,包括语音识别、多模态语音处理以及语音生成等方向。 博士期间的工作主要围绕声音转换研究,主要开展了基于序列到序列的语音转换、超声图像以及唇形到语音生成方面的研究。 在科大讯飞的博士后在站工作以及来到陕西师范大学之后,主要围绕语音识别、音视频语音识别以及语音无监督训练开展研究。

本人在语音处理及人工智能领域知名学术期刊和会议上已经发表和接受论文二十余篇,发表论文累计被引用1000余次。 本人于2018年、2020年与团队参加国际语音转换大赛Voice Conversion Challenge获得第一名成绩, 于2021年与团队参加国际语音识别大赛OpenASR并获得多项测试指标第一名。 在学术任职与服务方面,本人现担任中国计算机学会语音与对话听觉专业组委员,陕西省计算机学会教育数智化专委会委员, 曾多次参与IEEE/ACM Transactions on Audio, Speech, and Language Processing、 Neural Network、Knowledge Based Systems等期刊,ICASSP、Interspeech、AAAI等国际会议的审稿工作。

我未来希望更多地探索大语言模型(LLM)和语音感知与理解结合、多模态语音感知以及高表现力的语音生成等研究方向。 非常期待优秀的本科生和研究生同学能加入我的研究团队,我们一起探索语音感知、理解以及生成的创新性算法以及应用场景。

招生期望

欢迎对语音处理及人工智能有浓厚兴趣的学生加入我的团队。我希望你具备以下特质:

  • 具有较强的科研和学习的自驱力,善于主动学习
  • 扎实的编程基础和良好的数学基础,动手能力强
  • 对深度学习和语音处理有基本了解或强烈兴趣,愿意深入探索

作为导师,我能提供:

  • 多元的交流学习机会:本人和中国科学技术大学、科大讯飞研究院、爱丁堡大学等机构保持密切合作。 优秀的同学可以推荐实习以及交流学习的机会。发表优秀学术成果的同学有参与国内外学术会议的机会。
  • 语音领域前沿课题的指导和讨论:定期的进行学术讨论科研方向等指导,希望我们能一起充分合作,开展有价值的研究,做出有影响力的工作。 同时,我也会尽力保证团队的GPU等计算资源,使同学们能够更加高效地开展研究。

主要经历

讲师

2023.07-至今
陕西师范大学(SNNU),计算机科学学院

  • 讲授专业课:线性代数(秋季学期)、离散数学(春季学期)
  • 讲授公共课:大学计算机基础(秋季学期)、Python与人工智能(春季学期)

高级AI研究员(博士后)

2021.7-2023.07
科大讯飞研究院(iFLYTEK Research),中国科学技术大学(USTC)博士后工作站

在科大讯飞期间,本人多次承担或参与了公司内部的语音识别、多模态语音信号处理、语音交互等技术攻关与项目研发。 相关研究成果已经应用于目前科大讯飞的多项产品中,例如讯飞办公本、录音笔、智慧座舱、交互大屏等。 本人和科大讯飞有限公司、科大讯飞西安研究院保持着密切的科研合作关系,优秀的硕士同学有机会进入科大讯飞实习。

承担/参与项目

开放世界下鲁棒性的音视频语音识别研究 - 国家自然科学基金委,青年科学基金项目,30万元,在研,主持,2025.01 - 2027.12
据稀疏条件下的个性化多模态语音识别研究 - 中央高校基本科研业务费专项,青年教师自由探索项目,10万元,在研,主持,2025.01 - 2026.12
基于大规模无监督预训练的语音表征提取方法研究与应用 - 陕西省科技厅,重点产业创新链项目,90万元,结项,主持,2023.01 - 2024.12
多语种语音识别关键技术 - 中科院, 中国科学院战略性先导科技专项,3981万元,结项,参与,2020.01 - 2023.05
面向冬奥场景的多语种语音处理关键技术 - 科技部,国家重点研发计划项目课题,338万元,结项,参与,2019.10 - 2022.06
面向语音合成的神经网络声码器研究 - 国家自然科学基金委员会,面上项目,63万元,结项,参与,2019.01 - 2022.12

发表文章

  • Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation Models
  • Jing-Xuan Zhang, Genshun Wan, Jianqing Gao, Zhen-Hua Ling
    Pattern Recognition, 2025
  • Target speaker lipreading by audio–visual self-distillation pretraining and speaker adaptation
  • Jing-Xuan Zhang, Tingzhi Mao, Longjiang Guo, Jin Li, Lichen Zhang
    Expert Systems with Applications, 2025
  • Self-Supervised Audio-Visual Speech Representations Learning By Multimodal Self-Distillation
  • Jing-Xuan Zhang, Genshun Wan, Zhen-Hua Ling, Jia Pan, Jianqing Gao, Cong Liu
    IEEE ICASSP, 2023
  • Is Lip-Region-of-Interest Sufficient for Lipreading?
  • Jing-Xuan Zhang, Genshun Wan, Jia Pan
    ACM ICMI, 2023
  • Voice Conversion by Cascading Automatic Speech Recognition and Text-to-Speech Synthesis with Prosody Transfer
  • Jing-Xuan Zhang, Li-Juan Liu,Yan-Nian Chen, Ya-Jun Hu, Yuan Jiang, Zhen-Hua Ling, Li-Rong Dai
    Interspeech, 2020
  • Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations
  • Jing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai
    IEEE/ACM Trans. on Audio, Speech and Lang. Proc., 2020
  • Sequence-to-Sequence Acoustic Modeling for Voice Conversion
  • Jing-Xuan Zhang, Zhen-Hua Ling, Li-Juan Liu, Yuan Jiang, Li-Rong Dai
    IEEE/ACM Trans. on Audio, Speech, and Lang. Proc., 2019
  • Recognition-Synthesis Based Non-Parallel Voice Conversion with Adversarial Learning
  • Jing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai
    INTERSPEECH, 2020
  • Improving Sequence-to-Sequence Voice Conversion by Adding Text-Supervision
  • Jing-Xuan Zhang, Zhen-Hua Ling, Yuan Jiang, Li-Juan Liu, Liang Chen, Li-Rong Dai
    IEEE ICASSP, 2019
  • Forward Attention in Sequence-to-Sequence Acoustic Modeling for Speech Synthesis
  • Jing-Xuan Zhang, Zhen-Hua Ling, Li-Rong Dai
    IEEE ICASSP, 2019
  • DNN-Based Spectral Enhancement For Neural Waveform Generators With Low-Bit Quantization
  • Yang Ai, Jing-Xuan Zhang, Zhen-Hua Ling
    IEEE ICASSP, 2019
  • TaL: a synchronised multi-speaker corpus of ultrasound tongue imaging, audio, and lip videos
  • Manuel Sam Ribeiro, Jennifer Sanger, Jing-Xuan Zhang, Aciel Eshky, Alan Wrench, Korin Richmond, Steve Renals
    IEEE Spoken Language Technology Workshop (SLT), 2021
  • ASVspoof 2019: a large-scale public database of synthetic, converted and replayed speech
  • Xin Wang, et al., Jing-Xuan Zhang, Zhen-Hua Ling
    Computer Speech and Language, 2019
  • Adversarial post-processing of voice conversion against spoofing detection
  • Yi-Yang Ding, Jing-Xuan Zhang, Li-Juan Liu, Yuan Jiang, Yu Hu, Zhen-Hua Ling
    IEEE APSIPA, 2020
  • Grammar-supervised end-to-end speech recognition with part-of-speech tagging and dependency parsing
  • Genshun Wan, Tingzhi Mao, Jingxuan Zhang, Hang Chen, Jianqing Gao, Zhongfu Ye
    Applied Sciences, 2023