English | 中文

我是 上海交通大学 (SJTU) X-LANCE Lab 的致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授)。

我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移多说话人场景具有鲁棒性的良好对齐的语音理解系统


研究兴趣

总体而言,我专注于用于语音理解和推理的语音大语言模型 (Speech LLMs)

  • 语音和文本之间的多模态对齐,用于指令跟随语音系统
  • 低资源/跨领域场景的高效自适应
  • 说话人归属 ASR (SA-ASR) 和多说话人理解

研究经历

我的近期工作跨越学术实验室和工业研究:

  • 用于语音理解的语音大模型 (AISpeech, 苏州, 江苏)
    我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。

  • 基于语音大模型的 SA-ASR (深圳大数据研究院, 远程)
    我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性可控性

  • Omni/SLM 上的说话人区分 (小红书, 上海)
    我研究多说话人理解中的显式说话人区分隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。


发表论文 (精选)

完整列表请见 发表论文

  • 表示同等贡献。
  • G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
    Jing Peng, Z. Chen, H. Li, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang.
    arXiv:2603.10468. Submitted to Interspeech 2026.
    https://arxiv.org/abs/2603.10468

  • A Survey on Speech Large Language Models for Understanding
    Jing Peng, Y. Wang, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu.
    arXiv:2410.18908. Accepted by IEEE JSTSP.
    https://arxiv.org/abs/2410.18908

  • TASU: Text-Only Alignment for Speech Understanding
    Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu.
    arXiv:2511.03310. Accepted by ICASSP 2026.
    https://arxiv.org/abs/2511.03310

  • Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
    Y. Fang, Jing Peng, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu.
    arXiv:2506.05671. Accepted by ASRU 2025.
    https://arxiv.org/abs/2506.05671

  • MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
    Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu.
    arXiv:2508.18998. Accepted by ICASSP 2026.
    https://arxiv.org/abs/2508.18998


联系方式

我非常乐意就上述话题进行交流和合作,您可以通过以下方式联系我: