关于我
个人简介
我是 彭景 (Jing Peng),上海交通大学 (SJTU) X-LANCE Lab 的一年级致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授)。
我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移和多说话人场景具有鲁棒性的良好对齐的语音理解系统。
基本信息
- 出生日期: 2003年10月6日
- 籍贯: 中国湖南省衡阳市
- 语言: 普通话、英语
- 邮箱: jing.peng@sjtu.edu.cn
- GitHub: https://github.com/PigeonDan1
- Google Scholar: https://scholar.google.com/citations?user=Uo0mj0AAAAAJ&hl=en
- LinkedIn: https://www.linkedin.com/in/jing-peng-7ab8682a4/
教育背景
-
上海交通大学 (SJTU),上海,中国
致远荣誉博士项目,X-LANCE Lab,计算机科学与工程系
博士生,2025年9月 – 至今 -
西安交通大学 (XJTU),西安,中国
自动化专业学士,辅修电气工程
钱学森荣誉班
2021年9月 – 2025年6月 -
加州大学伯克利分校 (UC Berkeley),伯克利,美国
交换生,Berkeley Global Access (BGA),工程学院
2023年8月 – 2023年12月
研究兴趣
总体而言,我专注于用于语音理解和推理的语音大语言模型 (Speech LLMs):
- 说话人归属 ASR (SA-ASR) 和多说话人理解
- 语音和文本之间的多模态对齐,用于指令跟随语音系统
- 低资源/跨领域场景的高效自适应(仅文本微调、轻量级适配器)
研究经历
我的近期工作跨越学术实验室和工业研究:
-
用于语音理解的语音大模型 (AISpeech, 苏州, 江苏)
我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。 -
基于语音大模型的 SA-ASR (深圳大数据研究院, 远程)
我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性和可控性。 -
Omni/SLM 上的说话人区分 (小红书, 上海)
我研究多说话人理解中的显式说话人区分和隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。
发表论文 (精选)
- 表示同等贡献。
-
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
Jing Peng, Z. Chen, H. Li, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang.
arXiv:2603.10468. Submitted to Interspeech 2026.
https://arxiv.org/abs/2603.10468 -
A Survey on Speech Large Language Models for Understanding
Jing Peng, Y. Wang, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu.
arXiv:2410.18908. Accepted by IEEE JSTSP.
https://arxiv.org/abs/2410.18908 -
TASU: Text-Only Alignment for Speech Understanding
Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu.
Accepted by ICASSP 2026. -
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
Y. Fang, Jing Peng, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu.
arXiv:2506.05671. Accepted by ASRU 2025.
https://arxiv.org/abs/2506.05671 -
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu.
arXiv:2508.18998. Accepted by ICASSP 2026.
https://arxiv.org/abs/2508.18998 -
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction
Y. Fang, B. Cheng, Jing Peng, X. Li, Y. Xi, C. Zhang, G. Zhong.
arXiv:2505.24347. Accepted by ASRU 2025.
https://arxiv.org/abs/2505.24347 -
ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
B. Li, W. Huang, Y. Qiu, Y. Guo, H. Wang, Z. Li, Jing Peng, Z. Ma, X. Chen, K. Yu.
arXiv:2510.23558. Accepted by ICASSP 2026.
https://arxiv.org/abs/2510.23558
简历
简历页面: 查看或下载我的简历
个人信息
我来自中国湖南省衡阳市,一座美丽的城市。在科研之余,我喜欢探索美食和旅行,我也是羽毛球和篮球等运动的爱好者。
如果您对我的研究方向感兴趣,欢迎联系我——我很乐意讨论潜在的合作机会。