English | 中文

最新动态 🎉

🌟 故事开始于 2024/5/20 — 我给俞凯教授写的第一封自荐信

我是 上海交通大学 (SJTU) X-LANCE Lab 的致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授),并与 王帅教授 紧密合作。

我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移多说话人场景具有鲁棒性的良好对齐的语音理解系统

研究兴趣

我的研究核心是构建鲁棒且实用的语音理解系统,涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。

🧠 用于语音理解的大语言模型
📊 综述与评测

构建可复现的实验框架和评测基准,衡量语音理解系统的能力边界与失效模式。

代表工作: SURE ISA-Bench Survey
🔗 语音-文本对齐

通过可控模拟和仅文本自适应等技术,将语音表示与语言模型推理能力对齐。

代表工作: TASU TASU2
🤖 智能体系统

为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。

代表工作: Audio-Mind VISA XFlow
🌍 多语种与多说话人

在统一框架下处理多说话人、多语种等复杂真实场景。

代表工作: G-STAR MOSA
🎙️ 自动语音识别(传统方向延续)

在语音大模型研究之外,我也持续关注和推进传统 ASR 方向的研究。

🎙️ 流式与非流式 ASR

统一的架构设计,例如连接流式与非流式识别的 TC-BiMamba。

代表工作: TC-BiMamba
✍️ ASR 纠错与可控性

基于大语言模型的错误纠正与可控上下文语音识别。

代表工作: Fewer Hallucinations Joint Decoding
📏 可靠性评估

超越词错误率的 ASR 可靠性指标,如 RAS。

代表工作: RAS

研究经历

🎙️ 用于语音理解的语音大模型

AISpeech,苏州,江苏
我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。

🗣️ 基于语音大模型的 SA-ASR

深圳大数据研究院,远程
我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性可控性

👥 Omni/SLM 上的说话人区分

小红书 Hi Lab,上海
我研究多说话人理解中的显式说话人区分隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。

发表论文 (精选)

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs
Jing Peng*, C. Wang*, Y. Yang, L. Qian, J. Li, Y. Xi, S. Wang, K. Yu
arXiv:2604.08384 · Accepted by Interspeech 2026
Audio-Mind: An Auditable Agentic Framework for Audio Understanding
Y. Wang*, Jing Peng*, H. Li, C. Wang, W. Tu, Y. Xi, Z. Sun, K. Yu, S. Wang
arXiv:2605.28480 · Submitted to EMNLP 2026
XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows
H. Li*, Jing Peng*, Z. Wang, L. Chen, K. Yu
arXiv:2606.14790
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
Jing Peng*, Z. Chen*, H. Li*, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang
arXiv:2603.10468 · Submitted to EMNLP 2026
TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR
Jing Peng*, Q. She*, Y. Fang, Y. Xi, K. Yu
arXiv:2602.11546 · Submitted to EMNLP 2026
A Unified and Reproducible Experimentation Framework for Speech Understanding
Jing Peng*, J. Du*, C. Wang*, H. Li*, Y. Yang*, et al.
arXiv:2605.30899 · Accepted by Interspeech 2026
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
W. Huang, Y. Qiu, B. Li, Y. Guo, Jing Peng, H. Wang, X. Chen, K. Yu
arXiv:2604.24278 · Accepted by Interspeech 2026
A Survey on Speech Large Language Models for Understanding
Jing Peng*, Y. Wang*, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu
arXiv:2410.18908 · Accepted by IEEE JSTSP
TASU: Text-Only Alignment for Speech Understanding
Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu
arXiv:2511.03310 · Accepted by ICASSP 2026
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
Y. Fang*, Jing Peng*, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu
arXiv:2506.05671 · Accepted by ASRU 2025
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu
arXiv:2508.18998 · Accepted by ICASSP 2026

联系方式

我非常乐意就上述话题进行交流和合作,您可以通过以下方式联系我: