Jing Peng

English | 中文

研究兴趣

我的研究核心是构建鲁棒且实用的语音理解系统，涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。

🧠 用于语音理解的大语言模型

📊 综述与评测

构建可复现的实验框架和评测基准，衡量语音理解系统的能力边界与失效模式。

代表工作： SURE ISA-Bench Survey

🔗 语音-文本对齐

通过可控模拟和仅文本自适应等技术，将语音表示与语言模型推理能力对齐。

代表工作： TASU TASU2

🤖 智能体系统

为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。

代表工作： Audio-Mind VISA XFlow

🌍 多语种与多说话人

在统一框架下处理多说话人、多语种等复杂真实场景。

代表工作： G-STAR MOSA

🎙️ 自动语音识别（传统方向延续）

在语音大模型研究之外，我也持续关注和推进传统 ASR 方向的研究。

🎙️ 流式与非流式 ASR

统一的架构设计，例如连接流式与非流式识别的 TC-BiMamba。

代表工作： TC-BiMamba

✍️ ASR 纠错与可控性

基于大语言模型的错误纠正与可控上下文语音识别。

代表工作： Fewer Hallucinations Joint Decoding

📏 可靠性评估

超越词错误率的 ASR 可靠性指标，如 RAS。

代表工作： RAS

研究经历

🎙️ 用于语音理解的语音大模型

AISpeech，苏州，江苏
我从事 ASR 和多模态对齐方法的研究，将语音表示与语言模型推理和指令跟随连接起来。

🗣️ 基于语音大模型的 SA-ASR

深圳大数据研究院，远程
我探索基于语音大模型的说话人归属转录框架，旨在改善多说话人场景中的说话人一致性和可控性。

👥 Omni/SLM 上的说话人区分

小红书 Hi Lab，上海
我研究多说话人理解中的显式说话人区分和隐式说话人选择策略，关注真实世界条件下的鲁棒说话人身份建模。

发表论文 (精选)

表示同等贡献。查看完整列表 →

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

Jing Peng*, C. Wang*, Y. Yang, L. Qian, J. Li, Y. Xi, S. Wang, K. Yu

arXiv:2604.08384 · Accepted by Interspeech 2026

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

Y. Wang*, Jing Peng*, H. Li, C. Wang, W. Tu, Y. Xi, Z. Sun, K. Yu, S. Wang

arXiv:2605.28480 · Submitted to EMNLP 2026

XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows

H. Li*, Jing Peng*, Z. Wang, L. Chen, K. Yu

arXiv:2606.14790

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Jing Peng*, Z. Chen*, H. Li*, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang

arXiv:2603.10468 · Submitted to EMNLP 2026

TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR

Jing Peng*, Q. She*, Y. Fang, Y. Xi, K. Yu

arXiv:2602.11546 · Submitted to EMNLP 2026

A Unified and Reproducible Experimentation Framework for Speech Understanding

Jing Peng*, J. Du*, C. Wang*, H. Li*, Y. Yang*, et al.

arXiv:2605.30899 · Accepted by Interspeech 2026

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

W. Huang, Y. Qiu, B. Li, Y. Guo, Jing Peng, H. Wang, X. Chen, K. Yu

arXiv:2604.24278 · Accepted by Interspeech 2026

A Survey on Speech Large Language Models for Understanding

Jing Peng*, Y. Wang*, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu

arXiv:2410.18908 · Accepted by IEEE JSTSP

TASU: Text-Only Alignment for Speech Understanding

Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu

arXiv:2511.03310 · Accepted by ICASSP 2026

Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning

Y. Fang*, Jing Peng*, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu

arXiv:2506.05671 · Accepted by ASRU 2025

MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR

Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu

arXiv:2508.18998 · Accepted by ICASSP 2026

联系方式

我非常乐意就上述话题进行交流和合作，您可以通过以下方式联系我：

邮箱: jing.peng@sjtu.edu.cn
GitHub: https://github.com/PigeonDan1
Google Scholar: https://scholar.google.com/citations?user=Uo0mj0AAAAAJ&hl=en
Semantic Scholar: https://www.semanticscholar.org/author/Jing-Peng/2327961941
LinkedIn: https://www.linkedin.com/in/jing-peng-7ab8682a4/

最新动态 🎉

研究兴趣

研究经历

发表论文 (精选)

联系方式