关于我

English | 中文

个人简介

我是 彭景 (Jing Peng)，上海交通大学 (SJTU) X-LANCE Lab 的一年级致远荣誉博士生，导师是 俞凯教授（联合导师是 Shinji Watanabe 教授），并与 王帅教授 紧密合作。

我的研究专注于语音大语言模型 (Speech LLMs)，重点是构建对领域迁移和多说话人场景具有鲁棒性的良好对齐的语音理解系统。

基本信息

🎂

出生日期

2003年10月6日

📍

籍贯

中国湖南省衡阳市

🌐

语言

普通话、英语

✉️

邮箱

jing.peng@sjtu.edu.cn

💻

GitHub

📚

Google Scholar

🔬

Semantic Scholar

🔗

LinkedIn

教育背景

2025年9月 – 至今

上海交通大学 (SJTU)

致远荣誉博士项目，X-LANCE Lab，计算机科学与工程系

博士生

2021年9月 – 2025年6月

西安交通大学 (XJTU)

自动化专业学士，辅修电气工程

钱学森荣誉班

2023年8月 – 2023年12月

加州大学伯克利分校 (UC Berkeley)

交换生，Berkeley Global Access (BGA)，工程学院

研究兴趣

我的研究核心是构建鲁棒且实用的语音理解系统，涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。

🧠 用于语音理解的大语言模型

📊 综述与评测

构建可复现的实验框架和评测基准，衡量语音理解系统的能力边界与失效模式。

代表工作： SURE ISA-Bench Survey

🔗 语音-文本对齐

通过可控模拟和仅文本自适应等技术，将语音表示与语言模型推理能力对齐。

代表工作： TASU TASU2

🤖 智能体系统

为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。

代表工作： Audio-Mind VISA XFlow

🌍 多语种与多说话人

在统一框架下处理多说话人、多语种等复杂真实场景。

代表工作： G-STAR MOSA

🎙️ 自动语音识别（传统方向延续）

在语音大模型研究之外，我也持续关注和推进传统 ASR 方向的研究。

🎙️ 流式与非流式 ASR

统一的架构设计，例如连接流式与非流式识别的 TC-BiMamba。

代表工作： TC-BiMamba

✍️ ASR 纠错与可控性

基于大语言模型的错误纠正与可控上下文语音识别。

代表工作： Fewer Hallucinations Joint Decoding

📏 可靠性评估

超越词错误率的 ASR 可靠性指标，如 RAS。

代表工作： RAS

研究经历

🎙️ 用于语音理解的语音大模型

AISpeech，苏州，江苏
我从事 ASR 和多模态对齐方法的研究，将语音表示与语言模型推理和指令跟随连接起来。

🗣️ 基于语音大模型的 SA-ASR

深圳大数据研究院，远程
我探索基于语音大模型的说话人归属转录框架，旨在改善多说话人场景中的说话人一致性和可控性。

👥 Omni/SLM 上的说话人区分

小红书 Hi Lab，上海
我研究多说话人理解中的显式说话人区分和隐式说话人选择策略，关注真实世界条件下的鲁棒说话人身份建模。

发表论文 (精选)

表示同等贡献。查看完整列表 →

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

Y. Wang*, Jing Peng*, H. Li, C. Wang, W. Tu, Y. Xi, Z. Sun, K. Yu, S. Wang

arXiv:2605.28480 · Submitted to EMNLP 2026

VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track

W. Tu, J. Gao, Y. Huo, Y. Wang, Jing Peng, B. Li, Z. Ma, T. Liu, S. Fan, K. Yu, X. Chen, Z. Zheng

arXiv:2606.07264v1 · Accepted by Interspeech 2026

XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows

H. Li*, Jing Peng*, Z. Wang, L. Chen, K. Yu

arXiv:2606.14790

TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR

Jing Peng*, Q. She*, Y. Fang, Y. Xi, K. Yu

arXiv:2602.11546 · Submitted to EMNLP 2026

TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs

Jing Peng*, C. Wang*, Y. Yang, L. Qian, J. Li, Y. Xi, S. Wang, K. Yu

arXiv:2604.08384 · Accepted by Interspeech 2026

A Unified and Reproducible Experimentation Framework for Speech Understanding

Jing Peng*, J. Du*, C. Wang*, H. Li*, Y. Yang*, et al.

arXiv:2605.30899 · Accepted by Interspeech 2026

RAS: a Reliability Oriented Metric for Automatic Speech Recognition

W. Huang, Y. Qiu, B. Li, Y. Guo, Jing Peng, H. Wang, X. Chen, K. Yu

arXiv:2604.24278 · Accepted by Interspeech 2026

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Jing Peng*, Z. Chen*, H. Li*, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang

arXiv:2603.10468 · Submitted to EMNLP 2026

A Survey on Speech Large Language Models for Understanding

Jing Peng*, Y. Wang*, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu

arXiv:2410.18908 · Accepted by IEEE JSTSP

TASU: Text-Only Alignment for Speech Understanding

Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu

arXiv:2511.03310 · Accepted by ICASSP 2026

Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning

Y. Fang*, Jing Peng*, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu

arXiv:2506.05671 · Accepted by ASRU 2025

MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR

Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu

arXiv:2508.18998 · Accepted by ICASSP 2026

Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction

Y. Fang, B. Cheng, Jing Peng, X. Li, Y. Xi, C. Zhang, G. Zhong

arXiv:2505.24347 · Accepted by ASRU 2025

ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models

B. Li, W. Huang, Y. Qiu, Y. Guo, H. Wang, Z. Li, Jing Peng, Z. Ma, X. Chen, K. Yu

arXiv:2510.23558 · Accepted by ICASSP 2026

简历

📄 查看或下载我的简历

个人信息

我来自中国湖南省衡阳市，一座美丽的城市。在科研之余，我喜欢探索美食和旅行，我也是羽毛球和篮球等运动的爱好者。

如果您对我的研究方向感兴趣，欢迎联系我——我很乐意讨论潜在的合作机会。