关于我

English | 中文

个人简介

我是 彭景 (Jing Peng)上海交通大学 (SJTU) X-LANCE Lab 的一年级致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授),并与 王帅教授 紧密合作。

我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移多说话人场景具有鲁棒性的良好对齐的语音理解系统

基本信息

🎂
出生日期

2003年10月6日

📍
籍贯

中国湖南省衡阳市

🌐
语言

普通话、英语

✉️
💻
GitHub

PigeonDan1

📚
Google Scholar

个人主页

🔬
Semantic Scholar

个人主页

🔗
LinkedIn

个人主页

教育背景

2025年9月 – 至今
上海交通大学 (SJTU)

致远荣誉博士项目,X-LANCE Lab,计算机科学与工程系

博士生

2021年9月 – 2025年6月
西安交通大学 (XJTU)

自动化专业学士,辅修电气工程

钱学森荣誉班

2023年8月 – 2023年12月
加州大学伯克利分校 (UC Berkeley)

交换生,Berkeley Global Access (BGA),工程学院

研究兴趣

我的研究核心是构建鲁棒且实用的语音理解系统,涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。

🧠 用于语音理解的大语言模型
📊 综述与评测

构建可复现的实验框架和评测基准,衡量语音理解系统的能力边界与失效模式。

代表工作: SURE ISA-Bench Survey
🔗 语音-文本对齐

通过可控模拟和仅文本自适应等技术,将语音表示与语言模型推理能力对齐。

代表工作: TASU TASU2
🤖 智能体系统

为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。

代表工作: Audio-Mind VISA XFlow
🌍 多语种与多说话人

在统一框架下处理多说话人、多语种等复杂真实场景。

代表工作: G-STAR MOSA
🎙️ 自动语音识别(传统方向延续)

在语音大模型研究之外,我也持续关注和推进传统 ASR 方向的研究。

🎙️ 流式与非流式 ASR

统一的架构设计,例如连接流式与非流式识别的 TC-BiMamba。

代表工作: TC-BiMamba
✍️ ASR 纠错与可控性

基于大语言模型的错误纠正与可控上下文语音识别。

代表工作: Fewer Hallucinations Joint Decoding
📏 可靠性评估

超越词错误率的 ASR 可靠性指标,如 RAS。

代表工作: RAS

研究经历

🎙️ 用于语音理解的语音大模型

AISpeech,苏州,江苏
我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。

🗣️ 基于语音大模型的 SA-ASR

深圳大数据研究院,远程
我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性可控性

👥 Omni/SLM 上的说话人区分

小红书 Hi Lab,上海
我研究多说话人理解中的显式说话人区分隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。

发表论文 (精选)

Audio-Mind: An Auditable Agentic Framework for Audio Understanding
Y. Wang*, Jing Peng*, H. Li, C. Wang, W. Tu, Y. Xi, Z. Sun, K. Yu, S. Wang
arXiv:2605.28480 · Submitted to EMNLP 2026
VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track
W. Tu, J. Gao, Y. Huo, Y. Wang, Jing Peng, B. Li, Z. Ma, T. Liu, S. Fan, K. Yu, X. Chen, Z. Zheng
arXiv:2606.07264v1 · Accepted by Interspeech 2026
XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows
H. Li*, Jing Peng*, Z. Wang, L. Chen, K. Yu
arXiv:2606.14790
TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR
Jing Peng*, Q. She*, Y. Fang, Y. Xi, K. Yu
arXiv:2602.11546 · Submitted to EMNLP 2026
TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs
Jing Peng*, C. Wang*, Y. Yang, L. Qian, J. Li, Y. Xi, S. Wang, K. Yu
arXiv:2604.08384 · Accepted by Interspeech 2026
A Unified and Reproducible Experimentation Framework for Speech Understanding
Jing Peng*, J. Du*, C. Wang*, H. Li*, Y. Yang*, et al.
arXiv:2605.30899 · Accepted by Interspeech 2026
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
W. Huang, Y. Qiu, B. Li, Y. Guo, Jing Peng, H. Wang, X. Chen, K. Yu
arXiv:2604.24278 · Accepted by Interspeech 2026
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
Jing Peng*, Z. Chen*, H. Li*, Y. Wang, D. Ma, M. Li, Y. Du, D. Xu, K. Yu, S. Wang
arXiv:2603.10468 · Submitted to EMNLP 2026
A Survey on Speech Large Language Models for Understanding
Jing Peng*, Y. Wang*, Y. Fang, Y. Xi, X. Li, X. Zhang, K. Yu
arXiv:2410.18908 · Accepted by IEEE JSTSP
TASU: Text-Only Alignment for Speech Understanding
Jing Peng, Y. Yang, X. Li, Y. Xi, Q. Tang, Y. Fang, J. Li, K. Yu
arXiv:2511.03310 · Accepted by ICASSP 2026
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
Y. Fang*, Jing Peng*, X. Li, Y. Xi, C. Zhang, G. Zhong, K. Yu
arXiv:2506.05671 · Accepted by ASRU 2025
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
Junjie Li, Jing Peng, Yangui Fang, Shuai Wang, Kai Yu
arXiv:2508.18998 · Accepted by ICASSP 2026
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction
Y. Fang, B. Cheng, Jing Peng, X. Li, Y. Xi, C. Zhang, G. Zhong
arXiv:2505.24347 · Accepted by ASRU 2025
ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
B. Li, W. Huang, Y. Qiu, Y. Guo, H. Wang, Z. Li, Jing Peng, Z. Ma, X. Chen, K. Yu
arXiv:2510.23558 · Accepted by ICASSP 2026

简历

📄 查看或下载我的简历

个人信息

我来自中国湖南省衡阳市,一座美丽的城市。在科研之余,我喜欢探索美食旅行,我也是羽毛球篮球等运动的爱好者。

如果您对我的研究方向感兴趣,欢迎联系我——我很乐意讨论潜在的合作机会。