English | 中文
最新动态 🎉
🌟 故事开始于 2024/5/20 — 我给俞凯教授写的第一封自荐信
🥳 2026年5月
四篇论文被 Interspeech 2026 接收!
- TASU2
- SURE
- RAS
- VISA (Agent Track)
📖 2025年11月
Survey 发表于 IEEE JSTSP
- A Survey on Speech Large Language Models for Understanding
🎊 2025年10月
三篇论文被 ICASSP 2026 接收!
- TASU — Oral
- MOSA — Poster
- ISA-Bench — Oral
🔥 2025年8月
两篇论文被 ASRU 2025 接收!
- Low-Resource Domain Adaptation
- Fewer Hallucinations, More Verification
我是 上海交通大学 (SJTU) X-LANCE Lab 的致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授),并与 王帅教授 紧密合作。
我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移和多说话人场景具有鲁棒性的良好对齐的语音理解系统。
研究兴趣
我的研究核心是构建鲁棒且实用的语音理解系统,涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。
🧠 用于语音理解的大语言模型
📊 综述与评测
构建可复现的实验框架和评测基准,衡量语音理解系统的能力边界与失效模式。
代表工作:
SURE
ISA-Bench
Survey
🔗 语音-文本对齐
通过可控模拟和仅文本自适应等技术,将语音表示与语言模型推理能力对齐。
代表工作:
TASU
TASU2
🤖 智能体系统
为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。
代表工作:
Audio-Mind
VISA
XFlow
🌍 多语种与多说话人
在统一框架下处理多说话人、多语种等复杂真实场景。
代表工作:
G-STAR
MOSA
🎙️ 自动语音识别(传统方向延续)
在语音大模型研究之外,我也持续关注和推进传统 ASR 方向的研究。
🎙️ 流式与非流式 ASR
统一的架构设计,例如连接流式与非流式识别的 TC-BiMamba。
代表工作:
TC-BiMamba
✍️ ASR 纠错与可控性
基于大语言模型的错误纠正与可控上下文语音识别。
代表工作:
Fewer Hallucinations
Joint Decoding
📏 可靠性评估
超越词错误率的 ASR 可靠性指标,如 RAS。
代表工作:
RAS
研究经历
🎙️ 用于语音理解的语音大模型
AISpeech,苏州,江苏
我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。
🗣️ 基于语音大模型的 SA-ASR
深圳大数据研究院,远程
我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性和可控性。
👥 Omni/SLM 上的说话人区分
小红书 Hi Lab,上海
我研究多说话人理解中的显式说话人区分和隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。
发表论文 (精选)
- 表示同等贡献。查看完整列表 →
TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs
arXiv:2604.08384 · Accepted by Interspeech 2026
Audio-Mind: An Auditable Agentic Framework for Audio Understanding
arXiv:2605.28480 · Submitted to EMNLP 2026
XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows
arXiv:2606.14790
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
arXiv:2603.10468 · Submitted to EMNLP 2026
TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR
arXiv:2602.11546 · Submitted to EMNLP 2026
A Unified and Reproducible Experimentation Framework for Speech Understanding
arXiv:2605.30899 · Accepted by Interspeech 2026
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
arXiv:2604.24278 · Accepted by Interspeech 2026
A Survey on Speech Large Language Models for Understanding
arXiv:2410.18908 · Accepted by IEEE JSTSP
TASU: Text-Only Alignment for Speech Understanding
arXiv:2511.03310 · Accepted by ICASSP 2026
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
arXiv:2506.05671 · Accepted by ASRU 2025
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
arXiv:2508.18998 · Accepted by ICASSP 2026
联系方式
我非常乐意就上述话题进行交流和合作,您可以通过以下方式联系我:
- 邮箱: jing.peng@sjtu.edu.cn
- GitHub: https://github.com/PigeonDan1
- Google Scholar: https://scholar.google.com/citations?user=Uo0mj0AAAAAJ&hl=en
- Semantic Scholar: https://www.semanticscholar.org/author/Jing-Peng/2327961941
- LinkedIn: https://www.linkedin.com/in/jing-peng-7ab8682a4/