关于我
English | 中文
个人简介
我是 彭景 (Jing Peng),上海交通大学 (SJTU) X-LANCE Lab 的一年级致远荣誉博士生,导师是 俞凯教授(联合导师是 Shinji Watanabe 教授),并与 王帅教授 紧密合作。
我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移和多说话人场景具有鲁棒性的良好对齐的语音理解系统。
我的研究专注于语音大语言模型 (Speech LLMs),重点是构建对领域迁移和多说话人场景具有鲁棒性的良好对齐的语音理解系统。
基本信息
出生日期
2003年10月6日
籍贯
中国湖南省衡阳市
语言
普通话、英语
GitHub
Google Scholar
Semantic Scholar
LinkedIn
教育背景
2025年9月 – 至今
上海交通大学 (SJTU)
致远荣誉博士项目,X-LANCE Lab,计算机科学与工程系
博士生
2021年9月 – 2025年6月
西安交通大学 (XJTU)
自动化专业学士,辅修电气工程
钱学森荣誉班
2023年8月 – 2023年12月
加州大学伯克利分校 (UC Berkeley)
交换生,Berkeley Global Access (BGA),工程学院
研究兴趣
我的研究核心是构建鲁棒且实用的语音理解系统,涵盖从基础 ASR 到现代语音大语言模型 (Speech LLMs) 的多个层面。
🧠 用于语音理解的大语言模型
📊 综述与评测
构建可复现的实验框架和评测基准,衡量语音理解系统的能力边界与失效模式。
代表工作:
SURE
ISA-Bench
Survey
🔗 语音-文本对齐
通过可控模拟和仅文本自适应等技术,将语音表示与语言模型推理能力对齐。
代表工作:
TASU
TASU2
🤖 智能体系统
为语音和音频系统赋予智能体推理、多模态证据融合以及可靠的多智能体协作能力。
代表工作:
Audio-Mind
VISA
XFlow
🌍 多语种与多说话人
在统一框架下处理多说话人、多语种等复杂真实场景。
代表工作:
G-STAR
MOSA
🎙️ 自动语音识别(传统方向延续)
在语音大模型研究之外,我也持续关注和推进传统 ASR 方向的研究。
🎙️ 流式与非流式 ASR
统一的架构设计,例如连接流式与非流式识别的 TC-BiMamba。
代表工作:
TC-BiMamba
✍️ ASR 纠错与可控性
基于大语言模型的错误纠正与可控上下文语音识别。
代表工作:
Fewer Hallucinations
Joint Decoding
📏 可靠性评估
超越词错误率的 ASR 可靠性指标,如 RAS。
代表工作:
RAS
研究经历
🎙️ 用于语音理解的语音大模型
AISpeech,苏州,江苏
我从事 ASR 和多模态对齐方法的研究,将语音表示与语言模型推理和指令跟随连接起来。
🗣️ 基于语音大模型的 SA-ASR
深圳大数据研究院,远程
我探索基于语音大模型的说话人归属转录框架,旨在改善多说话人场景中的说话人一致性和可控性。
👥 Omni/SLM 上的说话人区分
小红书 Hi Lab,上海
我研究多说话人理解中的显式说话人区分和隐式说话人选择策略,关注真实世界条件下的鲁棒说话人身份建模。
发表论文 (精选)
- 表示同等贡献。查看完整列表 →
Audio-Mind: An Auditable Agentic Framework for Audio Understanding
arXiv:2605.28480 · Submitted to EMNLP 2026
VISA: A Visual Information Strengthened Audio-Reasoning System for the Interspeech 2026 ARC Agent Track
arXiv:2606.07264v1 · Accepted by Interspeech 2026
XFlow: An Executable Protocol Programming System for Reliable Multi-Agent Workflows
arXiv:2606.14790
TC-BiMamba: Trans-Chunk bidirectionally within BiMamba for unified streaming and non-streaming ASR
arXiv:2602.11546 · Submitted to EMNLP 2026
TASU2: Controllable CTC Simulation for Alignment and Low-Resource Adaptation of Speech LLMs
arXiv:2604.08384 · Accepted by Interspeech 2026
A Unified and Reproducible Experimentation Framework for Speech Understanding
arXiv:2605.30899 · Accepted by Interspeech 2026
RAS: a Reliability Oriented Metric for Automatic Speech Recognition
arXiv:2604.24278 · Accepted by Interspeech 2026
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
arXiv:2603.10468 · Submitted to EMNLP 2026
A Survey on Speech Large Language Models for Understanding
arXiv:2410.18908 · Accepted by IEEE JSTSP
TASU: Text-Only Alignment for Speech Understanding
arXiv:2511.03310 · Accepted by ICASSP 2026
Low-Resource Domain Adaptation for Speech LLMs via Text-Only Fine-Tuning
arXiv:2506.05671 · Accepted by ASRU 2025
MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR
arXiv:2508.18998 · Accepted by ICASSP 2026
Fewer Hallucinations, More Verification: A Three-Stage LLM-Based Framework for ASR Error Correction
arXiv:2505.24347 · Accepted by ASRU 2025
ISA-Bench: Benchmarking Instruction Sensitivity for Large Audio Language Models
arXiv:2510.23558 · Accepted by ICASSP 2026
简历
个人信息
我来自中国湖南省衡阳市,一座美丽的城市。在科研之余,我喜欢探索美食和旅行,我也是羽毛球和篮球等运动的爱好者。
如果您对我的研究方向感兴趣,欢迎联系我——我很乐意讨论潜在的合作机会。
如果您对我的研究方向感兴趣,欢迎联系我——我很乐意讨论潜在的合作机会。