刘树杰
微软亚洲研究院(MSRA)香港首席研究员
刘树杰博士, 微软亚洲研究院(MSRA)香港首席研究员。刘树杰于 2012 年 7 月在完成哈尔滨工业大学计算机科学与技术学院博士学位后加入 MSRA 北京,并于 2024 年 10 月调任 MSRA 香港。 他的研究方向包括口语语言处理、多模态大语言模型以及医疗人工智能,致力于利用人工智能技术提升人类生活质量。他的论文曾荣获 IEEE 2025 SPS 最佳论文奖。在自然语言处理和语音处理各顶级期刊和会议上发表论文100余篇,并合著《机器翻译》一书,参与编写《人工智能导论》一书。获得国际自然语言和语音处理评测比赛多项第一。担任多个国际会议审稿人及领域主席。他的研究成果已经成功应用于多项微软产品中,包括 Microsoft Translator、Skype Translator、Microsoft IME、小冰,以及 Microsoft Speech Service 等。
演讲主题
预训练方法在语音处理领域的探索和应用
随着预训练模型在自然语言处理和图像处理中的进展,语音预训练模型也越来越受到重视。基于预训练模型的语音处理方法在多个任务上也取得了突破性的进展。在本报告中,我们将分别介绍三种不同的预训练模型,基于编码器的预训练模型,基于编码器-解码器框架的预训练模型和完全基于解码器的预训练模型。前两种预训练模型主要应用于语音识别和语音理解相关的任务,而完全基于解码器的语言模型则主要应用于高质量的语音生成任务。在此基础上进一步探讨预训练方法在语音处理领域未来的研究方向。