
|
郑方 研究员
具身智能技术交叉创新群体语音和语言技术团队 通信地址:北京市海淀区清华大学FIT楼3-411 联系电话:010-62796393 Email:fzheng@tsinghua.edu.cn |
教育背景
1994年09月-1997年05月 清华大学 计算机科学与技术专业 博士
1990年09月-1992年06月 清华大学 计算机科学与技术专业 硕士
1985年09月-1990年06月 清华大学 计算机科学与技术专业 学士
工作履历
2019年11月-至今 清华大学信息国家研究中心 智能科学研究部常务副主任(2019年12-2022年12)、语音和语言技术群体负责人(2019年11-至今)
2004年12月-2019年10月 清华大学信研院语音和语言技术中心 中心主任
2002年04月-至今 北京得意音通技术有限责任公司 创始人、董事长
2001年09月-2002年03月 Weniwen Technologies Limited(香港) 研发副总裁
1997年07月-2004年11月 清华大学计算机系 党委副书记/信息技术研究院副院长
1994年09月-1997年06月 清华大学计算机系 讲师
学术兼职
2024年03月至今 中国电子信息行业联合会金融科技专委会 主任委员
2016年01月-2019年12月 亚太区信号与信息处理联合会(APSIPA)副主席
2014年01月至今 SpringerBriefs in Signal Processing Series Editor
2013年01月-2014年12月 亚太区信号与信息处理联合会(APSIPA)副主席
2012年07月至今 中国中文信息学会语音专委会 主任委员
2011年10月至今 APSIPA Trans. SIP 副编辑
2007年07月至今 全国安防标位会人体生物特征识别应用分技术委员会 副主任委员
2005年10月至今 Speech Communication 编委
社会兼职
北京得意音通技术有限责任公司 董事长
研究领域
语音识别、自然语言处理、声纹识别
研究概况
语音识别方面:
(1)提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。
(2)提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。
(3)提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。
(4)提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。
语言理解方面:
(1)提出了口语对话系统框架方法,包括鲁棒的语义分析器、基于主题数森林结构的对话管理器、文本生成器等可配置模块,使口语对话系统的定制化实现变得可行和高效。
声纹识别方面:
(1)提出了基于Cohort的说话人模型合成算法,以解决跨信道问题。
(2)构建了一个用于研究声纹时变特性的数据库,即人和音都相同仅时间不同(时间跨度为5年以上,间隔为1周),在此基础上,研究并提出了根据说话人区分度与时间区分度之比去确定不同频段的频率分辨率的特征提取方法,解决了声纹的时变问题。
(3)提出双谱分析(信号域)、基于F-ratio的特征选择(特征域),以及多模型融合(模型域)方法,综合地解决了声纹识别的录音重放攻击的检测问题。
(4)提出基于音素类的超短语音声纹识别方法,可在保证声纹识别性能不变的情况下用户发音长度由20秒缩短至1~2秒,提供了用户体验。
可信身份认证方面:
(1)提出基于生物特征的可信身份认证必须至少满足三个技术要求的理念,即精准生物特征识别、防假体攻击能力,以及用户真实意图检测能力。
(2)利用语音信号的特点,提出并实现基于声纹的身份认证中防假体攻击的方法,包括:声纹识别的同时对系统随机产生的密码文本进行语音识别、用户对密码文本的读音可自己定义,以及检测语音是否经过了录音重放。
(3)提出并实现综合利用语音识别、情感识别和语义理解进行真实意图检测的方法。
奖励与荣誉
(1)北京市爱国立功标兵(1997年)
(2)全国霍英东教育基金会优秀青年教师奖(1999年)
(3)北京市高等教育教学成果一等奖(2000年)
(4)北京市科技进步二等奖(2001年,排名第一)
(5)中国产学研合作创新奖(2009年,排名第一)
(6)ASV Spoof 2019防录音攻击挑战任务中获冠军(2019年)
(7)中国AI金雁奖(2020年)
(8)中国电子学会技术发明一等奖(2021年,排名第一)
(9)中国产学研合作创新与促进奖二等奖(2022年,排名第一)
(10)首都金融创新激励项目特等奖(2022年,排名第一)
(11)北京市科学技术奖二等奖(2023年,排名第一)
学术成果
(1)负责或作为骨干人员参与研发过30余项国家重点项目和国际合作项目,获得国家教育部(委)、科技部(委)、北京市各类奖励10余次。
(2)在国内外知名刊物和学术会议上发表了310余篇学术论文,其中有13篇(第一作者3篇)获优秀论文奖;出版专著14本。代表性论文如下:
[1] Tongxu Li, Hui Zhang, Thomas Fang Zheng, “The Voiceprint Recognition Technology and Its Applications in Unsupervised Identity Authentication,” 8(9): 46-54, 2018, Chinese Association for Artificial Intelligence Transactions (in Chinese)
[2] Lantian Li, Dong Wang, Chenhao Zhang, and Thomas Fang Zheng, "Improving short utterance speaker recognition by modeling speech unit classes," IEEE/ACM Trans. on Audio, Speech, and Language Processing, pp. 1129-1139, vol. 24, no. 6, June 2016
[3] Linlin Wang, Jun Wang, Lantian Li, Thomas Fang Zheng, Frank K. Soong, “Improving speaker verification performance against long-term speaker variability,” Speech Communication, 79 (2016), 14-29, Mar. 2016
[4] Miao Fan, Qiang Zhou, Thomas Fang Zheng, Ralph Grishman. “Distributed Representation Learning for Knowledge Bases with Entity Descriptions,” Pattern Recognition Letters, DOI: 10.1016/j.patrec.2016.09.005, Elsevier.
[5] Miao Fan, Qiang Zhou, Andrew Abel, Thomas Fang Zheng, Ralph Grishman, “Probabilistic Belief Embedding for Large-Scale Knowledge Population,” Cognitive Computation, December 2016, Volume 8, Issue 6, pp. 1087-1102
[6] Meng Sun, Xiongwei Zhang, Hugo Van hamme, and Thomas Fang Zheng, "Unseen noise estimation using separable deep auto encoder for speech enhancement," IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 93-104, Vol. 24, No. 1, Jan. 2016 (DOI 10.1109/TASLP.2015.2498101)
[7] Guoyu Tang, Yunqing Xia, Erik Cambria, Peng Jin, Thomas Fang Zheng, “Document representation with statistical word senses in cross-lingual document clustering,” Vol. 29, No. 2 (2015), International Journal of Pattern Recognition and Artificial Intelligence, World Scientific Publishing Company
[8] Shi Yin, Chao Liu, Zhiyong Zhang, Yiye Lin, Dong Wang, Javier Tejedor, Thomas Fang Zheng and Yingguo Li, “Noisy Training for Deep Neural Networks in Speech Recognition,” EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015:2
[9] Dong Wang, Ravichander Vipperla, Nicholas Evans, Thomas Fang Zheng, “Online Non-Negative Convolutive Pattern Learning for Speech Signals,” IEEE Trans. on Signal Processing, 61(1): 44-56, Jan. 1, 2013
[10] Mijit Ablimit, Sardar Parhat, Askar Hamdulla, Thomas Fang Zheng, “Multilingual Stemming and Term Extraction for Uyghur, Kazak and Kirghiz,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 587-590, Hawaii, USA
[11] Thomas Fang Zheng, “Speech Signal for Unsupervised Identity Authentication,” APSIPA 10th Anniversary Magazine, pp. 26-28, Nov. 2018, Hawaii, USA
[12] Lantian Li, Zhiyuan Tang, Dong Wang, Thomas Fang Zheng, “Full-Info Training for Deep Speaker Feature Learning,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5369-5373, Apr. 15-20, 2018, Calgary, Alberta, Canada
[13] Lantian Li, Dong Wang, Yixiang Chen, Ying Shi, Zhiyuan Tang, Thomas Fang Zheng, “Deep Factorization for Speech Signal,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5094-5098, Apr. 15-20, 2018, Calgary, Alberta, Canada
[14] Xingliang Cheng, Xiaotong Zhang, Mingxing Xu, and Thomas Fang Zheng, “MMANN: Multimodal Multilevel Attention Neural Network for Horror Clip Detection,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 329-334, Hawaii, USA
[15] Xiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng, “Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task,” pp.3678-3682, Interspeech 2018, 2-6 Sepember 2018, Hyderabad, India, DOI: 10.21437/Interspeech.2018-1744
[16] Replay Detection using CQT-based Modified Group Delay Feature and ResNeWt Network in ASVspoof 2019
[17] XIAOLONG WU, CHANG FENG, MINGXING XU, THOMAS FANG ZHENG, ASKAR HAMDULLA,“DialoguePCN: Perception and Cognition Network for Emotion Recognition in Conversations”,IEEE Access, VOLUME 11, pp. 141251-141260, 2023, DOI 10.1109/ACCESS.2023.3342456
著作:《Robustness-Related Issues in Speaker Recognition》
(3)拥有16项发明专利(包括一项国际发明专利)和1项实用新型专利。近年所获代表性专利如下:
[1] 基于分布式神经网络的语言模型训练方法及其系统、2014100679169、2014.02.27、中国
[2] 语音密码的认证方法及系统、2017100532098、2017.01.22、中国
[3] 基于动态密码语音的身份确认系统及方法、ZL 201310123555.0、2013.10.12、中国
[4] 一种基于动态数字验证码的语音门禁系统、ZL 201620119381.X、2016、中国
[5] 声纹模型自动重建的方法和装置、ZL 201510061721.8、2015.10.06、中国
[6] 指纹与声纹双认证方法、ZL 201510047966.5、2015.10.04、中国
[7] 一种用于语音重放检测的特征提取方法及装置、ZL201810191512.9、中国
(4)《基于动态密码语音的无监督身份认证系统》通过中国电子学会科技成果鉴定,鉴定结论是“整体处于国际领先水平”。
人才培养
自1998年开始指导学生,到目前为止培养了硕士、博士生共71人。
团队主要成员
徐明星、王东、赵黎、周强(兼)、邬晓钧(兼)、张超(兼)