undefined

郑方 研究员

智能科学研究部 语音和语言技术团队

通信地址:北京市海淀区清华大学FIT楼3-411

联系电话:010-62796393

Email:fzheng@tsinghua.edu.cn

教育背景

1985.09-1990.06 清华大学 本科

1990.09-1992.06 清华大学 硕士

1994.09-1997.05 清华大学 博士

工作履历

1994.12-1997.06 清华大学计算机系讲师

1997.07-2004.11 清华大学计算机系党委副书记/信息技术研究院副院长

2001.09-2002.03 Weniwen Technologies Limited(香港)研发副总裁

2002.04-2003.08 北京得意音通技术有限责任公司董事长

2004.12-2019.10.31 清华大学信研院语音与语言中心主任

2019.11.01至今 北京信息科学与技术国家研究中心智能科学研究部常务副主任(2019.12-)

学术兼职

2005.10至今 Speech Communication 编委

2007.07至今 全国安防标位会人体生物特征识别应用分技术委员会 副主任委员

2011.10至今 APSIPA Trans.SIP 副编辑

2012.07至今 中国中文信息学会语音专委会 主任委员

2013.01-2014.12 亚太区信号与信息处理联合会(APSIPA) 副主席

2014.01至今 SpringerBriefs in Signal Processing Series Editor

2016.01至今 亚太区信号与信息处理联合会(APSIPA) 副主席

社会兼职

北京得意音通技术有限责任公司 董事长

研究领域

语音识别,自然语言处理,声纹识别

研究概况

语音识别方面:

1.提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。

2.提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。

3.提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。

4.提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。

语言理解方面:

5.提出了口语对话系统框架方法,包括鲁棒的语义分析器、基于主题数森林结构的对话管理器、文本生成器等可配置模块,使口语对话系统的定制化实现变得可行和高效。

声纹识别方面:

6.提出了基于Cohort的说话人模型合成算法,以解决跨信道问题。

7.构建了一个用于研究声纹时变特性的数据库,即人和音都相同仅时间不同(时间跨度为5年以上,间隔为1周),在此基础上,研究并提出了根据说话人区分度与时间区分度之比去确定不同频段的频率分辨率的特征提取方法,解决了声纹的时变问题。

8.提出双谱分析(信号域)、基于F-ratio的特征选择(特征域),以及多模型融合(模型域)方法,综合地解决了声纹识别的录音重放攻击的检测问题。

9.提出基于音素类的超短语音声纹识别方法,可在保证声纹识别性能不变的情况下用户发音长度由20秒缩短至1~2秒,提供了用户体验。

可信身份认证方面:

10.提出基于生物特征的可信身份认证必须至少满足三个技术要求的理念,即精准生物特征识别、防假体攻击能力,以及用户真实意图检测能力。

11.利用语音信号的特点,提出并实现基于声纹的身份认证中防假体攻击的方法,包括:声纹识别的同时对系统随机产生的密码文本进行语音识别、用户对密码文本的读音可自己定义,以及检测语音是否经过了录音重放。

12.提出并实现综合利用语音识别、情感识别和语义理解进行真实意图检测的方法。

奖励与荣誉

1.1997年北京市爱国立功标兵

2.1999年全国霍英东教育基金会优秀青年教师奖

3.2000年北京市高等教育教学成果一等奖

4.2001年北京市科技进步二等奖

5.2007年国家公安部科学技术奖三等奖

6.2009年中国产学研合作创新奖

学术成果

1.负责或作为骨干人员参与研发过30余项国家重点项目和国际合作项目,获得国家教育部(委)、科技部(委)、北京市各类奖励10余次。

2.在国内外知名刊物和学术会议上发表了280余篇学术论文,其中有11篇(第一作者3篇)获优秀论文奖;出版专著11本。代表性论文如下:

(1)Tongxu Li, Hui Zhang, Thomas Fang Zheng, “The Voiceprint Recognition Technology and Its Applications in Unsupervised Identity Authentication,” 8(9): 46-54, 2018, Chinese Association for Artificial Intelligence Transactions (in Chinese)

(2)Lantian Li, Dong Wang, Chenhao Zhang, and Thomas Fang Zheng, "Improving short utterance speaker recognition by modeling speech unit classes," IEEE/ACM Trans. on Audio, Speech, and Language Processing, pp. 1129-1139, vol. 24, no. 6, June 2016

(3)Linlin Wang, Jun Wang, Lantian Li, Thomas Fang Zheng, Frank K. Soong, “Improving speaker verification performance against long-term speaker variability,” Speech Communication, 79 (2016), 14-29, Mar. 2016

(4)Miao Fan, Qiang Zhou, Thomas Fang Zheng, Ralph Grishman. “Distributed Representation Learning for Knowledge Bases with Entity Descriptions,” Pattern Recognition Letters, DOI: 10.1016/j.patrec.2016.09.005, Elsevier.

(5)Miao Fan, Qiang Zhou, Andrew Abel, Thomas Fang Zheng, Ralph Grishman, “Probabilistic Belief Embedding for Large-Scale Knowledge Population,” Cognitive Computation, December 2016, Volume 8, Issue 6, pp. 1087-1102

(6)Meng Sun, Xiongwei Zhang, Hugo Van hamme, and Thomas Fang Zheng, "Unseen noise estimation using separable deep auto encoder for speech enhancement," IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 93-104, Vol. 24, No. 1, Jan. 2016 (DOI 10.1109/TASLP.2015.2498101)

(7)Guoyu Tang, Yunqing Xia, Erik Cambria, Peng Jin, Thomas Fang Zheng, “Document representation with statistical word senses in cross-lingual document clustering,” Vol. 29, No. 2 (2015), International Journal of Pattern Recognition and Artificial Intelligence, World Scientific Publishing Company

(8)Shi Yin, Chao Liu, Zhiyong Zhang, Yiye Lin, Dong Wang, Javier Tejedor, Thomas Fang Zheng and Yingguo Li, “Noisy Training for Deep Neural Networks in Speech Recognition,” EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015:2

(9)Dong Wang, Ravichander Vipperla, Nicholas Evans, Thomas Fang Zheng, “Online Non-Negative Convolutive Pattern Learning for Speech Signals,” IEEE Trans. on Signal Processing, 61(1): 44-56, Jan. 1, 2013

(10)Mijit Ablimit, Sardar Parhat, Askar Hamdulla, Thomas Fang Zheng, “Multilingual Stemming and Term Extraction for Uyghur, Kazak and Kirghiz,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 587-590, Hawaii, USA

(11)Thomas Fang Zheng, “Speech Signal for Unsupervised Identity Authentication,” APSIPA 10th Anniversary Magazine, pp. 26-28, Nov. 2018, Hawaii, USA

(12)Lantian Li, Zhiyuan Tang, Dong Wang, Thomas Fang Zheng, “Full-Info Training for Deep Speaker Feature Learning,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5369-5373, Apr. 15-20, 2018, Calgary, Alberta, Canada

(13)Lantian Li, Dong Wang, Yixiang Chen, Ying Shi, Zhiyuan Tang, Thomas Fang Zheng, “Deep Factorization for Speech Signal,” International Conference on Acoustics, Speech and Signal Processing (ICASSP’18), pp. 5094-5098, Apr. 15-20, 2018, Calgary, Alberta, Canada

(14)Xingliang Cheng, Xiaotong Zhang, Mingxing Xu, and Thomas Fang Zheng, “MMANN: Multimodal Multilevel Attention Neural Network for Horror Clip Detection,” the 10th APSIPA Annual Summit and Conference (APSIPA ASC 2018), November 12-15, 2018, 329-334, Hawaii, USA

(15)Xiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng, “Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task,” pp.3678-3682, Interspeech 2018, 2-6 Sepember 2018, Hyderabad, India, DOI: 10.21437/Interspeech.2018-1744

著作:《Robustness-Related Issues in Speaker Recognition》

3.拥有16项发明专利(包括一项国际发明专利)和1项实用新型专利。近年所获代表性专利如下:

(1)基于分布式神经网络的语言模型训练方法及其系统、2014100679169、2014.02.27、中国

(2)语音密码的认证方法及系统、2017100532098、2017.01.22、中国

(3)基于动态密码语音的身份确认系统及方法、ZL 201310123555.0、2013.10.12、中国

(4)一种基于动态数字验证码的语音门禁系统、ZL 201620119381.X、2016、中国

(5)声纹模型自动重建的方法和装置、ZL 201510061721.8、2015.10.06、中国

(6)指纹与声纹双认证方法、ZL 201510047966.5、2015.10.04、中国

4.《基于动态密码语音的无监督身份认证系统》通过中国电子学会科技成果鉴定,鉴定结论是“整体处于国际领先水平”。

人才培养

自1998年开始指导学生,到目前为止培养了硕士、博士生共53人。