消息中心
无消息通知

从“无人问津”到“最热风口”,智能语音的考验才刚刚开始 | 数据科学50人•俞凯

数据科学50人

· 俞凯

颜安琪  2018-12-21

从“冷板凳”到“最热风口”,俞凯博士(思必驰联合创始人、首席科学家)一直相信人机交互,将带给人类一个更美好的未来。并且,他还有一个更远大的目标,借助科技,沟通万事、打理万物,从而改变世界。

数据科学是从0到1的过程

2014年,奥斯卡最佳原创剧本奖颁给了一部人工智能影片——《Her》,影片讲述的是孤独的作家Theodore,与语音助理Samantha的爱情故事。

(图片说明:电影 《Her》 中,渴望亲密关系的男主角,爱上了善解人意的语音助理;来源:豆瓣电影)

影片中的Samantha不仅拥有语音识别技术,能将声音转化成文字;还拥有语义理解技术,精准处理、解读文字含义;最后还能语音合成,将信息转化成声音,准确输出。

联想起不久前小米发布会上,雷军与小爱同学的“智障对话”,Samantha 恐怕是所有语音从业者的“梦中情人”了吧。

(图片说明:雷军与智能音箱对话)

“确实,能听、会说、能纠错,才是真智能语音。”在思必驰的会议室里,俞凯调整了一个舒服的坐姿,和我们阐述起他的语音交互观点。“以前语音识别只追求‘听清’,语义理解也只追求一句话层面的‘听懂’,现在更追求的是通过大数据深度学习后,能够‘听话’、且具有进化和适应能力的‘语音机器人’。”

(图片说明:俞凯在思必驰上海办公室接受DT数据侠的专访)

俞凯留着时下最考验颜值的“板寸”,语速略快地说着这些。对答中,他的思路缜密,学识广博,对于繁复问题会自觉拆解,逐一回答。对于语音识别中存在的错误率和发展瓶颈等尖锐问题,也能层层分解。

先告诉你语音交互系统发展的历史——1952年,贝尔实验室开发了第一个能够识别阿拉伯数字的系统Audrey,能够识别10个英文数字,拥有98%的正确率。1950年代末,伦敦学院的Denes又将语法概率加入语音识别中;1962年发明了第一台可以用语音进行简单数学计算的机器Shoebox……

随后点明语音交互系统的进步基础——一方面是技术,包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面是庞大的计算资源和训练数据。

总之,在语音识别中,训练数据的多样化和丰富性是系统性提升的最关键因素之一,但是语料的标注和分析需要长期的积累、总结,这就需要大数据的辅助。

“数据积累是从0到1的过程。现在得益于互联网,我们能获得大量日常信息,包含各种材料和环境,但数据是没有尽头的。”

“那么您如何界定数据科学?”我们好奇。

“数据科学本身就没有特别明确的定义,但是从研究领域来讲,只要和研究数据相关,都可以叫做数据科学。这点来说,我们都是数据科学的相关研究从业者。”语毕,俞凯爽朗一笑。

想要改变世界的科学思维工程师

俞凯的数据科学和语音故事要从2002年的剑桥说起,一切也就像思必驰的渊源一样:“思于剑桥,驰于中国”。

(图片说明:俞凯博士在英国;来源:清华校友总会)

2002年进入剑桥大学攻读博士时,美国国防部和剑桥恰好合作展开了当时全球规模最大的“大词汇连续语音识别项目”;并且,该项目还为博士生提供奖学金资助。

尽管俞凯将进入语音识别领域的机缘,归结于“时代的机遇”,是集合所有最优条件后的选择,但他对科研的进取心和改变世界的使命感,却并非一蹴而就。

在来到剑桥之前,俞凯在清华大学攻读工程自动化的本科和硕士。1997年,在互联网还未得到应用的年岁里,他就曾为了“考察国情民生”,从北京骑行1500公里到达西安,甚至在骑行之前写下遗书。

“这是一个很有意思的过程,你需要像推导公式一样全面判断会有哪些危险,分别该怎样应对等等,虽然很苦,但很锻炼人。”这样的经历让俞凯意识到,完成任何一件事,不仅要有正确的方法,还需要意志和理想的支撑。这也才有了后来他从语音识别到对话系统研究方向的转变。

(图片说明:俞凯博士(右三)在清华;来源:清华校友总会)

2002年至2007年,俞凯所在的剑桥语音识别项目组,多次在国际研究机构组织的对话系统挑战赛等国际评测和竞赛中获得冠军。尽管成绩斐然,俞凯更关注的却是那20%仍未解决的错误率。

“我从来都不是一个单纯的科学研究者,我更想要通过科学的技术、能力,去改变世界。或者,你可以把我当作是一个有科学思维的工程师。”他如是解读自己对错误率的“零容忍”,以及个人的科学愿景。

因此,从2007年开始到往后5年,俞凯将自己在剑桥的研究领域从语音识别扩展到更大的对话系统,并在2007年和剑桥校友高始兴一起创立了智能语音公司AI SPEECH,中文名“思必驰”借用了德国诗人海涅名言:“思想走在行动之前,就像闪电走在雷鸣之前一样”,这也是俞凯学术、创业之路的写照。

尽管2007年,全球语音发展尚处低谷期,许多同学甚至纷纷转行投身金融业,俞凯仍然坚信,语音交互将是未来科技发展的核心方向。“做不可预测事情的人,永远都是少数,因此需要强大的内在驱动力。尽管投入的时候,并没有完全预计到往后的困难。但总有些热血,想要改变世界。”俞凯如是解读这段“年少轻狂”。

2008年思必驰回国发展,落户苏州。很多人不理解俞凯为什么会放弃国外的优渥条件,他却不愿把“创业”和“当时国内相对滞后的发展条件”相提并论。“二者没有太大关系,因为你才是需要把这件事做起来的人,如果别人已经成功了,就不需要你了对吧?”他笑着反问。

或许,科研和创业对于俞凯而言,不是简单意义上的知识获取,更像是一条可以通过自己的努力,逐步改变世界的自由征途。

即便过程中,在公司发展最困难的时候,他和合伙人高始兴都抵押过房产;创业之后,时间不再为个人所支配,“我和太太的蜜月是在南极度的,现在基本没时间休假”,甚至连乒乓球的运动爱好都改成了一个人游泳;即便他也一再强调,“现在不是总结回忆的时候”……

但俞凯很明确,每个阶段都有必须要做的事,由此带来部分牺牲必将随着事业的发展,逐步达到新的平衡,“这总是一个循环上升的过程,就像‘从产业化到公司化’,是最大的挑战,但同时,成功克服他们也是最大的收获。”

或许,所谓创业之难,不在于它是一座垂直的陡峰,或是波峰波谷大起大落的惊险,而更像是一条莫比乌斯带——将一根纸条扭转180°后,两头粘接起来做成的纸带圈,如果不在开始旋转时认清起点和终点,就会在不断地循环里迷失自我。

(图片说明:莫比乌斯带;来源:视觉中国)

2011年苹果公司发布了Siri——一款智能语音助手,并助力了iPhone等产品的成功。人机交互的边界突然得到了拓展,那些原本在科幻电影和实验室中的信息互动场景走进生活,掀起智能语音发展的第一波高潮。

随后,微软Cortana、谷歌Assistant、亚马逊Alexa等智能语音助手纷纷面世,并顺势诞生了微软Invoke、Google Home、亚马逊Echo、苹果HomePod等智能硬件。

在国内,阿里、腾讯、百度、科大讯飞等互联网企业的AI实验室都将语音交互作为重要布局,通过开放平台战略寻求软硬件及内容合作,营造智能语音行业生态。

2013年至2018年,人类经历了从PC互联网、移动互联网到智能设备互联的发展,交互方式也经历着从文本搜索、语音/文本对话、自然口语对话的变迁。

移动终端的普及应用,也为语音识别中的语言模型和声学模型的训练提供了丰富的数据资源,使得构建通用大规模语言模型和声学模型成为可能。

如今当智能时代的浪潮汹涌而来,俞凯当年的判断也得到了印证,语音交互正在成为数以百亿级智能物联网设备最核心、最丰富的入口之一。

(图片说明:Canalys预计2018年全球智能音箱销量将达1亿台;来源Canalys)

如果说,算法是人工智能的武器,那么,作为人工智能核心底层硬件的AI芯片则是“机器学习”的灵魂。

2018年,“AI芯片热潮”来势汹汹。前有中兴加大核心芯片研发投入,后有阿里官宣收购中天微布局AI芯片行业,并成立“平头哥”芯片公司……专业AI语音企业紧随其后,开始“热”启动,纷纷推出AI语音专用芯片。

(图片说明:AI芯片发展历程;来源AMiner《2018人工智能芯片研究报告》)

思必驰也是其中的参与者,并即将召开“打通AI产品服务‘最后一公里’的发布会”。对于当下的“芯片热”,俞凯有着自己独到的见解,他先是认真定义芯片的价值,“它应该是企业整体规划中锦上添花的助力,和其他产品配合,实现整体生态布局的完整闭环。”

对于市场的盲从和由此带来的投资泡沫,他呼吁“理性”,“目前业内最大的泡沫应该是大家的期望和现在AI技术所能实现的能力范围不相符。许多企业估值很高,但实质性的创新、落地不够。中国科技企业在国际上的‘人才军备战’也是一个道理。”

如今思必驰已经完成了5 亿元的D轮融资、公司规扩至500余人,计划近两年上市,但俞凯对于公司的定位仍然是创业型企业,若以爬山为参照,还处在刚刚出发的爬坡阶段,“应该说,我们的山顶比较‘高’,目标比较远。”

他对企业有着最直接又最简单的坚持,“希望思必驰能成为人工智能时代,人机交互的入口界面,就像现在百度的搜索入口。我们希望能够赋能万物、打理万事,让人和机器的沟通更自然、更人性。”

未来,属于人机共融

从图灵的论文《计算机器与智能》和图灵测试,到最初级的神经元模拟单元——感知机,再到现在多达上百层的深度神经网络,人类对人工智能的探索从未停止。不仅安防、医疗、出行、教育、制造业等传统行业正因为人工智能的嵌入而焕发出更多维度的商业机会,文娱影视作品也利用人工智能对未来嵌入了更多想象。

斯皮尔伯格在2002年的科幻电影《少数派报告》中就“预见”:未来警察不仅和机器共存,还可以预测犯罪细节,并提前制止犯罪。

其中一个场景就是,由汤姆·克鲁斯扮演的未来警察用虹膜识别设备扫描了“预谋犯罪”的男子的眼睛,并以“即将谋杀罪”逮捕他。

“我的一贯观点,也是人机共融、共存、共进化。”在提及人工智能未来的发展趋势,俞凯如是阐述,“比较理想的状态是,人类和机器各自拥有一个世界,但两个世界能通过智能技术,相互沟通、彼此帮助。”

一如美国卡耐基梅隆大学终身教授Martial Hebert所言:“人和机器人应该是互动的,不仅是人在操控机器人,机器人也会提供一些指令帮助人更好地调整工作,这是一个双向的协同,不再是传统的单向协同。”

至于如今层出不穷的“取代论”,俞凯更赞同的是:在一定时间内,机器会拥有和人类感知智能相匹配的能力,继而是复杂的认知能力,最后能够自我进化,“这是一个渐进的过程,估计再过20年左右,机器可能具备自我进化的能力。”

在俞凯看来,未来人们讨论的不是机器如何取代人类,而是“什么是机器,什么是人”:“在共存形态中,确实要考虑人、机的各自占比,以及二者智能的相互协调,但二者总是不断有对立的融合。”或许,当机器在科学的帮助下成为地球的和谐公民甚至星球公民,这才是最值得想象的未来。

在“人机共融”的愿景下,一切的讨论也必须要回归到“安全”的本质——机器人能否提供的安全服务,以及数据安全如何保障。

结合Google Home的数据安全泄露事件,和思必驰正在展开的《中国人工智能产业知识产权和数据白皮书》工作,俞凯认为,“首先要完善数据监管,同时做好数据安全问题的界定;其次法律、法规的完善和鼓励创新之间也需要达成平衡,否则规定死了,创新就难以实现。”

联系11月份,美国商务部工业安全署出台的《针对关键技术和相关产品的出口管制框架》或将限制AI、脑机接口等14类新技术出口。俞凯认为这对中国来说或许是个机会,“往好的地方看,这是鼓励我们自主创新、实现产权结合,而不是简单地套用外国人的开源代码。”就像人们常说的,“面包总是会有的”,他相信,“知识和技术总会有的。”

(图片说明:美国商务部工业安全署)

如今,俞凯依旧会在每天早上九点前到达办公室或研究院,晚上十点左右结束一天的工作。2019年,他希望可以像在剑桥合作项目的导师、剑桥大学皇家工程院院士Steve Young教授一样,更好地平衡工作和生活。

“Steve是最早开始做语音识别基础技术研究、语音识别开源软件的人,并把它们产业化出售给微软、谷歌、苹果,非常受人尊敬。更难得是他非常有活力,不仅能平衡好各项职务,当时60岁了,还在和我们一起编程、查我的代码。”俞凯追忆起学生时代。

“如果以10分制为生活和工作打分,你会给几分?”

“7分吧,都还要进步。”语毕,俞凯的脸上又露出了标志性的微笑,有总结,有憧憬。

数据侠门派

俞凯,思必驰联合创始人/首席科学家,上海交通大学苏州人工智能研究院执行院长,剑桥大学语音博士,上海交大教授,剑桥大学工程系博士,IEEE高级会员,NSFC优秀青年科学基金获得者,上海市“东方学者”特聘教授,国家自然科学基金委优秀青年科学基金获得者,中国语音产业联盟技术工作组副组长。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

相关推荐