消息中心
无消息通知

来自“AI黄埔军校”的计算机视觉创业者 | 数据科学50人•危夷晨

数据科学50人

· 危夷晨

颜安琪  01-10

人工智能技术日益成熟,而计算机视觉是这个领域的“兵家必争之地”。在有着“AI黄埔军校”之称的微软亚洲研究院,研究了12年计算机视觉的危夷晨如今是旷视科技上海研究院负责人,且听他详尽阐述如何用数据科学实现计算机视觉的应用。

用数据科学,实现计算机视觉的应用

旷视科技上海研究院的进门处就是“惊喜”。尽管整栋楼宇仍在施工、装修,但走到研究院门口,他们的人脸通行系统即会自动识别出员工并开门,整个动作简洁流畅。

(图片说明:旷视科技上海研究院门口的人脸识别系统)

2015年德国汉诺威CeBit展的开幕式上,马云向德国总理默克尔与中国副总理马凯演示Smile to Pay的刷脸支付技术,并在淘宝上成功购买一枚1948年价值20欧元的旧汉诺威展邮票赠送嘉宾。刷脸支付在一夜之间引起热议,其背后的人脸识别技术正是基于旷视科技提供的技术服务。

(图片说明:马云通过人脸识别支付,将购买的邮票赠送嘉宾。图片来源:视觉中国)

“计算机视觉尤其是人脸识别,已经影响到人们生活的方方面面,比如刷脸进门、刷脸过闸口、刷脸支付等等,这是现在利用海量大数据和机器学习,能够做好的一件事。”刚一坐下,危夷晨就很自然地和我们介绍起入口处的“刷脸门禁”。

他的语速不快,音调不高,对于提问,总是先惯性思考十几秒,再不疾不徐地回答。一时间,很难将他与那个在“AI黄埔军校”——微软亚洲研究院,工作12年,叱咤学术的风云形象联系在一起。

(图片说明:危夷晨博士在旷视科技上海研究院接受DT数据侠专访)

或许也正是基于这样稳健的性格,危夷晨对万事、趋势的看法,都习惯从根部说起,一条脉络通上来,枝枝蔓蔓再由此散开。一如问及他“如何理解数据科学”,他会先阐述定义,“数据科学其实是一个比较宽泛、朴实的概念,在数据爆炸的时代,是一种可以帮助人们在海量信息中寻找规律、观念,挖掘价值的一种方法论。”

然后,他继续阐明业界观点:“这个领域的玩家都相信大数据、识别技术可以改变很多行业。”比如,在智能化工业生产中通过图像识别,做产品的质检,降本增效;在城市管理方面,人脸识别可以识别逃犯、报警,甚至协助公安进行抓获。

(图片说明:旷视科技“城市大脑”。图片来源:旷视科技上海研究院)

随后,危夷晨以旷视“手机上的人脸识别解锁”项目为例,解释了计算机识别技术在实际落地中的困难:“手机上每款摄像头的硬件和参数设定都不同,每个项目对于解锁的精度和允许耗费的硬件资源,如计算力、内存等,也都要求不同。这会导致非常繁重的数据采集、整理和模型训练、调优工作。例如,曾经有一个手机项目发生过1天采集1万人数据的情况,非常夸张。”

危夷晨举这个例子是为了说明:人工智能技术的落地远不像行外人看起来那么简单。数据的采集、清洗、训练模型和部署产品看起来非常简单和流程化,中间却是陷阱重重,耗费资源巨大,要做好非常的难。

(图片说明:人脸识别的技术流程。图片来源:《艾瑞咨询中国计算机视觉行业研究报告》)

“数据科学是一种方法论、一个工具。计算机视觉是一个具体的应用领域,需要通过图像识别实现产品价值,服务客户。它们并非一个维度上的东西。我们正在通过数据科学的工具去实现计算机视觉的应用。期间可能要经过数次反复的过程,才能使产品更好地落地。”危夷晨如是辩证地看待数据科学和计算机视觉应用的关系。

从科研到产品,需要思维转变

十二年,被称为“一纪”或者“一轮”,对于中国人有着特殊的含义。

从2006年于香港科技大学计算机系获取博士学位,加入有“AI黄埔军校”之称的微软亚洲研究院(MSRA),到2018年离开,危夷晨经历了MSRA的黄金时期。如今回顾起这段经历,他表示自己“很幸运”。

研究院宽松的氛围和丰富的产品应用场景不仅给危夷晨带来了全方位的机会:从人脸、手势、人体,到车辆、万物;从图像识别、检测,到跟踪、检索;从图像、视频到3D;从写代码、写论文、写专利到标数据;从单纯的科研项目到跨公司的合作项目;从单打独斗完成整个项目,到带领团队放手培养年轻人……

跨部门的不断合作也使他发现了真正的兴趣点,这也是他在MSRA 12年最大的收获:“我不是一个‘纯学术研究者’,如果我写的代码能被很多用户使用,这会让我非常有成就感。”

2008年,在深度学习还没爆发的时候,彼时的微软同事、现在的旷视研究院院长孙剑找到危夷晨,提议接下Kinect人脸识别的任务。尽管当时Kinect在内部还是秘密项目,代号“Project Natal”;尽管当时人脸识别技术尚不成熟、数据集和方法都非常原始,也几乎没有成功的经验可参考;尽管危夷晨本人还没有接触过产品……

(图片说明:计算机视觉深度学习与传统方法的区别。图片来源:《艾瑞咨询中国计算机视觉行业研究报告》)

但凭着初生牛犊不怕虎的劲头,他迎难而上接下了这份挑战,自己拍数据、写算法,每周和西雅图的产品团队开会讨论、共同开发。一段与科研完全不同的经历,带给了危夷晨一个崭新的世界。8个月后,他们的技术成功进入Xbox,叫做Kinect Identity,传递给了千家万户。

(图片说明:Kinect问世时,还曾邀请斯皮尔伯格导演站台。图片来源:网络)

“虽然方法现在看起来非常简单,但当时能把这个事做成,让Xbox的游戏玩家通过人脸识别,登录到自己的玩家档案中,很开心。”在与危夷晨交谈的一个多小时里,他的语调和语速大多保持在一个频率上,即便是玩笑,也在片刻之后归于平静。而当谈到这段经历时,他的眼睛亮了许多,“现在回想起来确实挺自豪,核心算法代码几乎全是我写的。”

(图片说明:尽管Kinect已经停产,但其曾在刚上市的前60 天里卖出了 800 万份,成为吉尼斯世界纪录中“销售速度最快的电子消费品”。图片来源:网络)

也是从那时起,危夷晨意识到自己喜欢做产品,这也才有了后来从学术界到工业界的转型。

“从科学研究到产业化落地,过程中会否妥协?”我们好奇。

危夷晨微微坐直了身子,略略沉吟:“会,一个产品,要获得用户的认可,技术只是其中的一个环节,你的思维方式也要转弯,需要恰如其分地把技术的力量跟产品的痛点结合起来,不能用力过猛,也不能妥协太多,这是一个平衡的过程。”

“举个例子,写论文往往会先将问题设定到最难的程度,再求解,所以方法往往设计得很复杂。但实际产品中,不会频繁遇到那么复杂的问题,如果你还是习惯性使用学术上认为最好的方法,就会容易有一种杀鸡用牛刀的感觉,浪费资源。因此需要转变思维,根据当前实际的产品需求,采取最合适的解法。”危夷晨如是解说。

至于是解决学术中的难题更能带来成就感,还是让产品落地被更多人使用才能刺激自己的兴奋神经,危夷晨认为,这和人生不同阶段的追求有关:“早期觉得写论文,解难的问题有意思,到了后来,就会平衡一些,希望可以用自己的知识,去解决一些真正的现实问题。”

或许是逐渐意识到,一个好的产品远不止于技术本身,从技术驱动到产品落地,成功是一条漫漫长路。2018年,危夷晨离开了任职12年的微软,并于7月份,加入了计算机视觉独角兽的旷视科技,任上海研究院的院长。

尽管加入旷视科技的决定只用了1个月,却是危夷晨深思熟虑后的决定:“这个行业其实很小,我对旷视也陆续了解了很多年。而且,旷视本身对于视觉领域从业者的吸引力也非常大,尤其是它对于技术的信仰和追求。”

在危夷晨看来,如果一家公司相信技术能够解决实际问题,而不仅仅是把它当作一个装饰的门面,它才会为技术研究人员创造好的工作条件、尊重他们的意见。恰好,这也是旷视的理念。

也因此,在谈及对年轻人的一些建议时,危夷晨说得也很中肯,呼吁理性看待技术同时树立自己的信仰,正确认识技术的价值:“有些技术,还远不如看起来实用,确实会有泡沫和水分,但也不要极端地认为都是在吹牛。不过度吹捧,也不过度悲观,才能走得长远。”

在危夷晨看来,时尚会复古,技术也会有轮回。一如当年在香港科技大学读博研究3D问题的时候,谁都不曾想到会和如今的AI浪潮产生交集。“刚开始读博时,就是研究如何从2D到3D,通过图片去重建周围的世界。但当时3D的理论方法已经相对完善,应用又不清楚,所以工作后才去尝试了新的方向。”危夷晨回忆道。

然而,随着近年来机器学习尤其是深度学习的发展,如今大火的虚拟/增强现实、无人驾驶,又开始强调对3D技术的需求,这就好似一个轮回。

或许一切正如《阿甘正传》里的那句经典台词:“人生就像一盒巧克力,你永远不知道下一块是什么味道。”

计算机视觉已经遇到瓶颈

从1966年MIT首次建立The Summer Vision Project学科,到2012年深度学习算法得以成熟应用(2012年,采用深度学习架构的AlexNet模型,以超越第二名10个百分点的成绩在ImageNet竞赛中夺冠),再到如今,在人工智能技术的推动下,视觉使人类得以更好地感知和理解世界,其中的核心运用——人脸识别,也由此成了“兵家必争之地”。

(图片说明:人脸识别发展历程。图片来源:《AMiner 2018人脸识别研究报告》)

在国外,谷歌先后收购了PittPatt、Viewdle等多家人脸识别公司,Facebook也全资收购了以色列脸部识别技术公司Face.com;在国内,百度、腾讯、阿里在人脸搜索领域均有布局,创业者蜂拥而至,资本高度集中,甚至连李开复都惊讶于人脸识别领域“竟然养活了四个独角兽”。

与此同时,据IDC预计,到2022年,中国计算机视觉应用市场规模将达到146. 08亿元人民币。并且,计算机视觉在移动设备、自动驾驶汽车、智能家居以及行业自动化领域的应用将实现超过80%的增长。

(图片说明:中国计算机视觉市场规模预测,图片来源:《IDC 2018中国计算机视觉应用市场研究》)

尽管行业迎来井喷式地发展,危夷晨依然认为计算机视觉已经遇到了技术瓶颈:“目前计算机视觉的应用,都是从一张图片、一段视频中识别内容,是一个通过标记好的数据学习从输入到输出的映射关系的过程。这样简单的模式距离人类智能还很遥远。如果想要再继续发展的话,必须在方法论上寻求突破。”

尽管有技术的局限,危夷晨依然看好计算机视觉在诸如自动驾驶、新零售等领域内的应用。以新零售行业为例,除了人脸识别,计算机视觉还可以通过顾客购买行为、购买历史等数据,识别他们对不同商品的兴趣点,从而使商家做到精准营销,这也是目前旷视上海研究院正在进行的项目。

(图片说明:绿色部分为当前市场关注度、渗透率以及技术采用度相对较高的应用场景。图片来源:《IDC:中国计算机视觉行业应用的现状、挑战与契机》)

至于强人工智能时代的到来,危夷晨自诩是一个悲观的人:“目前来看还有待时日,如果有智能助手能够根据自己的日历、生活习惯,将生活中诸如订机票、智能叫醒等琐事打理得井井有条,就已经很好了。”

如今投身工业界,危夷晨坦言,工作体量、节奏,都比学术界快很多,但也在预期内。现在,他保持着每天早上8点进入办公室的习惯,2019年给自己设立了一些小目标:每月坚持写一篇技术类文章,继续保持打羽毛球的习惯……

若要问起,学术界的偶像,危夷晨说是孙剑老师(旷视科技首席科学家、残差网络发明者之一):“因为他看问题比较深刻,想得长远,很佩服。”

数据科学50人成员

危夷晨博士,计算机视觉领域的资深专家。发表顶会和期刊论文40余篇。Google scholar论文引用6200余次,h-index 为33。多次获得计算机视觉竞赛优异成绩(COCO 物体检测,分割,关键点等)。拥有10余项美国专利。此前是微软亚洲研究院视觉计算组资深研究员,科研成果被转化到多个微软产品,包括Xbox Kinect,Windows Hello,Bing, Office, Hololens,Microsoft Cognitive Service,微软小冰等。于2018年7月加入旷视科技任上海研究院负责人。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

 

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

相关推荐