消息中心
无消息通知

大数据与人工智能的业务赋能之道 | 数据科学50人·肖京

数据科学50人

· 肖京

张慧芳  2019-01-21

博士毕业于卡耐基梅隆大学计算机学院的肖京在数据和人工智能的理解及应用上有着深厚的理论基础和实战经验。回国后选择平安集团,因为他坚信传统行业是数据接下来最能发光发热的地方,而数据结合产业产生价值是最重要的事情。

对数据科学的认知

“您最早接触数据科学是什么时候呢?”DT君开场第一句就问道。

谈到自己熟悉的领域,肖京语速有些快,他说道“我听到数据科学是在很早的时候了,不过我正式接触到数据科学的项目是在大学。”

2003年,杨利伟乘由长征二号F火箭运载的神舟五号飞船首次进入太空,象征着我国太空事业向前迈进一大步,起到了里程碑的作用。宇航员们在进入太空前要进行反复的练习,科学家们对宇航员们身体状态的监测和研究也异常严谨。而早在十年前,也就是1993年左右,有研究小组已经开始对宇航员的身体状态展开分析工作。

那是肖京最早接触的数据科学项目。

在中国科学技术大学(简称中科大)读本科期间,他参与了一个监控宇航员身体状态的项目,包括心跳、血压等各种身体状态,及时查看是否出现异常。“这就是一个数据分析的工作,通过这些数据的趋势来分析宇航员们身体指标的变化, 使得科学家对于将要出现的问题能提前预警,进而采取相应措施解决。”

这段经验让肖京对于数据科学的认知更强了些。

他认为数据是对我们感知观测到的自然界和生活中发生的各种现象的数字化记录,“我们可以观察到很多现象,但是观察到的东西很抽象,你要把它记录下来,这就成了数字化的数据,比如看到的图片、听到的声音、看到的文字以及一些身体指标、生产系统监控指标等等,这都是通过记录观测感知的现象而形成的数据。”

通过分析数据,进而反推某个现象的本质,弄清楚为什么会出现这个事情,为什么会发生这些情况,有没有什么内在的规律,这就是数据科学,是一个反向工程的过程,根据正向观察到一些历史现象的量化记录,分析关联关系,反推背后的原理、原因,对当前情势做出判断,发现现实的问题,对未来潜在的风险或机会做出预测预警,对未来的发展趋势做预判,甚至帮助指导策略的制定以引导事物的发展方向。

(图片说明:肖京博士在上海接受DT数据侠的专访)

“所以数据科学是个偏理论的科学?”DT君反问道。

“不是,”肖京解释道,“数据科学涵盖很多理论研究领域,同时也是非常实际的领域,具有实用性,数据科学跟实际的场景、实际观察到的现象都直接相关,是最贴近实际生产的,比如数据产生的基础是实际观察到的现象,而非虚构,可以直接用来指导生产。”

当然,肖京也认为数据科学是一门综合性学科,既有科学问题也有工程问题。“数据科学实际上分为很多阶段:数据采集、数据分析、建模预测以及决策引导等,”肖京说,“这其中,数据采集就是工程问题,将抽象事物变为数据,并且进行数据清洗、降噪、标准化、质量管理、安全管理等工作,这需要花费大量时间,涉及很多工程化的问题。”

在数据分析上,通过统计和分析数据得出其中的关联,能够知道历史上发生了什么,进而总结历史的经验,发现其背后的规律或模型。肖京说这其中包含大量理论分析基础,帮助研究人员科学地去分析数据,得到其中的洞见。“很多物理定律就是数据分析发现的,比如开普勒定律,通过不断观测行星运动的数据后拟合出背后的物理规律。”

(图片说明:开普勒定律 图片来源:视觉中国)

再利用科学的算法预测现象发展,从数据中得到更好的洞察观点,最后制定引导事物发展的策略。肖京说:“整体看来,数据科学是一个综合体,包括理论知识、实际应用以及工程化。”

和人工智能的交集

进入数据科学是在大学时期,肖京说那个时候刚入门,而之后的学习对其在数据上的理解起到了极大的促进作用。不过,和数据相比,肖京和人工智能的缘分可能更密切些。

你也许听过科学家们儿时都有个伟大的梦想,肖京小的时候也有。“我从小就想做机器人。”提到这个话题,肖京显得有些兴奋。

在部队长大的肖京比同龄人多了些接触科幻电影的机会,“那时候一周能看一次电影,当时我看了很多关于机器人的电影,印象最深刻的是《未来世界》。”电影中的仿生机器人让儿时的肖京倍感兴趣,因此进入大学时,他选择了自动化控制专业,实际上就是与机器人相关的一个领域,但是当时更偏理论。

之后,肖京进入中国科学院(简称中科院)自动化研究所攻读硕士学位,并进入国家模式识别重点实验室,师从马颂德老师(曾任科技部副部长)。肖京回忆说当时马颂德老师在模式识别上给了他非常大的帮助,在人工智能的学习和研究上也收益颇丰。日后肖京自觉人工智能在图像上的发展非常有前景,于是,1999年,他进入美国最强人工智能学府之一的卡耐基梅隆大学,师从卡耐基梅隆大学计算机学院的机器人研究所所长金出武雄,学习计算机视觉。

“当时我的第一个项目是做机器人的微表情识别。”肖京介绍到,当时他们主要做的是测谎,需要跟踪人脸上非常细微的变化,但是人的行为不可控,无法长时间保持不动,于是肖京根据跟踪人脸上的68个特征点,在导师的帮助下,研究出来一套数学理论,通过线性方法来重建人脸的三维动态模型,从而解决微表情识别的相关困难。“这是把理论和实际结合起来的一个项目。”肖京说。

当时肖京研究的这个技术还被应用在电影特效领域,如科幻电影《阿凡达》等,在展现一些奇怪的角色行为时,往往通过同步捕捉演员的动作和表情来达到特定效果,演员的脸色被贴上密密麻麻的小圆点,过程非常繁琐和不便。而现在用他们的技术,能够直接捕捉演员的表情,然后真实地转到虚拟角色身上。

(图片说明:电影《猩球崛起》中对面部表情的捕捉技术 图片来源:电影幕后花絮截图)

在国外学习的时期是肖京非常重要的一个阶段。他认为,整体而言国内更加注重技术应用,而美国则更加注重原创,能够让学生们用开放思维去想象。

“像外行一样思考,像专家一样实践。”这是肖京的博士生导师常对他们说的一句话。他解释道:“像外行一样去思考,要求的是跳脱出固有的圈子,不被传统成熟的想法束缚,解开禁锢像个外行一样去想象,这样才能充分发挥自己的创新能力。像专家一样实践,则是有了好想法后,要像专家一样缜密去落地实践,在专业的基础上将想象变成现实。”

技术必须和业务结合

“人工智能本身不是一个产业,而是个赋能的体系,帮助别的产业做得更好,所以他一定要跟别的产业结合起来。”肖京说到。

肖京学习人工智能后的目标很明确:让人工智能在各个专业领域发挥价值,于是博士毕业后他去了工业界。

人工智能和数据科学不可分割,“没有数据人工智能就用不了。”人工智能最主要的流派仍然是符号主义学派和联结主义学派,前者基于逻辑推理,和数据关系不大,后者则基于数据分析。肖京说:“当前基本是联结主义的时代,目前在应用的大部分人工智能技术都是基于大数据分析,二者密不可分。 ”

(图片说明:AI的联结主义vs.符号主义  图片来源:The Revenge of Neurons)

在业界,肖京选择的第一个想要发挥人工智能技术价值的“对象”是精工-爱普生。在精工-爱普生,肖京做了大量努力来发挥数据和人工智能的价值:

  • 在传感器应用上,做了大量的数据分析。利用人工智能分析其传感器信号,如在医疗领域,帮助精工-爱普生检测用户的身体状况。
  • 在打印机技术上,做了大量的图像和视频的研究。简单来说就是如何将照片中的人脸变漂亮,通过人工智能图像识别技术的相关算法,肖京帮助精工-爱普生的打印机实现更清晰且几乎不占内存的文件打印效果。
  • 在投影技术上,提升投影质量,发明空中三维图像显示系统,实现用户不戴眼镜就能看到3D投影。
  • 训练机械手。运用人工智能技术,将爱普生的机械手从需要一个人操作训练变成能够学习人的行为,极大地解放了劳动力。

在精工-爱普生的工作经验让肖京确信,人工智能技术和业务相结合的确能产生价值。

在传统行业试过一段时间,肖京仍然想去别的领域尝试下。“精工-爱普生算是比较传统的消费电子领域,但是数据还是太少了,那时大数据时代已经到了,我应该去真正有大数据的领域试试。”肖京知道互联网领域拥有真正的海量大数据,因此选择了微软的搜索引擎部门Bing。在微软时,肖京主要负责研发互联网用户行为大数据分析及其在搜索广告等方面的应用。他们要做的是挖掘用户搜索点击浏览等行为的信息,帮助Bing达到更高的点击率。

“搜索引擎中像微软的Bing、谷歌、百度等等,其工程化已经达到到极致,‘最后一滴油’都被挤出来了,所以往往大量用户行为数据中挖掘出来的群体智慧信息,比单纯排序算法上的改善实际效果还更好,因此用户群的质量及其关键。”肖京分析到。

提到数据,一般会想到经典的“4V”特征:海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)和巨大的数据价值(Value)。这其中,肖京强调数据价值是最重要的。在做搜索广告时,用户行为即数据,可以产生很好的价值,通过分析大量用户的搜索及点击行为,可以精准估算搜索词条和网站内容的相关性,从而有效提高搜索引擎的精度,最终提高点击率和转化率,产生实际价值。

彼时,人工智能已经经历了两起两落,处于第三次浪潮之中,肖京分析了前两次失败的原因,“在产业应用上失败了,没有产生实际的商业价值。”而在互联网领域人工智能技术已经产生了极大的商业价值,比如互联网搜索广告通过大量的工程技术让谷歌、百度、微软等公司获得了直接利益。相比之下,金融、医疗、制造等传统行业在这方面尚处于起步阶段。

“我那时自己的判断是下面人工智能技术肯定要进入传统行业,帮助传统行业赋能发展,而且会大力帮他们发展,传统行业存在很大的机会。”肖京笑着说道,“我在精工-爱普生这样的传统行业尝试过,也成功通过人工智能技术为其产生了价值,所以我很笃定。”

在美国的肖京收到了来自国内大型金融服务集团中国平安的邀请,2015年3月,肖京回国,加入正在科技转型的平安,负责平安集团科技大数据部门,带领平安集团的人工智能团队,结合相应业务,利用人工智能技术,发挥数据的价值。

“平安集团在2013年就完成了数据平台的建设。”肖京提到,这个是平安集团最吸引他的原因,同时大力发展科技赋能业务也是肖京非常认同的战略方向。早期大数据平台主要的应用还是做结构化数据的BI分析,之后逐渐建立起了完善的人工智能团队及技术能力,并打造了集团智能化应用的核心引擎“平安脑”。

多年实践经验告诉他自己,光有技术没用,必须和实际业务结合。肖京带领团队和集团各专业公司合作,将人工智能技术和实际业务场景紧密结合,极大地提升了其内部的工作效率,提高了服务能力,肖京总结了“三提两降”来形容人工智能技术带来的益处:提效果、提效率、提用户体验、降风险、降成本。

“当然,AI赋能的前提是要和产业相结合。”他认为未来是智能+的时代,AI的绝大部分技术需要通过和产业结合赋能业务才能真正实现价值。

肖京虽看好AI技术带来的价值,但也认为诸如《未来世界》里面的机器人目前还不会实现,肖京说:“现在的AI还很笨,只会计算,不会算计。”在他的眼中,未来当量子计算、5G通讯、以及脑认知科学全面发展取得突破后,才有可能到达强人工智能时代。从现有技术来看,肖京认为人工智能技术芯片化有良好的发展前景,值得重点关注。

“你认为自己是个什么样的科学家?”,DT君问。

肖京笑着说道:“接地气,注重科技创新的实用型科学家吧。”

数据科学50人成员

肖京,现任平安集团首席科学家。1995年始研究人工智能与互联网大数据分析挖掘相关领域的前沿科学问题,在卡耐基梅隆大学计算机学院获得博士学位后,长期在精工-爱普生(Seiko Epson Corp.)美国研究院及美国微软公司(Microsoft Corp.)担任研发管理职务,获得90项美国授权专利,69项中国授权专利,并发表65篇学术论文专著。多次担任重要国际学术会议委员会成员,并多次当选中美国家科学基金评审专家委员会。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

 

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

 

 

 

 

相关推荐