消息中心
无消息通知

数据可视化的1996-2018 | 数据科学50人·陈为

数据科学50人

· 陈为

程一祥  2018-06-04

陈为,现任浙大计算机学院副院长、CAD&CG国家重点实验室教授,中国数据可视化领域的顶级学者。他领导的浙大VAG小组,多次在世界顶级可视化会议IEEE VIS发表重要论文。其编著的《数据可视化》一书,填补了中国在系统介绍数据可视化的基本理论和方法上的空白,成为可视化领域的经典参考书目。他经历了中国的数据可视化研究在过去二十多年里的曲折变化,他的故事,一定程度上也展现了中国“数据可视化”历史的缩影。

五月份杭州已经进入初夏,浙江大学紫金港校区的校园里,学生们三三两两,匆忙穿行在一幢幢的教学楼间,大多在为即将到来的期末考试做最后的准备。在蒙民伟楼的CAD&CG(计算机辅助设计与图形学)实验室里,几位博士、硕士研究生正坐在电脑前,对复杂的数据可视化方法与应用进行着探索。

这间始建于1989年的国家重点实验室,在过去几十年里,始终是中国可视化研究的最前沿阵地之一,也是陈为教授最主要的工作场所。陈为是实验室的“老人”了,当他还是个学生的时候,就是从这间实验室开始,第一次走进了可视化的世界。

在刚过去不久的三月份,陈为每天从8点到晚上10点,一直待在实验室里,与学生交流、讨论项目,也会自己钻研可视化课题。“主要因为4月1日是 IEEE VIS(目前国际最顶级的可视化学术会议)论文投稿的截止日期了,哈哈”,陈为打趣说。

几年前,他几乎全年都是如此,常常整日地待在实验室中。在采访中,陈为觉得做数据可视化研究,需要有一种对“数据的狂热”——“你能够每天花八个小时坐在那里,围绕数据做任何事情“,陈为说,这是他对自己,也是对学生们的基本要求。

不仅是画画图表而已

1996年,陈为从浙江大学应用数学系毕业,进入CAD&CG国家重点实验室主攻图形学的研究。不过那个时候,他对数据可视化还没有什么具体的概念,学习的重点是图形学。幸运的是,CAD&CG实验室是中国最早开始研究可视化的单位之一,当时的实验室元老石教英教授正在浙大开设“科学计算可视化”的相关课程,这是陈为“数据可视化”的启蒙课,“当时对数据可视化,就有那么一点概念了“,陈为回忆说。

在陈为看来,“数据可视化”可以简单地定义为:通过可视表达,增强人们完成某些任务效率的过程。这其中,“数据”就是信息,它可以是各种各样的形式(数字、文本、图像等等);可视化是方式和方法,它可以通过各种工具和载体实现。

如今,我们每个人在生活中都会或多或少接触到数据可视化:当你用EXCEL画统计表时,当你看新闻看到信息图时,当你使用导航app查询出行线路时.......你都在有意无意地与可视化打着交道。

可视化的历史非常悠久,其起源如今普遍认为是在中世纪伴随着几何图形和地图的出现,而逐渐生成。在17世纪,随着物理学、制图学、统计学等学科的不断进步,可视化也迅速成长,其当时目的主要是展示一些重要的信息。

(图片说明:英国流行病学家 John Snow 通过在地图分析法,成功发现1854年伦敦霍乱病源是一口在布拉德街区的水井,进而阻止了疫情的蔓延,留下了著名的Ghost Map;图片来源:DataVis.ca)

1786年,苏格兰政治经济学家 William Playfair 第一次发明了折线图、柱状图、面积图等现代统计图表,1801年又发明了饼状图,成为了统计图形分析的开创者和奠基人,影响了未来两百多年的数据可视化的发展。这是可视化历史上第一个里程碑的事件,从此,这种辅助思考的方式同时衍生了可视化思考的新方式:用图片表达数学和证明函数、列线图辅助计算,表达数据趋势和分布等。

(图片说明:苏格兰政治经济学家 William Playfair 发明的折线统计图原型,用来展示1700-1780年间英格兰的进出口数据;图片来源:Wikipedia)

法国工程师 Charles Joseph Minard 在1869年发布的描绘拿破仑进军莫斯科的可视化图表,被誉为是“有史以来最好的统计可视化”,他是将可视化用于工程和统计的先行者,如实生动记载了法军的位置,行军方向,军队汇集、分散、重聚的时间、地点,军队减员过程等信息。这是计算机出现以前,最具代表性的数据可视化作品之一。

(图片说明:拿破仑进军莫斯科路线图;图片来源:Wikipedia)

20世纪以来,随着图形符号学理论的发展和人类计算能力的增强,以计算机为载体的信息可视化开始逐渐成为一门独立的学科。1987 年,在美国国家科学基金会召开的“科学计算可视化研讨会”中,会议首次正式提出“科学计算可视化”(Visualization in Scientific Computing)概念,主要使用可视化技术研究自然科学领域的数据建模、分析、处理问题。

后来随着互联网浪潮的出现,新的研究分支“信息可视化”开始涌现,它起源于统计图形学,主要是对抽象信息的展示、说明和研究。这也是大众最熟悉、在媒体上出现频率最高一种可视化分支。

进入数据爆炸时代后,可视化与数据分析技术的结合又产生了“可视分析学”。这是一门把可视化、人机交互、数据挖掘结合在一起的新的思维方式,是当前可视化领域最大的研究热点之一。

在 IEEE VIS 会议中,科学可视化大会(IEEE Scientific Visualization),信息可视化大会(IEEE Information Visualization)和可视分析学大会(IEEE Conference on Visual Analytics Science and Technology)是三个最主要的分会,这三个方向在现代统称为“数据可视化”。

陈为最早接触的是“科学可视化”。在石教英教授的影响下,他很早就对科学可视化有了一个初步的概念。后来在德国 Fraunhofer Institute of Computer Graphics 的求学经历,更让他充分领略到了可视化的魅力,并坚定了自己在这一领域研究的决心。

消失的十年

“在德国念联合培养博士的时候 ,我开始接触到医学可视化。”陈为早期的数据可视化工作,主要集中在医学领域的科学可视化。

他当时主要的工作,就是把骨骼、器官等通过可视化技术呈现出来,例如帮助医生更快、更立体地观察CT影像中蕴藏的奥秘。不过这一阶段,应用范围仍然局限在放疗层面。

中国可视化方向的研究工作起步较早,早在九十年代初,国家自然科学基金委就将科学计算可视化列为“八五”重点资助项目,国家科委也将其列为基础研究专门项目给予资助。

国内的第一批图形学研究中心,如浙江大学计算机辅助设计与图形学国家重点实验室、清华大学计算机系、中科院CAD 开放实验室和中科院软件所等,都在90年代初相继开展了可视化方向的基础研究和应用研究。1996年,石教英与蔡文立(现为哈佛大学医学院研究员)等学者就编著了国内第一本可视化教材——《科学计算可视化算法与系统》,在高校开始推广可视化教育,陈为就是在那个时候初识了可视化。

但是当时国内的相关研究都是源自美国、欧洲等高等院校的经验,相关领域人才匮乏,与产业应用之间更是有巨大的差距。

“当时在德国,我的导师做了一个三维医学影像系统,在德国的奥芬巴赫医院投入实用。而国内医院对三维影像还没有什么概念,以为只需要看二维片子就行了。”陈为说,直到若干年后,中国的临床医生才陆续认可并引入国外的这些可视化技术软件。

虽然起步较早,但是从1998到2008,中国国内的可视化研究基本处于零星发展的停滞状态,没有形成有效规模效应,石教英教授的那本教材至今也没有更新再版。而企业界此时正是互联网浪潮的高峰期,可视化一直处在一种无人问津的尴尬状态。

2006年到2008年,陈为来到美国普渡大学的可视分析研究中心(美国国土安全部成立的五大可视分析之一)做访问学者, 经常与David S. Ebert 等可视化领域顶级学者交流谈论(David S. Ebert 教授是时任 IEEE Transactions on Visualization and Computer Graphics 期刊主编,这是可视化领域的顶级期刊之一),拓展了自己在可视化领域的视野,并初步接触了可视分析。

在陈为看来,两次在国外的学习经历,对自己的影响非常巨大。“可视化是舶来品,只有到最先进的地方,与最聪明的人一起交流,才能够弥补这之间巨大的差距。”在德国,陈为初步接触了科学可视化;在美国,他逐渐将目光扩展到信息可视化和可视分析等更广阔的可视化领域。

“2008年之后,中国与欧美在可视化上的差距已经不在于理念或者技术,关键在于人才和研究的积累。”回国后,陈为立刻在浙大牵头成立了VAG可视化与可视分析小组;几乎同一时期,袁晓如教授也从美国回来,在北京大学牵头成立了北大可视化小组;还有早些时间从美国回到香港科技大学,领导了科大可视化实验室的屈华民教授等等。一批优秀学者开始着力耕耘国内的数据可视化研究,并在接下来的十年里影响了中国可视化行业的发展。

“从不受待见到趋之若鹜”

陈为2008年回到浙大,在CAD&CG实验室里领导创建了可视化及可视分析小组VAG。

这个小组除了平时的研究以外,还日常运营着一个有趣的博客。上面会像日记一样,记录小组生活的点点滴滴,比如科研领域最新的论文摘编,实验室的对外交流讨论,同学们的想法和体会等等。陈为自己也常常在闲暇时候撰写博客,分享自己的生活感受。

陈为个子不高,大多数时候笑眯眯的,待人很和善,在同学们的博客中,提到他最多的一个词是“平易近人”。合肥工业大学罗月童教授当年在访问VAG后,在博客中写到,“我很吃惊地见到陈老师和同学们非常‘随意’地交流、开玩笑,不由感叹原来师生之间也可以这么相处。”VAG自由、温馨的氛围令他印象深刻。

在学术界,国际顶级会议、期刊的论文数量和质量,是评价科研工作最简单粗暴的方法。2009年,陈为小组连发4篇 IEEE VIS 文章,一鸣惊人,仿佛要一口气弥补上前几年中国在国际顶级可视化论文中缺席的窘状。

“当2008年刚回国的时候,回来跟同事们讲可视分析,大家都不知道这是什么东西。”到2011年,当陈为与袁晓如、屈华民、彭群生等学者申请国家自然科学基金重点项目“探索式可视分析的理论与方法”时,才发现全国只有他们一家申报此类项目,由此项目搁浅。这足以看出,当时可视化研究在国内所碰到的冷遇。(他们在第二年再度申报,并取得了成功。)

在这样的背景下,袁晓如、陈为等学者开始在国内,通过开设学术研讨会、暑期学校等方式,逐步推动数据可视化的发展。陈为团队从2011年起在浙大为本科生开设数据可视化课程和暑期学校,每年都有数以百计的学生能够近距离领略数据可视化的魅力。

2013年对于陈为来说是一个有特殊意义的年份。这一年,他与沈则潜(现为阿里云零售总监)、陶煜波(现为CAD&CG实验室研究员)合作出版了一本名为《数据可视化》的工具类书籍。在陈为的心目中,这是他的研究生涯中一件具有里程碑意义的事情。它填补了自1996年后,中国在系统介绍数据可视化的基本理论和方法上的空白。

从1996年石教英教授的第一本可视化教材,到2013年陈为出版的这本书,中国的学者们用了二十多年的时间,将数据可视化从曲高和寡变得越来越普及。陈为的这本书后来被当作国内研究数据可视化的必读书目,成为很多可视化科研和教学的科普读物。

2013年之后,陈为领导VAG小组开始发力,他们的论文几乎每年都会出现在IEEE VIS会议中。“从在顶级国际会议上发表的论文数量和影响力看,如今整个浙江大学的可视化研究在全世界排名是第19位。”陈为自豪地说,这从某种程度上肯定了他们这些年努力的成果。

与此同时,大数据的概念开始风靡全球,可视化也搭上了这班顺风车。数据的爆炸式增长和计算能力的提升,从客观上直接催化了数据可视化的热潮——传统的数据分析方式,已经无法解释、挖掘海量数据背后的价值。可视化凭借其绚丽的外形和直观的呈现方式,逐渐被越来越多地应用到商业领域。很多商业公司为了开拓这方面的业务会来咨询陈为,一时间,关注数据可视化的人,突然就多了起来。

2013年年底的时候,正在美国访学的陈为在博客中以“从不受待见到趋之若鹜“为标题,写下了这一年自己的一些感受。

“收藏界有一个有趣的现象:很多当代最受追捧的钱币(价格随之高企)在发行之时或发行之初都是不受待见的品种。这些币刚刚发行时,由于种种原因造成发行量低或返熔量大,结果几十年后反倒成全了它们,成为藏家趋之若鹜的品种。做研究与其非常相似。科学研究与工程开发不是一锤子买卖,不是投机,是一项投资的长跑。”

在这场数据可视化的长跑中,陈为已经走在了前列。

可视化的未来

大屏,是最近两年最火爆的数据可视化话题之一。在2017年热播的电视剧《人民的名义》中,达康书记就用大屏的可视化方式,向沙书记做了汇报;在天猫双十一的庆典上,阿里巴巴也用了大屏来展示实时交易数据,一时间,“大屏”的可视化概念突然热闹了起来。

(图片说明:电视剧《人民的名义》中达康书记汇报工作时出现的“数据大屏”;图片来源:电视剧截图)

其实早在2012年,陈为就开始了对“数据大屏”的相关可视化研究。在大规模流数据、异构数据、关联数据、图数据等课题上取得了一定成果。同在杭州的阿里 DataV 团队也常常和陈为团队讨论与合作,用学术上的研究解决商业中遇到的实际问题。

陈为认为,“学术领域的可视化研究一定要做前瞻性的事情,要领先业界五年左右。”他们现在所研究的课题,许多都是针对未来的应用领域。

在他看来,未来可视化领域的研究将会集中在三个热点方向:大数据的关联整合与可视分析;大规模流数据的在线可视分析,以及面向不同行业的通用型底层可视化工具。这些也都是VAG小组重点的研究方向。

除了与互联网等技术公司合作,陈为还将可视化拓展到了很多社会研究中——数据新闻、气象分析、城市计算、体育观察等等,数据可视化的应用范围越来越广。它已经逐渐走出学术圈,渗透进普通人的工作和生活中。

(图片说明:浙大VAG团队与中国气象局国家卫星中心合作开发的一个全球尺度多变量时变的大气数据可视化平台,已在国家卫星中心内部试用;图片来源:陈为)

2017年,随着数据科学的不断发展,以李飞飞、吴恩达为代表的一大批优秀学者都转身走入工业界,将自己在学术领域的成就更快地与业务实践相结合。当被问道是否也会转身进入业界的话题时,陈为的回答是:“有可能“,不过他觉得短期内应该还不会,因为自己的科研还没有到最好的程度。

在陈为2013年底那篇博文的最后一节,他写下了一段预言:“接下来10年是做数据可视化和可视分析的攻坚期。尽管大数据时代泡沫很多,但沙子里总有金子,埋头苦干,做好了前途一片光明。”

现在,那片光明,已经近在眼前了。

数据侠门派

陈为,浙江大学计算机学院CAD&CG国家重点实验室,教授,博导,国家优秀青年基金获得者,十三五国家重点研发专项“云计算与大数据”总体组与指南组专家,浙江大学计算机学院副院长。研究兴趣是可视分析与医疗人工智能。承担国家自然科学基金重点项目等国家项目十余项。发表国际顶尖学术期刊和会议论文70余篇,其中包括IEEE/ACM Transactions和IEEE VIS顶级期刊和会议论文40余篇。出版教材3部(数据可视化),专著两部(可视分析;大数据)。担任十余 个国际一流学术会议的大会论文主席、国际SCI期刊JVLC副主编、SCI期刊JOV编委、IEEE Pacific Visualization大会指导委员会委员、中国可视化大会ChinaVIS指导委员会委员、CSIG可视化专委会副主任。获省部级科技奖一等奖1次,二等奖2次,IEEE Visualization年会最佳论文提名奖2次、IEEE CAD&CG大会最佳论文奖。所带领团队的大数据可视化方面的研发工作在国家气象局、阿里巴巴、浙一医院等单位应用落地。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing004并备注“数据社群”,合作请联系datahero@dtcj.com。

 

相关推荐