消息中心
无消息通知

在DT时代,煲一锅“数据开放”的好汤 | 数据科学50人·郑磊

数据科学50人

· 郑磊

颜安琪  2019-02-13

为什么政府应该开放数据?会带来哪些好处?又有哪些风险?哪些数据应该开放?哪些又不应该开放?复旦大学国际关系与公共事务学院教授、数字与移动治理实验室主任郑磊博士就借用“腌笃鲜”的概念,在这个DT时代,为公众煲一锅文火慢炖,有情怀、有品质、又美味的“政府数据开放”靓汤。

不想当“厨师”的学者,不是好的数据“开瓶人”

隐匿于上海复旦大学的智库楼,虽不如光华楼、逸夫科技楼那样名声鹤立,但红墙白顶、黄铜大门,在午后阳光错落地照射下,别有一副“腹有诗书气自华”的书卷味,古典又不失洋气。

2019年的农历新年前,DT君就在这里见到了郑磊。他刚从广州出差回来,穿着驼色的大衣,梳着清爽的短发,不带喘气地直奔四楼的会议室,步履间还不忘回头解释:“你们来得不巧,大楼翻新,电梯还没装好。”DT君不由联想起他朋友圈转发的文章:“当老师,你得腿好、身板好,毕竟校园忒大了,间隙还要爬4楼讲课。”

复旦DMG(复旦大学数字与移动治理实验室)的会议室里摆满了各项推动政府数据开放的奖牌,房间的正中央是郑磊在2018年——投身中国数字治理和大数据工作的第十个年头,完稿出版的《开放的树林:政府数据开放的中国故事》的KV板。我们的聊天,便从他的“数据观”说起。

图片说明:郑磊教授在复旦大学数字与移动治理实验室接受DT数据侠专访

作为大学教授,郑磊极擅长运用概念,将人循循善诱。比如,他会将“数据科学家与数据”的关系比作“厨师和大米”:“数据科学家是厨师,数据就是原料,我们的工作就是推动政府将数据开放出来,让‘巧妇’有米可炊,并且能根据不同需求,加工成各种菜肴”。

他也会将推动政府数据开放的本质解读为“腌笃鲜”——江南的一道家常菜,将咸肉、鲜肉和春笋,先用烈火猛攻,再加以小火慢炖,在荤素咸鲜中造出一派和谐:“政府数据开放过程中会遇到很多政策、管理、技术问题,必须综合考虑,就跟做菜一样,需要各方调和,这么说起来我们也是一个‘厨师团队’。”以此,郑磊办起了“腌do鲜”沙龙,以与群儒交流探讨有关数据的话题。

图片说明:“腌do鲜”沙龙现场,来源:复旦大学数字与移动治理实验室

他还会将数据开放生态比喻为森林,每座城市就是一棵不同品种的树木,“开放数林”的概念既取了“数”对应的谐音“树”,也预示着唯有高低错落、疏密有致,才能形成森林的多样性:“每颗树上的树叶,就是可利用的数据,每根树枝代表了不同主题。独木不能成林,整个国家的开放数据才能形成一座森林。”

DT君抛出的每一个问题,眼前这个瘦削、说话时不时喜欢用手比划的“大厨”,都能快速反应并找到一个合适的比喻,期间再不时调侃上几个笑话。

至于如何测量“数木”的树形、高度、粗细和价值,便是郑磊和DMG实验室近几年的工作重点。在刚刚过去的1月份,他们发布了2018年下半年的《中国开放数林指数》报告。

从2017年5月,DMG首次发布《中国地方政府数据开放平台报告》时,仅有19个地方政府推出数据开放平台;到2018年10月31日,中国已有57个城市开放了政府数据……

图片说明:各地方政府数据开放平台上线时间,来源:复旦大学数字与移动治理实验室《2018中国地方政府数据开放报告(上半年)》

郑磊一边欣慰政府数据运动开放的进展,一边也在感慨,“政府数据就像封在瓶子里的苏打水,关着瓶盖的时候悄无声息。但只要你把瓶子一打开,嘭地一声,数据的能量就迸发出来了。”

他以这样的维度思考,同时以气候公司Climate Corporation的主打产品“全气候保险”为例阐述,正是基于美国政府免费开放的60年农作物收成数据、100万余个气象监测站的气象数据以及14TB的土壤质量数据,该公司才能系统地预测恶劣天气,并自动赔付农民损失。

在郑磊看来,政府数据既是国家的战略性资源,也是社会的公共资源,应该取之于民、还之于民、用之于民。在保障国家秘密、商业秘密和个人隐私的前提下,将政府数据最大限度地开放出来,提供给数据科学家们进行融合利用,释放数据能量,才能更好地创造公共价值。

图片说明:开放数据的动态循环,来源:复旦大学数字与移动治理实验室《2018中国地方政府数据开放报告(上半年)》

“中国开放数林指数”就是让各个地方政府由细分指标,以小见大地看到差距,从而提升数据开放的水平。“这不就是把瓶盖一点、一点拧开的过程吗?”郑磊笑着反问。

人生哪有白走的路

自2012年6月,“上海市政府数据服务网”(Datashanghai.gov.cn)上线运行,中国内地正式加入全球政府数据开放的潮流。

政府开放数据的中国故事一直很纠结:一方面,政府知道开放数据利国利民,但一方面又生怕开放数据后给自己惹来麻烦;一方面都希望别人能开放数据,一方面又想着把自己的数据藏起来;一方面都在谈数据价值无限,一方面又在为清理数据里的“垃圾”而头疼。等到数据终于开放了,担心别人不来用,又担心别人来“乱”用。

在这样的“纠结”心态里,数据开放运动如今的阶段性进展实属不易。郑磊坦言,2011年投身政府数据开放研究时,中国还未有案例可鉴、政策也不明朗,他不仅未曾想过中国的数据开放能取得如今的结果,甚至还担心过研究成果可能都会白费。“不管是个人的研究,还是中国的政府数据开放,这都是一个渐入佳境的过程。”郑磊略略沉吟。


图片说明:省级政府数据开放平台前10名,来源:复旦大学数字与移动治理实验室《2018中国树林开放指数(下半年)》

 

回望是件有趣的事,就好像在时间——这条不管不顾、奔流向前的河流上施展了魔法,上游冰封,而你我在冰花攀爬的咔哒声中,沿着冰封的河面,循着冰冻的脉络,得以缓缓回溯。

镜头切至1996年,彼时英语本科毕业的郑磊,并未像大多数学者一样,继续硕、博连读,而是先后在靳羽西化妆品、雀巢、施乐等外企工作了6年,在社会实践中完成了对于数据科学的启蒙与开悟。

他自诩当时的工作就像是一个“初级数据科学家”,通过对抽样调查数据、二手数据的分析,为市场销售部门和管理部门提供决策辅助。尽管当时的数据只能被称为“小数据”,数据分析方法也较为简单、传统,但这段工作经历成为了郑磊在数据科学领域学到的第一课。

但由于缺少系统化的训练,郑磊时常在实践中感到捉襟见肘——数据分析工具不够用;在工作中学到知识和技能过于碎片化,常常在靠小聪明;再加上,看到自己与MBA海归同事间的差距,不安于现状的他,决定再次回归校园,潜心学习。

而作为1970年代生人,郑磊的生命历程与改革开放的时代发展有着微妙的对应。国家政策、制度等在时代洪流中的转变,也激发了他对公共事务的兴趣,从而转向公共管理专业。现在看来,数据开放何尝不是进一步推进改革开放的举措之一呢?

2004年,郑磊在美国亚利桑那大学获得公共管理硕士学位。其后的五年时间,他都在纽约州立大学攻读博士,同时在该校的政府技术研究中心(CTG)担任研究助理,并于2009年获得公共管理与政策博士学位。他的导师是北美数字政府学会的创始主席Sharon Dawes教授。

图片说明:在纽约州立大学读博期间的郑磊

CTG“理论与实践相结合”的研究思维、成熟的管理经验、具全球学术影响力的学术地位不仅对郑磊后来回国创立复旦DMG产生了重要影响,甚至在DMG运作上遇到“人员能力建设”、“团队管理”、“成果转化与传播”等困惑时,郑磊还会向CTG的导师们取经。“从方方面面来说,CTG都是我们的对标榜样。”他如是解读这段经历。

2010年,Sharon Dawes教授来上海和政府部门进行交流,彼时的美国正在大力推动政府数据开放,趁着为导师做翻译的机会,郑磊对政府数据开放有了初步了解。尽管当时中国的政府数据开放尚未兴起,同时,在大学里研究数据开放的老师也“寥寥无几”,郑磊还是秉持着一个学者的好奇心,对该领域保持着实时关注。

2012年起,大数据逐渐成为热门话题,中国政府数据开放实践也正式拉开大幕,上海、北京和南海等地陆续上线了政府数据开放平台。并在随后的5、6年里,迎来了高速发展。如今面对别人“你很有前瞻性”、“进入热点领域好幸运”这样的说辞,郑磊更多的是将其归结为“机会是留给有好奇心、并为之做好了准备的人”。

一如他当初基于兴趣研究信息和数据时,未曾想过有一天会在中国有这么大的价值。在美国5年博士苦读,当原来外企的同事们都已经买房、炒股、奔小康时,他也曾纠结、疑惑过,走这样一条学术道路是否值得?但或许是“莫问前路,但看脚下”,不轻言放弃的韧劲,又或许是“想当手艺人,就得磨刀”,人生需要一个蛰伏期的初心,让郑磊一步步走到如今。

“人生没有白走的路,你以为是走了段弯路,但这段路如果不走,就没有今天的你。这些白走了的路,有一天会突然和你现在这条路叠加起来,出现一条别人没有走过的路。”语毕,郑磊爽朗一笑。

就像他早前在外企做市场影响的经验,如今全都可以用作DMG的品牌传播,小到报告的Logo、用色配比;大到DMG自身的Logo、英文缩写,都成就了如今DMG“专业、有趣、有温度”的业界形象。好朋友高丰(中国开放数据先锋、数据科学50人成员),还将“DMG”解读为“多么搞”。

图片说明:复旦大学数字与移动治理实验室各项设计元素,来源:复旦大学数字与移动治理实验室

人生大抵如此,什么时候选定了专业,什么时候选定了工作,什么时候决定投身新的领域,回头看都是命运的巨变。只是当时站在三岔路口,眼见风云千樯,你作出选择的那一日,在日记上,却相当得普通和平凡。只是一切,早在冥冥之中,做了最好的按排。

就像郑磊在攻读博士时,除了数字治理,他还考虑过比较公共行政。他给两个方向的导师都发了邮件,结果前一个方向的导师很快就回信接受了他;而后一个方向的导师过了好几天才回复,原因是这位老师家里淹了水,电脑打不开了。

2016年,郑磊教过的复旦学生考取了纽约州立大学的博士生,并进入CTG担任研究助理,他在网站的后台发现了郑磊2005年在自我介绍里写下的未来目标:1、博士顺利毕业,2、找到一份教职工作,3、回国创立一个像CTG这样的实验室。

“学生把这段话发回给我的时候,我都也有些热泪盈眶,我自己都已经忘了当初曾经立过这个flag,但潜意识里原来自己一步步地在完成最初的梦想。”郑磊略有感慨地回顾起这些故事。

或许一切,就像他在《开放的数林:政府数据开放的中国故事》一书中所言,他对政府数据开放的兴趣看起来是突然出现的,但其实都有铺垫。

把数据孤岛,连成大陆

郑磊的2019年,依然是与政府数据开放“近身搏斗”、“相互促进”的一年,在不断掌握数据开放最新现状的过程中,他也在开放和保护中,寻找那个平衡点。

“涉及个人隐私、商业秘密、国家安全的数据要严格保护,但能够对社会、民生、经济发展、科学研究带来价值的公共数据,就应该开放。”谈起过去一年,诸如联邦快递、加拿大互联网供应商Altima、亚马逊等互联网企业陷入的数据泄露丑闻,郑磊非常严肃地表明立场。

对于“保护在前,还是开放在前?”的争议问题,郑磊则用书作为例子解释,既要让人能拿去用、用得好,又要监管好、保护好,同时还应确保数据质量:“一本好书如果因为太珍贵太重要,就把它永远锁在图书馆里,无人可读,那这本书还有什么意义?但是如果毫无原则地随意借阅,被人拿去干了坏事,归还时书页满目疮痍,甚至缺损丢失,那这本书也会失去价值。这就是为什么,图书馆会建立管理制度,制定借阅守则,数据开放也是一样。”

至于在推动开放过程中的数据孤岛,郑磊也有自己的洞见:“因为数据本身具有权属,这就决定了它就会形成某种形式的孤岛,不可能全部公有制,否则也就没有人愿意来生成和采集数据了。但我们要做的不是把岛炸掉,而是尽可能地把大大小小的岛屿连接起来,这样才能形成一块坚实的大陆。”

DMG的工作实则也是不断地连接一个个数据孤岛,通过研究、评估、咨询的方式,先让某一些数据,可以开放出来连接起来,让岛屿之间相互连通。而随着商业和数据的深度结合,郑磊也呼吁数据科学家们守住数据采集和使用的底线,这样才能更好地推动一个更健康、开放、可持续的数据生态体系。

图片说明:各地方政府数据开放平台评估指标与权重,来源:复旦大学数字与移动治理实验室《2018中国树林开放指数(下半年)》

眺望政府数据开放的理想国时,郑磊说:“再过3到5年,会达到一个相对更好的状态。但这是一条没有穷尽的路,需要不断往前推进。”如今的政府数据开放虽不像早些年那样闭塞,但也仅是刚刚把瓶盖打开了一个小口,郑磊和团队接下来要做的不仅是要把瓶盖打开,还要让苏打水“冒出气来”,产生实际效果,“不然瓶盖打开,气闷在里面也不行,对吧?”他笑着反问。

一如现在他们正在承担的课题《上海市公共数据开放管理办法》研究,预计2019年会正式通过。“这个领域现在看上去好像不如前两年那么‘热’了,当一个事情很‘热’的时候,他其实还是个新生事物。当你觉得他不那么‘热’的时候,他可能已经润物细无声地走到一个相对冷静的阶段,这反而是一个更好的时期,开始更踏实、认真地推进,”郑磊如是解读这个愚公移山的过程,“政府数据开放没有终点,也许我们可能永远等不到完全准备好的那一天,那就在发展中,边研究,边总结,边完善,边改进吧。”

中国有句古话叫:“种瓜得瓜,种豆得豆”,在此前贵阳数博会的“政府数据开放与创新发展论坛”上,郑磊团队给来自全国各地的现场嘉宾每人发了一颗种子,种子上赫然写着:“开放”、“数据”、“蔚然”、“成林”。

图片说明:郑磊团队在贵阳“政府数据开放与创新发展论坛”上为嘉宾赠送的礼物,来源:复旦大学数字与移动治理实验室

待播种、发芽之后,这几个字就会在植物上显示出来,预示着把开放数据的种子撒向全国各地。我们期待有一天,这些种子能在数据开放工作者的共同耕耘、浇灌下,瓜熟蒂落、绿树成荫。

数据科学50人成员

郑磊,复旦大学国际关系与公共事务学院教授,数字与移动治理实验室主任。获纽约州立大学洛克菲勒公共事务与政策学院公共管理与政策博士学位。受邀担任Government Information Quarterly编委、《公共行政评论》编委、《电子政务》编委、联合国全球电子政府评估专家组成员、国家信息中心数字中国研究院理事会副理事长、上海市网络安全与信息化专家咨询组专家、上海市政务数据资源开放共享推进专家组成员。在政府数据开放与共享、数字治理与电子政务、共享经济发展与治理、政府社会化媒体与移动公共服务等领域主持过多项学术研究与决策咨询课题。

 

关于数据科学50人

“数据科学50人”项目是由第一财经旗下DT财经发起的中国顶尖数据科学从业者的系列专访与社群组织,从数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布。

 

 

 

 

相关推荐