消息中心
无消息通知

“不安分”的数据“提炼师”| 数据科学50人·贾西贝

贾西贝

· 数据科学50人

张慧芳  2019-01-10

为什么数据科学才有科学后缀,而从未听过物联网科学或者是区块链科学?华傲数据创始人贾西贝在这次专访中提出了一个有意思的观点。他认为数据当然是一门科学。从数据科研到数据创业,贾西贝一直研究数据科学,也在数据科学的分支——数据治理上努力着,“从天上飞到地上走,踏踏实实地杵在地上前行”,他说这就是他的人生。

 | 数据科学是科学问题

“为什么叫数据科学?我觉得这是个挺有意思的问题。”华傲数据创始人贾西贝在接受DT君专访时说。

贾西贝从大学本科到硕士学均在计算机系。“以计算机专业为例,计算机系往往叫计算机科学与技术系,或计算机科学与工程系,反映了计算机的两个本质:科学和技术(工程)”,贾西贝博士说到。

他认为计算机科学和技术的本质很难分清,区块链、云计算、物联网等领域技术属性凸显得多一些,而数据则科学属性凸显得多一些。

“数据科学当然是一门科学。”贾西贝强调到,“其涵盖深层次的系统化理论知识。”

首先,数据科学具有很强的理论性,这是研究数据库时期贾西贝的认知。他认为数据科学在数据管理和数据利用两方面,都有严密的理论基础和科学体系。

在数据管理上,数据库和云计算、移动互联网等相比更具备坚实的理论基础。贾西贝举例说道:“关系数据库是基于1970年‘关系数据库之父’E.F.Codd发明的关系代数而产生的,赋予了数据库数理逻辑、计算理论以及其他科学理论基础,解决了关系数据管理的理论问题。”而目前大家知道的移动互联网更偏应用、云计算更偏商业模式,贾西贝认为数据科学涵盖了更多深层次的理论及科学问题。

(图片说明:“数据库之父”E.F.Codd于1970年发表论文《用于大型共享数据库的关系数据模型》)

贾西贝提到数据库领域中的数据挖掘、KDD(Knowledge Discovery in Database,知识发现)、机器学习以及人工智能等都是在解决数据利用问题,这些方向都有很强的数学基础和理论体系,比如在概率、统计、随机等方面的数学基础,“因此,数据科学当之无谓是科学领域。”

其次,贾西贝提到,数据科学是学术共同体的共识。国际上对数据科学早已有认知,这是一个公认的科学。目前国际、国内已有多所高校成立数据科学学院,并且颁发专业的学位证书,说明学术上数据科学也获得了广泛的认可。

(图片说明:部分开设数据科学与大数据技术的高校 数据来源:教育部)

但贾西贝也提到目前想要了解数据科学必须要研究明白四件事:数据的生产和产生、数据的管理和治理、数据的应用和利用以及数据的存储和加工。“从这四个方向上建立相对完备的理论体系,这恐怕是数据科学要解决的事情。”

|数据的价值

贾西贝的学生时代,数据科学还没有被普遍提及,但数据一直是学术界和商界的关注。

大学到硕士期间都是学习计算机应用的贾西贝和数据的交集主要在多媒体数据,特别是视频和图像数据,虽然不是经典的数据科学,但是也和数据结下了不小的缘分。

“我是1999年进的北大,当时还不讲数据科学。”贾西贝说,那个时候数据的名称很有意思,“一个时代一个名称。”数据从80年代的超大数据集(VLDB)变成90年代的海量数据(Massive Data),又变成2000年后的大数据(Big Data)。“数据量越来越大,但是形容词却越来越小。”不过那个年代,数据常被看做是一种技术,现在看来,数据不仅是一种技术,更是一种资源。

提到数据资源,贾西贝的话匣子也就开得更大了。

他从三个关键词来诠释数据领域:数据科学、数据治理以及数据资源。

贾西贝很笃定地说,“数据首先具有资源属性。”他认为,如果说区块链解决了生产关系的问题,云计算和人工智能解决了生产力的问题,那么数据则是在解决生产资料的问题,是未来社会的生产要素,相当于农业社会的“土地资源”和工业社会的“石油资源”。

2011年麦肯锡发布《大数据:创新、竞争和生产力的下一个前沿》报告,指出数据已经渗透到每个行业和商业功能之中,是生产的重要因素,和资本、劳动力并列第三生产要素。

赫拉利在《人类简史》中讲述了人类的进化过程,人从采集社会进化到农业社会,是对土地的利用让人类有了第一次飞跃,而人类史上第二次飞跃即进入工业社会的标志则是因为利用了石油等能源,土地资源、石油资源都是使人类社会产生“巨变”的生产资料。“现在,数据就是和土地、石油一样重要的生产资料。”贾西贝说到。以现在的新兴产业来说,比如人工智能就需要大量的训练数据集,“如果汽车‘吃’的是石油,那么人工智能‘吃’的就是数据。”这其中,数据是基础,资源属性显而易见。

(图片说明:尤瓦尔·赫拉利代表作《人类简史》)

2015年,党的十八届五中全会公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大数据战略正式上升为国家战略,明确提到把数据“作为基础性战略资源”。贾西贝分析道:“这说明国家对数据的生产资料属性有充分的认知。”合肥、杭州等城市还纷纷成立了数据资源局。 

在贾西贝上大学和研究生时,人工智能和数据科学都不是明星学科,尤其是人工智能刚刚经历过挫折期,而数据科学的发展也主要表现在数据库上。“90年代数据库研究的两大方向是推理数据库(deductive database)以及面向对象数据库(object-oriented database),其中前者是数据库与人工智能的结合,后者是数据库与面向对象编程思想的结合,2000年之后则是数据库和互联网的结合,也就是半结构化数据(XML数据库)。”XML数据库是贾西贝英国读博时的第一个研究方向,这之后,贾西贝的研究兴趣就转到了研究界还要去进攻的未知领域——数据质量,也就是贾西贝的主要研究方向以及现在为之“奔波”的目标。

在全球庞大的数据量背景下,如何体现数据资源的真正价值成了学术界和商业界共同的思量。贾西贝认为从拥有数据资源到发挥价值之间有一道鸿沟,而连接这道鸿沟的桥梁正是数据质量,有时候也叫数据治理,是数据科学的一个分支。以往的报道中都称贾西贝及其团队是中国的“数据精炼师”,“为大数据打开水龙头”等,贾西贝解释道:“数据就像石油,我们需要有个石油提炼厂,而我们就是建数据炼油厂的人。”数据治理让数据成了一种可用、有价值的资源。

当然,关于数据,有个不得不提起的问题是数据隐私。大众近年来对于数据的认知越发成熟,也意识到数据隐私正在成为大部分人的困扰,尤其是精准营销带来的数据泄露让大众叫苦不迭。贾西贝对于数据隐私保护上态度非常“强硬”。“中国数据立法刻不容缓。”对此,贾西贝非常严肃。

欧盟前后花了六年时间才让一般数据保护条例(GDPR)正式生效,贾西贝认为中国目前走得快的话也需要3-5年时间。但是数据隐私立法是件非常严肃的事情,目前来看,困难点主要在这是一件比较新的事情,贾西贝分析说,有一些数据的利用方式还没有充分展现,这个时候如果立法过于严苛,容易抑制产业的发展,如果立法过于松,也给违法犯罪行为“留了空子可钻”。

|“从天上到地上”的创业之路

贾西贝2011年回国选择走上创业之路,创办华傲数据至今已有八年时间。这八年,有过痛苦的阶段,但是对于贾西贝来说,这是他想要追寻的梦想,“想做就去做、化理想为行动”是他的人生信条,他称自己的创业是“从天上到地上”的过程,听上去他很享受这次经历。

(图片说明:贾西贝博士接受数据侠采访 DT君/摄)

数据治理彼时在国内并不被人熟知,研究的人也很少,在英国从事数据治理研究的贾西贝看准了数据的价值,凭借着之前在国内短暂的研究,毅然决然选择回国创业。你如果问贾西贝在干什么,没有啰嗦和大篇幅的介绍,“我们在做数据治理。”贾西贝的回答必然是干脆利落的。“专业专注,聚焦打透”八个字是贾西贝创业的坚守,也是公司200人的“信念”。

这注定是一次“不安分”的决定。不过“不安分”也似乎成了贾西贝的“代名词”。从放弃保送吉林大学本硕博连读的机会,而选择报考大连理工大学计算机科学与工程专业,到放弃保研大连理工,努力申请到北大读研,再到此后去英国的求学之路,都在彰显着他的“不安分”。贾西贝说:“我是个把梦想付诸实践的人。”

数据治理就是贾西贝现在的“梦想”。2000年以前,数据治理还没有系统的理论,那时工业界更多的是靠工匠精神,通过一些已有的经验去做,2000-2010年这十年间才真正形成了系统的具有严密理论基础的数据治理。但是以前国内对于数据质量这门学科不甚重视,尤其是企业更多的看中数据的应用,比如目前较最成熟的精准营销。

贾西贝分析说,数据治理当时在国内的问题主要是本身不创造价值,而且这属于数据中台,贾西贝称之为“下水道”,是大数据看不见的“良心工程”。“我们做的是疏通下水道的事情,将数据梳理清楚之后,把数据资源通过提炼后传送到各个地方,进而发挥数据价值。”

贾西贝在创业的过程中发现对数据治理的需求最强烈、最紧迫的其实是政府。工信部2016年印发《大数据产业发展规划(2016-2020年)》,强调“政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源”;再次强调“数据是国家基础性战略资源,是21世纪的‘钻石矿’”。

贾西贝说:“由此可见,第一数据金矿在政府,第二数据金矿是互联网,第三数据金矿是大型企业集团,可惜,政府部门的数据价值远远没有发挥出来。”

(图片说明:国家关于大数据发展规划的部分文件)

贾西贝称数据治理对于政府来说是“雪中送炭”的事情。政府的数据体量过于庞大,地理和层级分布过于分散。以区县为例,一个区县里一般有40-60个部门,而中国差不多有3000个区县,那么中国区县一级的部门大概有12万个,如果每个部门有10个业务系统,那总共约有120万个业务系统,也就是120万个数据库。就全国来说,仅在区县一级,要融合的数据库规模就是百万级的。

“由于政府是科层制的,其各级别的信息化建设无法像企业那样,由一个全国统一的IT部门统筹建设和运营,只能是各级别、各部门和各业务分头建设、自主演化、独立运营。”这使得跨系统数据治理成为一项最先需要开展的、必不可少的工作。

“政府的数据相当于海水,得淡化之后才能喝。”如果没有数据治理这一步骤,数据冗杂且不开放,“证明我爸是我爸”、“证明自己的性别”等无奈的事情还会继续困扰老百姓。

政府才应该是数据治理的首要服务对象,贾西贝在创业几年之后才发现这个道理。于是,贾西贝及其团队做了这些事:

  • 建数据输油管道,通过数据的共享交换平台解决数据互联互通问题,为大数据打开“水龙头”,将碎片化的数据库连接起来。
  • 建数据炼油厂(快加工的数据工厂)。采用自动化+流水线的模式,快速融合每一个市民的数据,形成包含城市中每一个实有人口和历史人口的城市级人口基础数据资源库,并提炼出跨部门、跨系统、跨业务等城市数据资源基础库和主题库,以此解决“证明我爸是我爸”这类民生问题。同样地,数据炼油厂还要融合提炼出跨部门、跨感知终端的法人库、房屋库、证照库、诚信库等城市数据资源基础库和主题库。
  • 建数据过滤厂(慢加工的数据工厂)。就像污水处理厂一样,层层过滤数据中的冲突、错误和安全漏洞,从源头抓起预防数据库多源异构、分散自主建设引起的格式、模型、标准不统一导致的数据碎片化问题。

国家层面上习主席曾两次强调指出“推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务”,指出“要加强国际数据治理政策储备和治理规则研究,提出中国方案”。这“三融五跨”已经成为当前我国数字中国建设和国家数据治理的指导思想。“三融五跨”思想和省、地市、区县的大规模“五跨”数据资源库建设实践之间,需要一个方法论做桥梁,也就是贾西贝团队总结出来的GLDM(Government Logical Data Model)方法论。

回国的这八年里,贾西贝从一开始想做一款基础性通用产品到找到自己的真正数据服务道路,他正在努力把数据治理做到极致。从最初的技术和产品为主,到之后的业务和服务为主,再到现在的以技术+业务、产品+服务为主,贾西贝逐渐探索出了一条融汇对技术、业务、数据的理解、精通和运用的公司发展“三融”模式。他在公司里经常讲的是“一万次原理”,即真正把一扇门敲开往往需要敲一万次,不过他也谦虚道:“在数据治理这道门上,我们目前可能还没敲到9000次。”

从一名研究者转换为创业者,贾西贝说自己最大的感受就是“操心”,因为是第一次创业,总会有痛苦的时候,但是他这样形容自己的创业:从天上到地上。“我觉得如果不创业的话,我会一直待在学术的象牙塔里,就像在天上飞的感觉,自由飞翔不带走一片云彩,创业的过程让我感觉从天上跳到地上来了,脚踩着实地,杵到地上干活,深一脚浅一脚,让大地上留下我走过的脚印,让我深入社会,更深刻地理解人性,这给了我更多的人生经历和感悟。”贾西贝说这话时,神态自然而放松,对于大多人都认为痛苦不堪的创业,他此刻看上去却显得很幸福,因为这是他喜欢做的事情。

“评价下你的性格吧。”采访的最后,DT君问道。

“我的性格就是这样,不屈不挠,不断把梦想付诸实践。人生一百年里,这也是一种精彩吧。”

| 数据科学50人成员

贾西贝,国家特聘专家,科技部“创新人才推进计划”科技创新创业人才,工信部新兴产业百人会成员,曾任英国爱丁堡皇家学会(即苏格兰科学院)Enterprise Fellow。现任华傲数据技术有限公司董事长、沈阳市大数据运营有限公司首席科学家、国家公共大数据重点实验室副主任、哈尔滨工程大学、深圳大学兼职教授、(电子学会)中国大数据专家委员会委员、深圳市大数据促进会副会长、深圳市高层次人才联谊会副会长。已在大数据领域申报了173项中国发明专利,51项国际专利(PCT)。曾获IEEE国际数据工程大会(ICDE)最佳论文奖,3次在国际顶级数据库综合大会VLDB上演示创新大数据系统,多项技术应用于知名跨国公司。

数据科学50人

数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。

 

加入数据侠

数据侠计划是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。申请入群请添加微信公号dtcaijing003并备注“数据社群”,合作请联系datahero@dtcj.com。

 

相关推荐