女朋友试图以“数据孤岛”挫败我,直男怎么可能就范?!
自从笔者用独特的“男友力”成功压制住女朋友对“什么是大数据”的好奇心之后,女朋友仿佛没有善罢甘休,并多次以“数据孤岛”、“数据中台”、“联邦学习”等知识点百般刁难于我。
为了掩饰自己不懂装懂的“心虚”,笔者还是很讨巧地回应:
请别用如此简单的问题“打搅我”,没看见我在为你烹饪美食!
别来打搅我了,我在帮小仙女打扫卫生!
嘀嘀嘀......
事实证明,对于不懂装懂的我,解决恐惧最好的方式,就是直面恐惧。
于是,我凿壁偷光、挑灯夜战、废寝忘食、宵衣旰食、寒窗苦读。
终于著成一部秘籍。
传言大海的另一边有一块岛屿,人迹罕至、相对孤立、与世隔绝,我们称之为孤岛。孤岛上的植被、天气、地貌、土壤等重要数据相对孤立,引诱充满好奇心的人们去冒险、去探索。
类似于“世外桃源”,与世隔绝,乃不知有汉,无论魏晋,却又让人心生向往。
如今,孤岛的概念被用在“大数据”之上,衍生出“数据孤岛”的新名词,借以形容“数据之间缺乏关联性,数据库无法兼容”客观情况。并且这个状况广泛存在于企业之中。
企业成立早期,由于人员和业务的精简,一般会采用个别的系统来存储数据,比如销售系统、财务系统。
随着企业业务的发展,企业采用越来越多的系统,比如生产系统、销售系统、采购系统、订单系统、财务系统、人力系统等。
这些企业发展到一定阶段,数据量持续庞大,并存放于多个不同的系统/部门之中,数据各自存储、各自定义。每个系统/部门的数据就像一个个孤岛一样无法和企业内部的其他数据进行连接互动。
这就造成数据孤岛问题。
近期热播的《大秦赋》中,齐、楚、燕、韩、赵、魏、秦等七国彼此之间的主权、领土、经济、文化、社会等数据相对独立,经过征伐、通婚、连横等“打通数据”方略,七国不断融合、连接与互动。
最终,在秦王政的带领下,书同文、车同轨、行同伦、统一度量衡等开放API接口方法,让天下大一统,政治、经济、文化、人口、土地等数据融合!
事实上,数据孤岛分为物理性、逻辑性两种。数据在不同部门独立存储、维护,相互孤立,形成物理上的孤岛。不同部门站在自己的角度对数据理解和定义,使一些相同的数据被赋予了不同的含义,形成逻辑上的孤岛。
假如某电商平台部门之间数据不通,那经常购买母婴用品而不购买电子产品的笔者,对母婴部门来讲是有意义的,对电子产品来讲是没有意义的。
是什么导致信息孤岛的产生?
首先,企业以部门为主的功能型工作,使得每个部门都有业务数据产生,所以各部门之间的数据不能互通。
其次,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统。
最后,缺少企业内信息化建设的战略和标准,如果不能做到信息系统建设的统一,由不同部门,不同公司来建设的话,必须有一个标准能够使得日后的互通比较容易实现。
长远来看,数据孤岛将掣肘企业业务的发展。
为了解决、缓解数据孤岛,或企业内部、或大数据公司都有所尝试,比如开放API接口、建立数据集成框架、联邦学习、数据中台等。
数据集成框架促成各应用系统之间实现数据共享和数据交换,主要包括建设数据接口统一管理系统、梳理现有数据集成情况,将在建的业务系统集成到数据集成框架中。
简言之,数据集成框架是建立一个统一的管理系统,将企业现有业务系统进行集成。
联邦学习主要用在人工智能领域,我们知道,机器学习需要大量的、跨行业的大数据,碍于数据孤岛,机器学习需要精进技能。既然数据不挪动,那就得挪动算法模型。
联邦学习大抵的工作步骤如下:
1.用户A、B、C各自使用粗糙模型进行训练得到参数W。
2.用户A、B、C在本地对算法模型参数W进行加密得到MW。
3.用户A、B、C上传加密模型MW。
4.服务器使用同态加密算法整合加密模型。
5.将更新后的MW下发到用户A、B、C。
6.用户A、B、C使用各自的秘钥解锁更新自己的W,得到更精确的算法模型。
数据没动,但模型更精确了!
数据中台是由阿里提出来的,马云先生曾这样定义数据中台:“企业的发展,往往伴随着业务更多元化,而与此同时企业在积极推进业务数据化,因此越来越多的企业伴随着各个垂直业务的发展,形成了一个个垂直的数据中心,数据中台是为了打通这些数据并且以统一的标准进行建设,以达到技术降本、应用提效、业务赋能的目标”。
目前,数据中台并没有明确的定义,并且数据中台与云、数字化转型联系紧密,因此数据中台被赋予厚望。
当我把一切陈述出来,猛灌两杯水之后。
女朋友冷不丁的来了一句:
数据孤岛就像是咱们俩人,你不说有多少私房钱,我永远不知道。
要不咱们联邦学习一下?
- 微博认证登录
- QQ账号登录
- 微信账号登录
企业俱乐部
Copyright (C) 1997-2020 Chinabyte.com, All Rights Reserved