一场激烈争吵过后,女朋友终于知道“大数据”

作者:潇冷 来源:原创 2020-12-14

  最近女朋友经常问我一些奇怪的问题。

  比如:明明才刷了一小会某音,怎么一下午过去了?

  在经历“招架不住”、“懵逼”、“吱吱呜呜”、“模棱两可”等一系列心理斗争之后,我还是“不负责任”地回复:做事情投入的女孩最迷人。  

  不过,我也总不能经常以看似高情商实则没有干货的回答来搪塞我心爱之人。

  于是,在恶补了某音的推荐规则之后,理直气壮、胸有成竹地与女朋友展开了辩论,尽管这场辩论以“男友没有丝毫绅士风度”的借口告终。

  其实,导致我女朋友产生近乎痴迷的上瘾行为的始作俑者便是大数据,抖音对海量的数据进行采集、存储、分析之后,再根据独有的算法、规则,做出推荐。因此,任何人在刷某音的时候,会收到平台持续的个性化推荐,进而产生上瘾行为。  

  在接收到“专(wu)业(liao)”的回答之后,女朋友用近乎“崇(bu)拜(xie)”的眼睛看着我:“就算你说的都对,那数据从何而来。”

  她问数据从何而来?

  她竟然问数据从何而来?!

  这俨然大数据小白的问题,让我有了进一步展示我学识渊博、高大伟岸的机会,毕竟胡诌还是会的。

  

  那就从头开始说吧!

  某音在推荐任务中,主要获取两个方面的数据:视频特征、用户特征。其中,对于用户来讲,抖音会记录用户对某个视频的点击、播放、停留、关注、评论、点赞、转发等行为,并根据这些特征进行计算。

  在这里,点击、播放、停留、关注、评论、点赞、转发等行为会形成数据,以此测算用户画像,这就是数据的来源。

  信息时代,任何一个被记录的行为、话语、动作都会形成数据,比如身高、体重、年龄等规则数据,又比如摄像头记录的车辆行驶数据。这些数据经过提取、存储、分析之后,就会形成海量的数据。

  按照Gartner的定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。因此,大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

  诚然,大数据逐渐渗透进零售、教育、金融等诸多行业,诞生了数不胜数的经典案例。至今,这些案例在帮助我们理解大数据概念,扮演者不可或缺的角色。以零售为代表的行业,经常会根据消费者的购物行为进行分析,进行促销活动的推荐。

  大数据战疫

  2020年疫情期间,我国大数据企业相应需求、发布产品,在疫情监测分析、病毒溯源、防控救治、资源调配、复工复产等方面发挥了重要作用。以下将阐述两个“大数据战疫”案例,让大家更好地理解大数据。

  星环科技——疫情大数据服务平台

  面对疫情,星环科技凭借自身大数据技术以及AI能力,面向各级政府以及相关防疫部门研发出疫情大数据平台。平台拥有政府提供、合作单位自有、网络爬取、购买和用户共享的多种数据渠道,同时基于数据治理体系,对平台数据进行数据标准管理、元数据管理等标准化治理。平台通过对高危人员历时/实时轨迹分析,快速定位潜在感染人员,做到早发现、早隔离,防止疫情进一步扩散。

  关键技术:企业级数据仓库和数据集市、多租户PaaS平台、容器操作系统、高性能流处理引擎和分布式数据库等技术。

  主要产品:一站式大数据平台、企业级数据云平台、人工智能建模平台。

  京东物流——应急物资供应链大数据管理平台

  京东物流应急物资大数据管理平台面向政府、医疗机构、应急一线、医疗物资生产企业等用户,利用数据采集、建立数据分析模型、多租户隔离、数据安全等级确定、数据脱敏、数据访问审计等技术,实现需求提报、筹措管理、供需对接、生产监控、物流管理、挑拨分配等应急物资的全流程可视化管理。

  关键技术:日志采集、实时采集、数据实时处理和离线处理、SQL语句查询、Presto、Spark以及hbase+hive等

  主要产品:物资供应链管理平台

  关于“大数据”,确实是仁者见仁智者见智,理解方面更是千差万别 。

  不过,在与女朋友的争论中,还是依靠本人天生的“男友力”征服了她。

  大数据就是大?

  单纯将大数据理解为海量数据或数据量大未免有失偏颇,数据量再大,不去合理利用,数据量再大也没用。之前,做电商零售的朋友曾分享到,他们会提取客户的相关画像,经过分析之后,判定哪些是精准客户,紧接着做一些精准推送或促销政策。这个案例虽然简单,但也是数据的应用,换言之并不是数据越大越好,而精准、有用的数据哪怕再少也有价值。

  所有的数据都是有用的?

  在海量数据的基础上,我们需要对大数据进行提取、存储、分析,而这个过程删减了大量没有任何价值的数据。因此,并不是所有的数据都是有用的,需要我们对这些数据进行一定的处理。  

  在了解大数据定义和相关误区之后,我们再来看某音的大数据规则和工作流程。

  1、实时数据采集:尤其是用户的行为数据,这些数据都是实时的产生

  2、海量数据存储:分布式存储(分布式文件系统),不能简单使用单机来存储,面对庞大的不间断数据,必须实现设计分布式存储与文件系统;

  3、海量数据挖掘:能够离线、实时对数据进行计算,可使用机器学习、深度学习算法完成;

  4、数据可视化:前端渲染工具,实时动态显示数据的指标等;

  发展至今,数据孤岛已经成为桎梏大数据发展的关键因素,也就是各大平台之间数据不流通,使系统推荐性能受到制约,用户画像构建不完善,制约着大数据的精准度。因此,我们需要想办法解决数据孤岛问题,目前行之有效的方法是基于数据中台和基于联邦学习的框架体系。

  数据中台:缓解数据孤岛,将多个平台的数据汇总在一起,并可实现数据复用与共享;但这通常需要多个公司之间满足一定的协议。在数据中台的基础上,实现大数据挖掘和推荐,可以进一步提高收益;

  联邦学习:联邦学习是近两年比较火的概念,其主要解决的就是各大企业之间不愿意公开数据,而使得模型无法充分学习到用户的行为特征的问题。如果利用联邦学习,各个公司的数据无须汇总到一个中心结点,而只需要一定的联邦算法,让模型分布式地进行学习,既可以充分利用各个平台的数据,又可以保证数据的隐私性和安全性。  

  当我苦心孤诣、费尽心血、披肝沥胆地将一切陈述出来之后。

  女朋友回复:“哦”!

  我......

  是不是太直男了?!

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录

企业俱乐部