现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。网络信息处软件部一直以信息化建设校园为宗旨,以紧跟技术潮流为目标,本周学习理解了大数据有关知识,现分享给大家。
2009年,在大数据这一概念并不是太火的时候,IBM就提出了大数据的四个特征:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。大量产生的数据,需要进行高速的处理。除了结构化的数据外,还有诸如文本、语音、社交网络这样的非结构化数据。数据越来越多,总体价值越来越大,但单位数据的价值其实在下降,价值密度在缩小。
大数据不仅仅是种技术挑战和解决方案,还是一种能力和结果。它是当今社会独有的新型能力,以一种前所未有的方式,通过数据分析,取得有巨大价值的产品服务乃至商业生活范式。
我们现在已经站在大数据时代的门口,推动我们走到这一步的,有三大力量。
第一,数据总量的爆炸性增长。全世界数据总量已经达到了20ZB。在这样一个时代里,我们很多时候是迷失的。亚马逊销售的图书,连看一遍销售名单都很难,更别说精心的进行选择了。它带了第一个挑战:信息过载。普通人可获取的数据的爆炸性增长,与分辨甄别数据能力之间的矛盾。为了解决这个矛盾,出现了许多新型的商业模式,比如精准广告或推荐引擎。
第二,数据形态发生了巨大变化。之前接触的数据,基本都是可以通过Excel进行处理的结构性数据,但非结构化的数据飞速增长。到2018年,90%的新数据都是非结构化的,这些非结构化数据里蕴藏着巨大的价值。以手机为例,仅仅通过手机GPS记录,就能得出大量数据。比如大部分运动轨迹在大学宿舍和教学楼间,那可以推测你的身份是学生,银行如果知道了这些数据,在你去申请贷款或信用卡时,就可能给你较少的授信,因为学生的支付能力比较差。如果经常出没在高端商场酒店,就可能给你较高的授信。还可以推断你的职业,如果经常出现在某一机构部门,那很有可能就是这个机构的工作人员。这样,小到个人隐私,大到国家机密,通过轨迹数据都能被掌握。诸如百度地图、高德地图、微博微信、王者荣耀这样的装机量巨大的app,在安装时都会向你要求定位权限,都能够掌握你的轨迹数据。这便是第二个比较大的变化,同时带来了一个挑战:如何在安全隐私可控的前提下挖掘非结构化数据的价值。
第三,数据的组织形式发生了巨大变化。以前的数据都是一个个的孤岛,淘宝知道我买过什么,微信知道我的社交关系是怎样的,但之间数据是不共享的。现在通过一些商业的行为,将数据库间打通,产生全新的价值。这便是我们面临的第三个挑战:如何进行跨领域数据结合,将1+1发挥出远大于2的价值。
如果有一天,我们真正进入了大数据时代,那至少有三大表征。第一,数据的外部化。数据将流动起来,不止在产生它本身的地方发挥价值,还能在更多地方也产生作用。第二,人工智能。我们要用人工智能机器的关键技术,比如数据挖掘和机器学习,得出简单分析不能得到的深刻洞见,再用来指导决策。第三,价值。产生的大量数据,首先需要成本来存储分析,现在可能花100元成本才能产生不到30元的价值,当百元成本产生的价值达到两百甚至更多时,这时候才能说进入了一个大数据时代。而大数据时代的来临,一切真相将会展现在大家面前。