大数据基础概念
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时分,大数据时期又来了。”——马云离职演讲
本文尝试从三大产业的角度将大数据的中心商业价值分类议论。
首先例举一些大数据的典型运用,然后注释大数据的定义,最后总结大数据的价值。
我们知道:
第一次工业革命以煤炭为基础,蒸汽机和印刷术为标志,
第二次工业革命以石油为根底,内燃机和电信技术为标志,
第三次工业革命以核能根底,互联网技术为标志,
第四次工业革命以可再生动力为根底,_________为标志。
空白处你会填上什么?欢迎自己议论。但是目前可以预测的是,数据和方式作为互联网的中心,不论是激停止业还是新型行业,谁率先与互联网融合胜利,可以从大数据的金矿中发觉隐藏的规律,就可以抢占先机,成为技术革新的标志。
一、大数据的运用
大数据挖掘商业价值的方法主要分为四种:
客户团体细分,然后为每个团体量定制特地的效力。
模拟梦想环境,挖掘新的需求同时提高投资的报答率。
增强部门联系,提高整条管理链条和产业链条的效率。
降低效力利息,发觉隐藏线索中止产品和效劳的创新。
Mckinsey列出了各个行业运用大数据价值的难易度以及展开潜力。《Big data: The next frontier for innovation, competition, and productivity》
各种Data之间的联系图,留意Open Data是完整包含了Open government data(政府封锁数据)
Mckinsey也列出了Open Data时期里七大行业潜在的经济价值,自上而下区分是教育,运输,消耗品、电力、石油与自然气、医疗护理、消耗金融。(感谢知友安阳提供的补充链接资料)
大数据的类型大致可分为三类:
激进企业数据(Traditional enterprise data):包括 CRM systems的消耗者数据,激进的ERP数据,库存数据以及账目数据等。
机器和传感器数据(Machine-generated /sensor data):包括呼叫记载(Call Detail Records),智能仪表,工业装备传感器,装备日志(一般是Digital exhaust),买卖数据等。
社交数据(Social data):包括用户行为记载,反应数据等。如Twitter,Facebook这样的社交媒体平台。
从实践下去看:一切产业都会从大数据的展开中受益。但由于数据缺少以及从业人员自身的缘由,第一、第二产业的展开速度相关于第三产业来说会缓慢一些。
(2).第二产业
2013年9月,工业和音讯化部公布了《关于印发音讯化和工业化深度融合专项举措计划(2013-2018年)》的通知。清楚提出促进物联网在工业范围的集成创新和使用:
实施物联网展开专项,在重点行业组织展开试点示范,以传感器和传感器网络、RFID、工业大数据的使用为切入点,重点支持消耗进程掌握、消耗环境检测、制造供应链跟踪、远程诊断管理等物联网使用,促进经济效益提升、平安消耗和节能减排。
大数据的业务多是数据驱动型,具有数据量大、种类多、实时性高的特性。工业企业对数据的记载以往看来主要分为两种方法:激进的纸笔和Excel电子表格记载。这些操作起来看似冗杂的数据管理方式为企业消费及质量监控埋下了庞大的隐患,也让数据开掘无从谈起。
随着音讯化与工业化的融合开展,音讯技术浸透到了工业企业产业链的各个环节。例如Sensor、RFID、Barcode、物联网等技术曾经在企业中取得初步应用,工业大数据也末尾逐渐取得积聚。企业中消费线高速运转机遇器所发生的数据量不亚于计算机数据,而且数据类型多是非结构化数据,对数据的实时性央求也更高。因此工业大数据所面临的效果和应战很多,所以通用电气公司(General Electric)的副总裁兼全球技术总监William Ruh以为相关于工业大数据来说,工业互联网(Industrial Internet)才是以后急需的,由于大数据自身并没有让音讯的提取愈加智能,业务比数据自身愈加主要。他举了一个核磁共振成像扫描的例子:
Here’s an example. An MRI scan is the best way to see inside the human body. While effective in helping to diagnose multiple sclerosis, brain tumors, torn ligaments and strokes, the data produced by an MRI machine is disconnected from the person that needs it the most.
At a very simplistic level, there are many individuals working as a team to make the scan happen. A nurse administers medications or contrast agents that may be needed for the examan MRI technologist operates the scannerand a radiologist identifies the imaging sequences to be used and interprets the images. This information is then given to the nurse, who then passes it to the primary doctor to review and take action accordingly. This is Big Data, but it is not making information more intelligent.
又如在工业中,压力、温度等数据的特性是需求语境才干了解的。燃气轮机排气装置上的温度读数与一台机车的外部温度是完整不同的。燃气轮机改善热敷需求使用十分冗杂的算法运转模型。在笔记本电脑上,一个典型的查询要取得答案一般需求三个星期。在基于大数据的散布式系统上公布十分的查询实施一种计算只需求不到一秒钟。
第三方认证机构(TüV NORD GROUP),工业
德国汉德技术监视效劳有限公司的前身是德国锅炉检验协会(简称TüV)早在1869年,德国锅炉检验协会就承当了德国国际一切锅炉运转平安的检验义务,保证了锅炉消费的平安。渐渐的,德国锅炉检验协会获得了德国政府的授权,展开对其他产品的检验义务,从采矿,电力系统末尾,到压力容器,机动车辆,医疗装备,环境维护,宇航工业,医疗产品等等,往常的德国汉德技术监视效劳有限公司曾经成为了许许多多产品的平安代号。主要体系认证包括企业质量管理体系,消费环境体系,生产碳排放计划等。TüV以后从修建绿色规范体系方面提出了关于大数据动力管理的探求,以微软新总部,蒂森克虏伯电梯总部为例,在整个项目实施中引入大数据动力管理,在修建的想象规划阶段、施工阶段、运营阶段等多个阶段经过数据化的动力管理零碎,完成修建的低碳、绿色、智能。
工业自动化软件商(Wonderware ),工业
Wonderware作为系统软件触及的专业企业,关于大数据的计算和使用是从比拟“IT”的角度动身的。Wonderware 的实时数据管理软件可以提供一个工厂所需求的从树立到报废的一真实时数据。目前已经参与移动版本,工程总监在手机上就能够随时随地监控装备的运转状况。目前全球逾越三分之一的工厂应用Wonderware公司的软件处置计划。
了解更多:
大数据在电力行业的应用前景有哪些?
(3).第三产业
这一个局部的方式比拟多。这里只提出一些典型的应用例子,欢迎补充。
安康与医疗:Fitbit? Official Site: Flex, One and Zip Wireless Activity and Sleep Trackers的健身腕带能够搜罗相关我们走路大约慢跑的数据,例如行走步数、卡路里消耗、睡眠时长等数据与安康记载来改善我们的安康状况;Early Detection of Patient Deterioration等公司正在开拓床垫监测传感器,自动监测和记录心脏速率、呼吸速率、活动和睡眠活动。该传感器搜罗的数据以无线方式被发送到智能手机战争板电脑中止进一步剖析;美国公共卫生协会(APHA: American Public Health Association)开拓Flu Near You用来的症状,经过大数据剖析生成演讲显现用户所在地域的流感活动。
视频:互联网电视能够追踪你正在看的形式,看了多长时间,甚至能够识别几人坐在电视机前,来肯定这个频道的流行度。Netflix 美国国际范围最大的商业视频流供应商,搜集的数据包括用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看等。甚至记录用户在哪视频的哪个时间点行进、快进大约暂停,乃至看到哪里直接将视频关掉等信息。典型的应用是Netflix公司应用数听压服BBC重新翻拍了电视连结剧《纸牌屋》,而且胜利的开掘出演员Kevin Spacey和导演David Fincher的支持者与原剧集粉丝的关联性,肯定新剧拍摄的最佳人选。
When the program, a remake of a BBC miniseries, was up for purchase in 2011 with David Fincher and Kevin Spacey attached, the folks at Netflix simply looked at their massive stash of data. Subscribers who watched the original series, they found, were also likely to watch movies directed by David Fincher and enjoy ones that starred Kevin Spacey. Considering the material and the players involved, the company was sure that an audience was out there.
交通:《车来了》经过火析公交车上GPS定位系统每天的位置和时间数据,区分时辰表预测出每一辆公交车的到站时间;WNYC开拓的Transit Time NYC经过开源路途平台(Github:OpenTripPlanner和MTA )获取的数据将纽约郊区分红2930个六边形,模拟出从每一个六边形中点到边缘的时间(地铁和步行,时间是上午九点),最终建模出4290985条虚拟线路。用户只需点击地图或许输上天址就能知道地铁抵达每个位置的时间;实时交通数据采集商INRIX-Traffic的口号是(永不早退!^^),经过记录每位用户行家驶进程中的实时数据例如行驶车速,所在位置等信息并停止数据汇总分析,然后计算出最佳线路,让用户能够避开拥堵。
电子商务:Decide 是一家预测商品价钱并为消费者提出置办时间建议的守业公司,经过抓取亚马逊、百思买、新蛋及全球各大网站上数以十亿计的数据停止分析,最终整合在一个页面中便利消费者对比检查,并且能够预测产品的价钱趋向,辅佐用户肯定商品的最好置办机遇。曾经于2013年被 eBay收买。
政治:奥巴马在总统竞选中使用大数据分析来搜集选民的数据,让他能够专注于对他最感兴味的选民,谷歌实施董事长Eric Schmidt事前向奥巴马的大数据分析团队投资数百万美元并靠拢中心成员成立了Civis Analytics咨询公司,该公司将会将在奥巴马连任竞选中所获得的阅历应用到商业和非营利行业中。(了解更多能够看看MIT technology的文章The Definitive Story of How President Obama Mined Voter Data to Win A Second Term)
金融:ZestFinance | Big Data Underwriting 是由是Google的前任 CIO,Douglas Merrill创立金融数据分析服务提供商,使用机器进修算法和大数据为放款者提供承保方式,旨在为那些团体信誉不良或许满意意激进银行放款资历的团体提供服务。公司使用分析模型对每位信贷央求人的上万条原始信息数据停止分析,只需几秒时间便能够得出逾越十万个行为手段。目前违约率比行业平均水平低 60%左右。另外一个不得不提到的是风险管理先驱者FICO | Predictive Analytics, Big Data Analytics and FICO Credit Scores,通过大数据分析为银行和信誉卡发卡机构、安全、医疗保健、政府和批发行业提供服务。FICO 信誉分计算的基本思想是:把借款人过去的信誉历史资料与数据库中的局部借款人的信誉习气相比拟,检查借款人的开展趋向跟经常违约、随意透支、甚至央求破产等各种堕入财务困境的借款人的发展趋向能否相似。FICO 已经为三分之二的世界 100 强银行提供服务,提高了客户忠实度和盈利率、增加狡诈丧失、管理信贷风险、满意监管与协作央求并快速获取市场份额。想理解更多的企业可以看看附录中《经济学人》的文章《Big data: Crunching the numbers》。
电信: 美国T-mobiles采用Informatica – The Data Integration Company平台展开大数据任务,通过集成数据分析分析客户丧失的缘由,依据分析结果优化网络布局为客户提供了更好的体验,在一个季度内将丧失率减半;韩国 SK telecom新成立一家公司SK Planet,通过大数据分析用户的使用行为,在用户做出决议之前推出契合用户兴味的业务防止用户丧失。美国ATT 公司将记录用户在Wifi网络中的天文地位、网络阅读历史记录以及使用的应用等数据出售给广告客户。比如当用户距离商家很近时,就有能够收到该商家提供的折扣很大的电子优惠券。英国BT – Broadband公司公布了新的安全数据分析服务Assure Analytics—BT news releases,辅佐企业搜集、管理和评价大数据集,将这些数据通过可视化的方式出现给企业,辅佐企业改良决策。
一般来说盈利实质的商业公司和企业都不会随意保守自己的数据、建模方法和分析进程,所以还有很多自己不知道的微妙应用潜伏在昏暗里,似乎《三体》中的”昏暗森林规律“。
宇宙就是一座昏暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,悄然拨开挡路的树枝,竭力不让脚步收回一点儿声响,连呼吸都必需战战兢兢:他必需注意,由于林中周围都有与他一样潜行的猎人,假定他觉察了别的生命,能做的只需一件事:开枪消灭之。在这片森林中,他人就是天堂,就是永世的威胁,任何流露自己具有的生命都将很快被消灭,这就是宇宙文明的图景,这就是对费米悖论的注释。
二、大数据的定义
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜寻、共享、分析和处置的海量的、冗杂的数据集合。”业界一般用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
数据体量庞大(Volume)。截至目前,人类生产的一切印刷材料的数据量是200PB,而历史上全人类说过的一切的话的数据量大约是5EB(1EB=210PB)。
数据类型繁多(Variety)。相关于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、天文位置信息等,这些多类型的数据对数据的处置才干提出了更高恳求。
价值密度低(Value)。价值密度的上下与数据总量的大小成正比。如何通过弱小的机器算法更快速地完成数据的价值“提纯”成为目前大数据背景下亟待处置的难题。
处置速度快(Velocity)。大数据区分于传统数据开掘的最清楚特征。依据IDC的“数字宇宙”的演讲,估量到2020年,全球数据使用量将抵达35.2ZB。
看看专家们怎样说。
舍恩伯格,大数据时期 (豆瓣)
不是随机样本,而是局部数据;不是准确性,而是混杂性;不是因果联系,而是相关联络。
埃里克·西格尔,大数据预测 (豆瓣)
大数据时期下的核心,预测分析已在商业和社会中获得普遍应用。随着越来越多的数据被记录和收拾,未来预测分析肯定会成为所有范畴的关键技术。
城田真琴,大数据的冲击 (豆瓣)
从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出一般处理范畴和大小、唆使用户采用非传统处理方法的数据集。
三、大数据的价值
理解了大数据的典型应用,理解了大数据的定义。这时置信在每团体的心中,关于大数据的价值都有了自己的答案。
2010年《Science》上刊登了一篇文章指出,固然人们的出行的方式有很大不同,但我们大少数人十分是可以预测的。这意味着我们能够依据个人之前的行为轨迹预测他或许她未来行迹的能够性,即93%的人类行为可预测。
Limits of Predictability in Human Mobility
A range of applications, from predicting the spread of human and electronic viruses to city planning and resource management in mobile communications, depend on our ability to foresee the whereabouts and mobility of individuals, raising a fundamental question: To what degree is human behavior predictable? Here we explore the limits of predictability in human dynamics by studying the mobility patterns of anonymized mobile phone users. By measuring the entropy of each individual’s trajectory, we find a 93% potential predictability in user mobility across the whole user base. Despite the significant differences in the travel patterns, we find a remarkable lack of variability in predictability, which is largely independent of the distance users cover on a regular basis.
而大数定理通知我们,在实验不变的条件下,重复实验屡次,随机事情的频次近似于它概率。“有规律的随机事情”在少量重复出现的条件下,经常出现简直肯定的统计特性。
举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上原本是偶然的,但当我们上抛硬币的次数足够多后,到达上万次甚至几十万几百万次当前,我们就会觉察,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种肯定。
随着计算机的处理才干的日益弱小,你能获得的数据量越大,你能开掘到的价值就越多。
实验的不时重复、大数据的日渐积聚让人类发现规律,预测未来不再是科幻电影里的读心术。
假定银行能及时地了解风险,我们的经济将更加弱小。
假设政府能够降低狡诈开支,我们的税收将愈加合理。
假设医院能够更早发现疾病,我们的身体将愈加安康。
如果电信公司能够降低利息,我们的话费将愈加廉价。
如果交通静态天气能够掌握,我们的出行将愈加便利。
如果商场能够静态调整库存,我们的商品将更加实惠。
最终,我们都将从大数据分析中获益。
四、终了语。
Here’s the thing about the future.关于未来有一个主要的特征
Every time you look at it,每一次你看到了未来
it changes because you looked at it.它会跟着发生改动 由于你看到了它
And that changes everything else.然后其它事也跟着一同改动了
数据自身不发生价值,如何分析和应用大数据对业务发生辅佐才是关键。
祝每一个DMer都发掘到金矿和快乐:)
电影《战国》由凭《网络时代的爱情》摘得金鸡百花影展新人王的导演金琛执导。孙红雷在片中扮演大将军孙膑,与吴镇宇扮演的庞涓斗智斗勇。此外,将军田夕(景甜饰)与庞妃(金喜善饰)两大美女的退让是另外一条线索,二人也将手握长剑上战场杀敌,成为本片的另一个看点。影片将在2011年4月12日上映。
中文名: 战国
外文名: The Warring State
出品时间: 2011年
出品公司: 星光绚烂影视公司
制片地域: 中国
导演: 金琛
编剧: 申捷
制片人: 路征、孙杰
主演: 孙红雷、吴镇宇、景甜、金喜善、姜武、金喜善、中井贵一
类型: 时装、历史、举措、战争、爱情
上映时间: 2011年4月12日
摄影指点: 金炯求(韩国)
音乐指点: 心机者(日本)
拍摄利息: 1.5亿群众币
剧情简介
影片剧照(1张)战国时期,七雄争霸。齐将田忌之女田夕率兵与魏军交兵,原以为胜券在握,不料却被半路杀出的孙膑用匪夷所思的计谋打败,手下伤亡繁重。田夕满怀悲愤力擒孙膑,原本想杀了他为齐国将士报恩,谁知求贤若渴的齐王却下令赦免闯下大祸的孙膑。 河洛大会上,孙膑亲身上阵帮齐国赛马,奇才初露之时,偶遇昔日同门师兄庞涓。已经成为魏国大将军的庞涓以三座城池为代价,将孙膑换到魏国。孙膑对师兄一片热忱,原以为可以从此聚会相守,谁知他身怀绝世的兵法却埋下祸根。 庞涓、庞妃、魏王为其针锋相对、一触即发,几大诸侯国也是虎视眈眈。悬疑重重的权利角力之中,一场旷古未有的严酷和平一触即发。而在这一切的面前,一个更可怕的惊天奇谋刚刚显现冰山一角……
幕后花絮
《战国》拍摄现场(4张)◆宏大的制造范围[1] 《战国》投资1.5亿群众币。历史上知名的“田忌赛马”、“桂陵之战”、“马陵道伏击”等典故,都将以新颖的方式呈往常观众面前。拍摄时投入超越2000万兴修各种大场景,拍摄终了后,一直处于冷静的前期制造中,时间将长达7个月,特效镜头超越1000个。 全片将盘绕孙膑和庞涓这两位军事奇才之间的斗智故事展开。田夕与庞涓是两小无猜,其后又遇上改动了她终身的孙膑,三人之间有着一段剪不时理还乱的三角爱情。 ◆云集亚洲众巨星,惨烈大战引热议 投资超越1.5亿群众币的时装和平奇谋大片《战国》,由孙红雷、景甜、金喜善、中井贵一、吴镇宇、姜武等亚洲顶级巨星辨别出演,凭《网络时代的爱情》摘得金鸡百花影展新人王的导演金琛再执导筒,在四月档期内,先入手为强。而在新版预告片中,剧情头绪更加清楚松懈,孙膑、庞涓、田夕间剪不时理还乱的爱情,颇带缠绵忧虑。 片中的“马陵道伏击”可谓是《战国》的重头戏,冷兵器的刀光寒影,偃旗息鼓的和平局面,振聋发聩的人声呼吁,铿锵有力的兵器撞击,抚慰着人的视觉和心思,似乎刀箭与死伤就在周边盘绕,相当身临其境。据片方走漏,恢复古战争局面花销不菲,单是兴修各种场景一项,就投入超越2000万。而《战国》为仔细打造排山倒海的战争局面,前期特效镜头超越了1000个,制造周期更是长达7个月。 ◆美女景甜挑大梁,对决“庞妃”金喜善 《战国》人物手绘图(6张)在《战国》选角初期,女一号的人选暂时悬而未决,而最终花落新人景甜时,顿时掀起绝后热议。固然景甜初出茅庐,却由于在《一个女人的史诗》、《孙子大传》中早与张丰毅、刘烨等演技派演过对手戏,赢得片方喜欢,因此成为一部投资上亿、众星云集的《战国》挑大梁的女一号田夕。片中,景甜除去跟两大影帝演出三角恋纠葛,更手握长剑上战场杀敌,所到之处尸横遍野,并同扮演“庞妃”的韩国美女金喜善有逊色的对手戏。 景甜与金喜善两大美女飚戏,直爽拖延且夺人眼球。一位是身批盔甲的将军田夕,她在乱世中率领军队杀出血路,试图力挽狂澜,还彰显了精致柔情,另一位则是深居后宫的“庞妃”,粗俗知性美女金喜善,往常志愿拿起武器进攻,以“弓箭手”的潇洒姿态示人。而“绝色双娇”对视时的态度也非常拙劣:金喜善表情冗杂,景甜眼神尖锐,气氛非常诡异。她们终究是什么联系?两人面前辨别藏着怎样的隐情?种种谜团令人猎奇不已。而由于预告片依次出场的全是“纯爷们”,两大红颜冷傲对决,除了胜利应战自我,还赋予了精细的柔情。
[db:tags]