大数据

从去年开始,总部开始针对大数据的方案提出建议的标准,当时给出的两个选择(主推GCP,另一个选择是AWS)让我们在国内的IT人员很是郁闷,一个半残,一个全封。AWS经历过借用License 的尴尬之后直接卖掉了在光环新网的硬件,而西云的启用更是一拖再拖,GCP作为大数据平台几乎就是完全没法用。。所以后来考察了阿里和青云之后,准备采用青云做公有云的选择吧,公司然后开始了第一个大数据的项目,而我也借着这个机会开始了解这些传的很热的平台和概念。

在国内的公有云平台上,直接在Apps Center里发布大数据这些apps的还真不多,这点青云赶在了前面,考察了一翻,虽然Hadoop是目前大数据平台的鼻祖,但随着大数据技术的发展和细分,几乎在存储,平行计算,实时处理等每个方向都有不同的Stack来细分出针对不同场景的应用群,当然Apache还是依然执牛耳。

大数据的初衷其实是针对人类在过去几十年倚重的关系数据库的弱点和瓶颈而发展的新兴的技术,我个人觉得大数据和关系数据库的关系非常像量子力学和牛顿经典力学的关系,大部分低速低质量(某个量以下的数据)的情况在牛顿经典力学(关系数据库)的情况下都能得到完美的解释,而在近光速的高速大质量(某个量以上的数据)的情况下就需要量子力学(大数据)了,呵呵。。大数据需要解决的就是海量、天量的简单数据最后汇总到人类能够理解的数量和模式的过程。解决的思路也是分而治之,但是不是像数据模型的垂直分解,而是平行分解,例如我一个关系数据库的表放2亿条数据就无法去做正常的index和检索了,但在hadoop的HDFS里,我把2亿条记录分成20个文件,每个里面1千万记录,也许5个文件就一个节点,分成独立的四个节点,而通过资源管理器进行统筹的计算和统计。

大数据在我们公司内部,也是基本上行业公认的分四个步骤,ASAP,就是抓取,存储,分析和展现,数据抓取在IOT和互联网企业内部是一个话题,就是如何抓取高速大量的数据,例如道路的交通信息,车辆各个传感器的工作状态,或者企业生产线的传感器的状态等,这些抓取有比较明显的特征就是高速或者超高速的数据传输,因为点多,频率高,各大厂商里都有解决方案来配合底层工控,IOT协议抓取的工具,这里大数据平行计算的概念也完整的体现了出来,这里包括基于MQTT的EMQ,KAFKA等都可以平行拓展。

存储这块其实跟计算模式息息相关的,因为存储节点如果跟计算节点相对应则在资源管理上会简单一些,在Hadoop是简单实现范例里,基本都是这么安排的,这里还要考虑采用不同的工具,例如Hadoop的MR已经为大家所熟悉,近年来异军突起的Spark更是在平行计算中有冲击MR的潜力,在存储的考虑过程中还要针对数据存取的频次对数据进行分级,简单的分2级,复杂的分3,4级,通常最常用的数据叫做热数据,不怎么常用的叫温数据,非常不常用的叫冷数据,对应的频次是价格,热数据的存储最贵,而冷数据包括AWS的S3,GCP的Cloud Storage,青云的Qingstor等都是冷数据的文件存储系统。

分析其实包括的东西很多,无论是从深度和广度上来说都有很多不同的领域,简单的包括数据清洗,映射,连接,复杂的包括建模,机器学习算法,核心应该是最接近人类思维的建模和机器学习,而其他的大部分都是为这两个步骤做适合的数据准备,这里面涉及的工具非常多,从普通的SQL工具到各种统计算法语言,工具等等,因为这个领域其实是最有价值的部分,而分析结果的有效性和准确性直接决定了整个方案的优劣,而分析的结果可以用于几乎各个方面,包括企业决策,生产优化,市场预测,人工智能等各个领域,所以这块也是最难和最有价值的部分。

展现基本上是把分析的结果通过合理,明晰,简单易懂,快捷的方式展示出来,这里主要涉及的功能是在UI,易用性,可定制化等,目前市场上排在前列的是Tableau和PowerBI等一线厂商的工具,国内也是很多厂商在这块努力,取得了一些成果。

总体来说大数据的服务对象是分析,分析针对的数据量和数据结构、来源决定了采集,存储和计算工具的选取,如何能在纷繁复杂的多种开源平台上选取合适的工具来搭建一整套高效,稳定,健壮的平台,并且保持在合理的费用之内是考察每个高层的IT管理人员以及大数据构架师的功力的关键点,从我个人的角度来说,因为工具的体系的不成熟性,所以这块是个非常有技术含量的考验。

 

 

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.