继云计算之后,大数据又成为业界关注的热点。云计算更多地体现在它的商业模式与服务模式上,而大数据则更关注数据的处理,而这些纷杂的数据则是关系社会、企业乃至个人生活的核心关键,可以说数字时代数据为要。

根据国内企业的应用场景,列维软件一直在不断地努力,以最佳方案满足客户日益增长的各种需求。

那么,什么是大数据呢?

从数据角度看,大数据不是简单的大和多,而是有着4V的特征。简单说就是体量大、样式多、速度快、价值低。

体量大(Volume):最新研究报告,到2020年,全球数据使用量预计暴增44倍,达到35.2ZB。我们说大数据时,一般企业数据量要达到PB级才能称为大数据。

样式多(Variety):除了量大,大数据还包括了结构化数据和非结构化数据,邮件,Word,图片,音频信息,视频信息等各种类型数据,已经不是以往的关系型数据库可以解决的了。

速度快(Velocity):这里说的是数据采集的速度,随着电子商务、移动办公、穿戴设备、物联网、智能小区等等的发展,数据产生的速度已经演进到秒级。企业要求能够实时获取数据,实时进行决策。

价值低(Veracity):指的是价值密度,整个数据的价值是越来越高,但是因为数据量的壮大,数据价值密度也相应降低,无价值数据要占据大部分,企业需要从海量的业务中寻找价值。

从开发人员角度看,大数据和以往的数据库技术、数据仓库技术是不同的,他代表以Hadoop、Spark为首的一系列新技术。这类技术的显著特点是:分布式、内存计算和数据挖掘。

分布式:简单的说,分布式就是将复杂的、费时的任务拆分为多个细小的任务,并行处理。这里的任务就包含了数据采集、数据存储、数据处理。

内存计算:实质上就是CPU直接从内存而非硬盘上读取数据,并对数据进行计算、分析。内存计算非常适合处理海量的数据,以及需要实时获得结果的数据。比如可以将一个企业近十年几乎所有的财务、营销、市场等各方面的数据一次性地保存在内存里,并在此基础上进行数据的分析。

数据挖掘:大数据的核心实际上还应该包括数据挖掘技术,这是一个和统计学联系紧密的技术,粗略的划分为分类、聚类、预测、关联四大类,可从大量的、不完全的、模糊的数据中利用数学方法,提取出潜在的规律或知识。

大数据平台结构

大数据平台包括数据采集、数据存储、数据计算或处理、数据挖掘、数据展现五个层面。

数据采集:需要对于海量数据、实时数据的采集能力,这是数据利用的第一步。

数据存储:对应大数据特点,需要大容量、高容错、高效率的存储能力,这是数据利用的基础。

数据处理:需要强大、廉价、快速的数据处理货计算能力,强大对应大数据的量大、类型多,廉价对应大数据的价值密度低,快速对应大数据的速度快,这是大数据能够发展的关键。

数据挖掘:要能够全角度、多方位的立体分析挖掘数据价值,应用好数据挖掘才能将数据转化为价值,这是数据利用的核心。

数据展现:多途径、直观、丰富的数据展现形式是数据的外在形象,这是数据应用的亮点,是能够得到用户认可的窗口。

企业大数据解决方案

企业大数据解决方案从数据处理流程上分为数据存储层、数据获取层、数据组织层、数据分析层、数据展现层,每一层解决大数据所需的关键难题。

 

数据存储层:

数据存储区在传统oracle的基础上,加入分布式文件系统、分布式列式数据库、内存文件系统、内存数据库、全文搜索等模块。其中,分布式文件系统ceph由于拥有数据分布均衡,并行化度高等特性,所以用于存储非结构化数据;分布式文件系统Hdfs由于拥有极佳的扩展性和兼容性,用于存储其他结构化数据;列式存储数据库hbase主要用于存储特定需求的海量数据,以供运算查询等服务。

数据获取层:

数据获取层即数据采集技术获取数据的技术层,数据采集技术分为实时采集和定时采集,实时采集采用Oracle GoldenGate等工具,实时增量采集数据,保证数据的及时性;定时采集采用SAP Data Services等工具相结合的方式,定时抽取数据,主要用于大批量、非实时性数据。加入kettle、sqoop等分布式ETL工具,丰富多样化数据抽取服务,同时加入整合实时数据的kafka服务,处理大量实时数据。

数据组织层:

数据组织层即对数据进行计算的技术层,采用标准SQL查询、全文搜索、交互分析Spark、实时数据处理Streaming、离线批处理、图计算Graph X等技术,对结构化数据、非结构化数据、实时数据、大批量数据进行数据组织计算处理。

数据分析层:

采用Spark_Mllib、R、Mhout等分析工具,依据模型分析引擎创建模型、算法库。由模型算法库对模型进行训练,生成模型实例,最后依据模型实例进行实时决策及离线决策。

数据展现层:

提供门户展现、数据图表、电子邮件、办公软件等多种数据分析方式,在展现途径上可支持大屏幕、电脑桌面、移动终端等。