4.1 大数据总体架构
4.1.1 背景概述
从宏观形势来看,大数据在各行各业发挥了越来越重要的作用,已经逐步上升到国家战略层面。国务院于2015年印发《促进大数据发展行动纲要》,明确提出将全面推进我国大数据发展和应用,加快建设数据强国,全国各地陆续成立大数据交易所。同时,各行业也在不断推进数据战略,各大互联网公司期待通过大数据开放策略与更多的传统行业交换数据,拓展新的商业模式。
从企业战略来看,目前IT市场中的传统业务趋于饱和,市场竞争日益加剧,增量客户获取日益困难,存量客户的争夺更趋激烈。为了推进企业的大数据战略,不少大公司纷纷成立数据中心,通过构建企业级的、面向未来的数据中心,以进一步加强企业数据的集中管理,充分发挥数据资源的价值。与之相应,须打造企业级的、面向未来的大数据平台,建立开放、共享的公共数据环境,为公司开展大数据应用提供能力保障。
近年来大数据技术和应用迅猛发展,通过横向扩展,分布式集群部署等方式,大数据架构比传统集中式架构性能更优,在数据平台架构云化重构、实时应用支撑、能力开放等方面发挥出重要作用,原有的技术要求已经不适应发展,迫切需要制定企业级的大数据平台技术要求,以明确大数据平台的技术架构、标准、演进等相关内容。
4.1.2 现状分析
当前各家企业的数据平台和数据管理面临的主要问题有:
① 数据整合不够。具体指数据整合的广度不够,原有数据整合范围主要集中在传统系统中,当跨部门和跨域的分析应用开展时,需要重新整合与清洗更多的跨专业的原始数据。
② 数据标准不足。具体指缺乏企业级数据标准,公司的各个分支、部门之间的数据标准存在不一致,而且因标准更新不及时,难以直接应用到生产;基础数据如主数据、指标等缺乏统一的标准和管控,且因为缺乏标准而引发了更多的数据重复存放、逻辑关系错误、解释口径不一等问题。
③ 数据支撑效率有待提升。随着数据应用不断增多,原来急用先行指导原则下的烟囱式开发模式,导致建立了很多部门级的数据孤岛,数据共享程度低,数据支撑的整体效率偏低。
④ 系统架构亟待优化改进。随着业务需求和数据量的急剧增加,系统性能压力越来越大,扩容成本越来越高,原有的数据体系架构已难以满足需要。
4.1.3 总体目标
企业做大数据规划的总目标可以归结为:基于“集中、开放、云化”原则,按照平台集中建设、应用各自开发的设计思路,打造企业级的大数据平台,有序推进企业的大数据战略。
1.业务目标
大数据平台的业务目标是:
① 全面、客观、真实、及时地反映业务运营情况,为各级领导提供企业经营的决策依据。
② 快速支撑精确管理、精准营销、精细服务、精益运营等各类需求。
③ 实现企业数据和应用的有效共享,降本增效。
④ 建立数据全生命周期的安全保障体系,降低数据泄露的风险。
2.技术目标
大数据平台的技术目标如下:
① 打造面向未来的、高性能、可扩展的互联网化的大数据平台架构体系。
② 建立大数据能力开放体系,采用平台统一建设,数据集中汇聚,能力分级开放,应用百花齐放的部署模式。
③ 建立一体化的数据管控和数据资产运营管理体系,实现企业数据有效治理。
4.1.4 技术架构
1.总体原则
大数据平台技术架构应遵循以下原则:
① 基于数据集中、能力开放、云化架构等原则进行总体架构设计。
② 数据集中实现对各生产系统/平台数据的集中采集、统一处理和统一共享。
③ 能力开放包括数据开放、服务开放和应用开放等三个层面。
④ 云化架构包括数据存储云化、数据采集云化、数据处理云化、数据应用云化等。
2.逻辑框架
企业应当采用开源开放技术,打造互联网化的企业级大数据平台,具备海量数据处理、实时数据处理和非结构化数据处理的能力,且平台能力可以按需扩展,快速部署。企业级大数据平台的核心包括集中的数据处理工场和开放的数据应用社区。数据处理工场实现数据的集中存储、统一处理、统一服务,数据应用社区根据应用场景,建立各种应用专区,通过分工协作,快速响应需求。如图4-1所示为企业级大数据平台框架示意图。
图4-1 企业级大数据平台框架示意图
3.系统框架
如图4-2所示为企业级大数据平台系统框架图,整个企业级大数据平台包括大数据平台采集系统、大数据平台核心处理能力系统、大数据平台基础能力系统、大数据平台数据管理系统、大数据平台安全管理系统、大数据应用六大部分:
图4-2 企业级大数据平台系统框架图
① 大数据平台采集系统,采集来自企业总部、各省级分公司的各类数据源,统一汇聚、稽核校验后分类保存,采集的数据源包括业务平台、专业公司、网关、网元、外部数据等。
② 大数据平台核心处理能力系统,根据统一的规则对采集的原始数据进行加工处理,实现高效、透明化的数据处理转换,形成按照主题域组织的整合层数据和按照客户和企业管理视角组织的中间层数据。
③ 大数据平台基础能力系统,作为大数据平台体系的基础框架,为其上各个系统提供资源分配及管理、系统监控、调度管理、能力开放等服务。
④ 大数据平台数据管理系统,作为大数据平台体系的基础能力,提供大数据平台内的企业数据管控与管理,包括数据标准、指标库、数据质量、主数据和调度监控等。
⑤ 大数据平台安全管理系统,作为大数据平台体系的基础能力,提供大数据平台内的企业数据安全监控与管理,包括数据脱敏、数据加密、数字水印、权限管理和接入管理等。
⑥ 大数据应用,根据应用的需求,基于中间层数据,利用大数据基础能力所构建的各类数据应用,涵盖企业决策运营、业务运营、营销支撑、产品开发等应用。
4.系统边界
如图4-3所示为大数据平台各系统间的边界。
图4-3 企业级大数据平台系统边界图
① 大数据平台采集系统,为安全管理提供日志信息并按要求进行安全防护,根据数据管理的要求进行数据稽核和质量保障处理,为核心处理能力系统提供基础的接口层数据。
② 大数据平台核心处理能力系统,对接口层数据进行加工处理,为安全管理提供日志信息并按要求进行安全防护,根据数据管理的要求进行监控和调度处理。
③ 大数据平台应用系统,基于核心处理能力系统输出的中间层数据,进行业务口径处理、业务指标加工和数据服务调用,为安全管理提供日志信息并按要求进行安全防护,根据数据管理的要求进行质量保障处理。
④ 大数据平台基础能力系统,为其他系统提供二次开发、管理的工具和组件。
5.架构特点
通过对标和借鉴先进互联网公司的大数据平台架构,新构建的企业级大数据平台体系架构,其技术架构可包含如下特点:
① 整体架构采用分层设计,建立灵活、可扩展的框架体系,统一数据汇聚、统一数据处理、应用百花齐放。
② 产品采用开源开放技术,通过模块化、组件化等方式,根据应用场景需求,采用合适的分布式存储、处理、访问等开源组件,提升架构自主掌控和灵活配置能力。
③ 数据模型分层设计,数据模型分接口层、整合层、中间层和应用层,统一部署到大数据平台的各个系统中,实现数据的有效共享。
④ 能力输出采用安全的开放体系,在确保数据安全前提下,建立标准化的数据共享服务目录,根据其他系统应用的实际情况,分别以数据开放、服务开放和应用开放等方式满足各类应用需求。
6.平台定位
企业级大数据平台建设可依据本章提出的技术要求开展实施。而企业内原有的相关平台和系统建设可逐步跟随大数据平台建设的步骤演进。
4.1.5 实施指引
1.实施原则
大数据平台建设的实施应该遵循以下基本原则:
① 统一规划,分步实施。根据统一的大数据平台技术要求,明确总体目标和工作要求,根据部署要求的轻重缓急,分阶段实施。
② 紧密合作,共同推进。建立业务部门、网运部门与IT部门的共同工作体系,以应用促建设,以应用促质量,逐步建立企业级的大数据应用推进体系。
③ 应用导向,务求实效。以应用为导向,从企业的角度出发,根据应用价值高低有序开展大数据应用,创造大数据应用价值。
④ 管理有效,使用安全。在数据采集、存储、处理、应用等环节强化数据安全管理,数据使用须遵循权限最小化原则,确保用户不能访问未授权的数据和应用,执行未授权的操作。
2.大规模部署模式
对于全国性的大规模企业而言,进行大数据平台部署时,各省可保留数据平台以处理本省数据应用,如需使用到全网数据则部署到整个企业的总平台下。企业级大数据平台全面整合企业级系统和省级系统的各类数据源,通过清洗、转换形成分层的数据,支撑企业级的数据应用,同时企业大数据平台提供专区,可以存放和部署省份全网数据应用。省份数据平台接收来自企业大数据平台的整合层、中间层和汇总层数据,并与省内数据关联加工,形成省份处理后的中间层数据,支撑省份和本地网的各种数据应用。如图4-4所示为大规模企业的两级大数据平台部署图。
图4-4 两级大数据平台部署图
3.实施指引
如图4-5所示,根据目前各企业普遍的数据平台现状,以及将来数据平台的目标架构,对大数据平台的演进路径有如下建议:
图4-5 大数据平台演进路径图
① 现状,企业总部和各省的数据平台是烟囱式架构,存在信息孤岛。前端应用、后端应用以及标签应用有各自独立的处理模式,生成各自的接口层、整合层和汇总层,再输出到数据仓库进行汇总处理。
② 过渡期,应用与数据分离的架构。采用统一的整合层把来自前端、后端和大数据的接口数据统一处理,形成中间层、汇总层和应用层数据,分别支撑经营分析应用、前后端应用以及标签应用。
③ 目标态,应用与数据分离的大数据架构通过大数据平台采集系统统一的完成数据采集、清洗和转换,在大数据平台核心处理能力系统完成分层数据加工和处理,支撑各类大数据应用系统。