大数据智能分析平台
发布日期:2016-06-24 来源:研发中心

平台概述

    从产品定位上,主要为行业大数据提供处理能力,是一个数据分析挖掘平台。因此,天诚大数据智能分析平台的客户目标定位为具备大数据场景的行业客户。该面向服务的大数据分析平台以区域性智能数据中心及高速互联网为基础设施,以互联网服务体系为架构,以大数据存储、处理、挖掘和交互式可视化分析等关键技术为支撑,通过多样化移动智能终端及移动互联网为用户提供数据存储、管理及分析服务。

    大数据分析平台所采用的技术路线和应用模式融合了智能分析技术、高可扩展计算技术、非结构化数据处理技术和软件即服务(SaaS)应用模式,符合当前国际大数据产业的发展趋势和产业化应用要求。一方面,系统通过互联网服务方式向用户提供高可用、高易用和一站式的海量数据分析服务,可有效降低企业应用门槛和成本,通过专业化服务外包满足企业个性化需求。另一方面,由于是开放架构的系统平台,商业用户和其他软件提供商可通过系统提供的互联网服务开发接口(Open API)开发面向行业商务智能应用的解决方案,孵化新型咨询公司、软件公司和信息服务公司,有助于形成以平台为核心的大数据分析产业生态环境。

平台构架


平台功能

(1)管理子系统:主要包括集群管控、元数据管理、调度管理、数据服务管理、系统管理五个功能模块。

(2)ETL子系统:以元数据驱动的方式提供强大的抽取、转换盒加载(ETL)能力。

(3)计算子系统:以HDFS Federation和YARN为核心,在YARN集成了各种计算组件,包括HBase、Hive、Storm、Kafka等。

(4)服务配置工具:通过可配置式个性化开发,大大降低了平台实施和使用的技术门槛,对平台的大部分二次开发不再需要专业的开发人员,业务人员就可以实现对数据计算的定义、脚本实现并通过定义规则驱动数据计算。

(5)报表和分析工具:包括自定义报表工具和自定义分析工具。

(6)数据服务子系统:对外提供各种数据服务,开放多种数据接口,外部系统/用户可通过服务认证、数据API等方式按权限访问相应的数据。

平台关键技术

 天诚面向服务的大数据分析平台,采用的一系列关键技术(如图所示),主要包括:

1. 平台层

  (1)大数据分布式存储系统:针对数据不断增长的挑战,需要研究大规模、非结构化数据的存储问题,突破大数据的存储、管理和高效访问关键技术,当前需要构建至少 PB 级存储能力的大数据平台才能满足一般的科研和应用需求。

  (2)分布式数据挖掘运行时系统:针对大数据挖掘算法运行的挑战,突破 MapReduce 技术的局限,研究有效支持迭代、递归、层次及集成机制的海量数据挖掘编程模型和运行时系统,构建大数据运行时系统。

  (3)智能数据中心联合调度技术:针对大数据存储和挖掘的挑战,研究多数据中心的智能联合调度、负载均衡技术,整合多个数据中心的存储和计算资源,构建基于多智能中心的大数据服务平台。

2. 功能层

  (1)高可扩展性大数据挖掘算法:针对大数据挖掘的挑战,研究基于云计算的分布式大数据处理与挖掘算法,构建高可扩展的大数据处理与挖掘算法库,实现 TB 级数据的建模能力。

  (2)大数据安全与隐私保护技术:针对数据挖掘“软件即服务”(SaaS)模式的需求,研究开发数据挖掘在云环境下的隐私保护、数据审计和节点数据挖掘技术,确保大数据挖掘过程中的数据安全,保证用户的隐私不被泄露。

  (3)分布式工作流引擎:针对大数据挖掘分布式调度的挑战,研究基于云计算的分布式工作流调度、负载均衡技术,构建高效分布式工作流执行引擎。

  (4)交互式可视化分析技术:针对传统分析方法交互性和可理解性不足的问题,研究启发式、人机交互、可视化数据挖掘新技术,实现大数据挖掘的高度人机交互功能。

3. 服务层

  (1)基于 Web 的大数据挖掘技术:突破传统的基于单机软件的数据挖掘技术,创新基于 Web 的大数据挖掘方法和流程,实现易于使用的基于 Web 的大数据挖掘技术,构建基于 Web 的大数据分析环境。

  (2)基于 Open API 的大数据挖掘技术:突破传统的基于软件的数据挖掘技术,创新基于 Open API 的大数据挖掘方法,研究大数据挖掘开放接口、开放流程,构建基于 Open API 的大数据分析模式。

产品特征

1、高负载和海量数据处理能力 

以云存储为基石,以云计算为处理核心,建立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访问压力,支撑亿级用户及E8级各类数据存储如日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅可以处理日以继夜增长的TB级数据增量,更能满足各类实时业务需求。

2业界领先的实时性 

在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。如传统监控对年、月、周、日的频次统计,我们可以实现24小时内的实时监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户实时行为监测及秒级分析。

3、全面运营监控指标体系 

不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户访问停留时间、访问次数、访问深度、跳出次数等,并对此进行了立体性汇总,如平均停留时间、平均加载时间、跳出率等以便进行全局分析。该平台具备业务所需的自定义业务指标,并可在此基础之上加入客户行为分析、网站访客背景分析、鼠标点击行为等高智能的分析功能,从而为业务发展及运营策略提供了有力的数据支撑。

4、对用户来源的深入挖掘与分析 

通过该平台不仅可以看到接入网站用户的基本信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移动终端等),还可以了解到客户来源(如来源页面、网站、搜索引擎、关键字等)。并且在此基础上可以了解到客户访问路径,对数据进行多维钻取,进而对网站客户数据信息的采集、挖掘更加深入。

5、统一数据接入平台

数据接入层采用分布式日志系统,实现推拉模式的各种主流方式,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还可以实现各类接口数据的无缝可视化接入,如关系型和非关系型数据、各种主流非结构化数据等。

6、立体推荐及算法可替换平台

可以结合用户群体特征、个性行为历史及各种显式、隐式反馈进行人脑分析,实现个体用户和群体用户的立体推荐和全过程的人工干预。 以算法平台为支撑,建立了可视化的算法训练和推荐结构的过滤植入,以增强客户个性化服务配置。实现了各种算法的替换、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽符合人脑思维习惯。

7、多种风格统计分析数据展现方式

对数据统计分析实现人性化的各种浏览器体验,传统风格如线性、柱形、饼状分析图为企业对不同时段网站访问量、网站不同模块的访问量、针对访客的不同分类进行更加直观的分析。创新风格如热力图,更形象、视觉化的体现网站页面不同位置客户点击密度,实时反映出群体用户的兴趣特征,增强运营。

8、可视化强 

统计分析数据以图表,热图等方式体现,方便客户对比判断,在使用时更舒适、方便,提供客户体验度。各种操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性解决了手工代码操作的问题。