大数据是什么?
维基百科对大数据的定义,即无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。
大数据呈现出四大特征,即4V:
数据大(Volume),例如Facebook每天在30万台服务器上处理25Tb数据。
时效性要求高(Velocity),例如搜索引擎要求在几分钟内为用户查询新闻。
种类和来源多样化(Variety),除了结构化的数据、半结构化、非结构化的数据大量产生。
价值密度低(Value),以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
驾驭大数据能够改变什么?
2011年3月11日日本大地震发生后仅9分钟,美国国家海洋和大气管理局(NOAA)就发布了详细的海啸预警。NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在各大网站。
电信行业借助社交网络分析,对客户的通话数据进行分析,能够识别出这部分“影响者”。社交分析并不是分析单一用户的通话记录,而是分析各用户所处的社交网络。
全球金融危机带给我们的最大教训就是加强风险的监管力度,如何更好的进行风险管理已经成为银行等金融机构重要的课题。
联想大数据处理解决方案集业界领先的软硬件产品、开源软件,提供稳定、可靠和安全的 海量数据存储、处理和分析平台,帮助用户在数量众多的结构化、非结构化、半结构化数据中挖掘出巨大的商业价值,增强用户洞察发现能力和决策能力。
海量数据存储:VNX、VMAX、Isilon、Atmos、HDFS、LoFS
多种数据类型:结构化数据、半结构化数据、非结构化数据
高速分析/处理:HANA、Greenplum、Hadoop
高可扩展性:无需停机动态扩容
高可用性:自我修复的分布式文件存储系统、数据自动检测和复制
高开放性:SQL2003、HiveQL、OLAP、JDBC/ODBC
联想 HANA 大数据解决方案
SAP HANA概述
HANA特性介绍
高性能实时数据平台
实时,无延迟的业务
开放式软件架构
开放式,特别优化的一体化硬件
最先进的内存计算技术
彻底的创新软件架构
解决传统数据库的性能问题而生
无磁盘I/O,数据全在内存
MPP+内存计算的融合
技术参数说明
内存从单机64GB~250TB集群系统
无限扩展(目前全球最大是100个节点)
性能的线性提升
无共享+内存共享架构
集群,无单节点故障
主流硬件厂商提供的优化一体化设备
基于内存计算的异地灾备方案,瞬间切换
SAP HANA 硬件和软件的一体化设备
SAP HANA 集群架构示意图
内存计算技术的“革新”
SAP HANA-不同应用方式介绍
联想企业私有云存储系统
为什么要使用云存储?
云存储系统市场定位
云存储应用架构示意图-VDI/ECM/企业网盘
联想云存储的发展历程
联想企业私有云存储特性
成功案例(部分节选)
ATMOS云存储解决方案
Atmos主要功能
AtmosGeoDrive: 成型的云存储应用
Atmos 集成的基于数据的其他功能
Atmos 统一管理界面
Greenplum 大数据统一分析平台
Greenplum 是什么?
Greenplum Database Shared-Nothing架构优势
Greenplum Database 大规模并行处理优势
Greenplum Database 动态在线扩容优势
Greenplum HD MapR
Greenplum HD MapR更快的速度
Greenplum HD MapR管理简单
Greenplum HD GPDB & GPHD 并行访问
Greenplum Chorus自我服务的分析架构
Greenplum Chorus主要功能
企业数据云
整合数据源
整合结构化数据和非结构化数据
自我服务的架构
自己创建沙箱数据库
加快数据分析和形成商业方案的进程
协作环境
分析师通力合作,发现和创建见解
共享分析结果,代码和数据
开放和可扩展的平台
Greenplum Chorus 向三类用户提供帮助
数据库架构师和管理员
负责管理数据库和提供数据访问
监控数据流动
数据分析师
负责从数据推导见解
和数据库管理员紧密合作
公司管理层
负责解释投资回报
关注对数据的快速有效分析
Greenplum Chorus与Hadoop
把Hadoop作为一个数据源注册到Chorus中
浏览Hadoop 分布式文件系统 (HDFS)目录
预览HDFS文件
把HDFS文件添加到分析沙箱中
为HDFS文件添加注解
统一的数据分析平台
结构化数据 (数据库表)
非结构化数据 (HDFS文件)