Introduction

云计算与大数据

mindmap

云计算

云计算作为一个虚拟化的计算机资源池,它可以托管多种不同的工作负载,包括成批的后端作业和面向用户的交互式应用程序;通过快速提供虚拟机器或物理机器,迅速部署和增加工作负载;支持冗余、自我恢复且具有高可扩展性的编程模型,以使工作负载能够从多种不可避免的硬件/软件故障中进行恢复;实时监控资源使用情况,在需要时重新平衡资源分配。

按照 NIST(National Institute of Standards and Technology,美国国家标准与技术研究院)的定义的云的标准,云计算并不是在讨论某种特定的云的技术,或者某个厂商提供的产品服务。云的定义更接近于把计算、服务等各种资源变成按需提供的服务,同时提供广泛的网络访问,以及可共享、可度量的后台资源。云更多的是一种服务,虚拟化和容器化只是云底层的技术设施,而本身并没有把它变成一种服务来提供。

  • 硬件系统资源的自动化调度(CloudOS);

  • 应用的并行化和分布化实现业务的自动扩展;

  • 基于初始配置的自动化业务开通和业务部署;

  • 基于前述能力,实现基于 SLA、QoS 等策略的自动化质量保障、故障隔离和故障自愈;

  • 基于大数据智能驱动的系统自动化和自动调优。

云计算本身也在进化,第一代云计算是机房托管;第二代云计算是虚拟化;第三代云计算就是云原生。随着虚拟化技术的成熟和分布式架构的普及,用来部署、管理和运行应用的云平台被越来越多地提及。IaaS、PaaS 和 SaaS 是云计算的三种基本服务类型,分别表示关注硬件基础设施的基础设施即服务、关注软件和中间件平台的平台即服务,以及关注业务应用的软件即服务。

大数据与云计算是相辅相成的,大数据的本质不一定是数据量大,更多的优势在于其数据维度多,我们能够从不同的维度入手推断出不同的结果。

大数据

大数据往往是一种手段,而不是一个目标。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”数据,让一切有迹可循,让一切有源可溯。我们每天都在产生数据,创造大数据和使用大数据,只是,你,仍然浑然不知。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。对海量数据进行存储、计算、分析、挖掘处理需要依赖一系列的大数据技术。然而大数据技术其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前 IT 领域热门流行的技术。

机器数据

机器数据中包含客户、用户、交易、应用程序、服务器、网络和手机设备所有活动和行为的明确记录。不仅仅包含日志。还包括配置、API 中的数据、消息队列、更改事件、诊断命令输出、工业系统呼叫详细信息记录和传感器数据等。计算机数以未知格式的阵列存储,监测和分析工具的传统集并未为多样性、速率、数据量、可变性设计。一个专为此独特类型数据设计的全新方法,必须可以快速诊断服务问题、检测复杂信息安全威胁、远程设备的健康状况和性能,以及说明合规性。

每个环境都有独特的机器数据空间,以下是一些示例。

数据类型

位置

它可以告诉您什么

应用日志

本地日志文件、log4j、log4net、Weblogic、WebSphere、JBoss、.NET、PHP

用户活动、欺诈检测、应用性能

业务流程日志

业务流程管理日志

跨渠道客户活动、购买、帐户变更以及问题报表

呼叫详细信息记录

呼叫详细信息记录 (CDR)、计费数据记录、事件数据记录均由电信和网络交换机所记录。

计费、收入保证、客户保证、合作伙伴结算,营销智能

点击流数据

Web 服务器、路由器、代理服务器和广告服务器

可用性分析、数字市场营销和一般调查

配置文件

系统配置文件

如何设置基础设施、调试故障、后门攻击、”定时炸弹”病毒

数据库审计日志

数据库日志文件、审计表

如何根据时间修改数据库数据以及如何确定修改人

文件系统审计日志

敏感数据存储在共享文件系统中

监测并审计敏感数据读取权限

管理并记录 API

通过 OPSEC Log Export API (OPSEC LEA) 和其他 VMware 和 Citrix 供应商特定 API 的 Checkpoint 防火墙

管理数据和日志事件

消息队列

JMS、RabbitMQ 和 AquaLogic

调试复杂应用中的问题,并作为记录应用架构基础

操作系统度量、状态和诊断命令

通过命令行实用程序(例如 Unix 和 Linux 上的 ps 与 iostat 以及 Windows 上的性能监视器)显示的 CPU、内存利用率和状态信息

故障排除、分析趋势以发现潜在问题并调查安全事件

数据包/流量数据

tcpdump 和 tcpflow 可生成 pcap 或流量数据以及其他有用的数据包级和会话级信息

性能降级、超时、瓶颈或可疑活动可表明网络被入侵或者受到远程攻击

SCADA 数据

监视控制与数据采集 (SCADA)

识别 SCADA 基础结构中的趋势、模式和异常情况,并用于实现客户价值

传感器数据

传感器设备可以根据监测环境条件生成数据,例如气温、声音、压力、功率以及水位

水位监测、机器健康状态监测和智能家居监测

Syslog

路由器、交换机和网络设备上的 Syslog

故障排除、分析、安全审计

Web 访问日志

Web 访问日志会报告 Web 服务器处理的每个请求

Web 市场营销分析报表

Web 代理日志

Web 代理记录用户通过代理发出的每个 Web 请求

监测并调查服务条款以及数据泄露事件

Windows 事件

Windows 应用、安全和系统事件日志

使用业务关键应用、安全信息和使用模式检测问题。

线上数据

DNS 查找和记录,协议级信息,包括标头、内容以及流记录

主动监测应用性能和可用性、最终客户体验、事件调查、网络、威胁检测、监控和合规性

大数据存储与处理

大数据不仅仅意味着庞大的数据量,还意味着数据纬度之多。

数据仓库与数据治理

随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心。服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要。以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍。

由于数据散落在不同的数据库、消息队列、文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题。在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显著影响,通常也是不被允许的。

依赖于 ETL,Data Pipeline 与数据仓库等不同层次的解决方案。