暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
实时计算-流数据处理系统简介与简单分析.docx
7
10页
0次
2025-04-19
免费下载
实时计算,流数据处理系统简介与简单分析
发表于 2014-06-12 14:19| 4350 次阅读| 来源 CSDN 博客| 8 条评论| 作者
va_key
大数据 实时计算 流计算
摘要:实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为
两块:数据的实时入库、数据的实时计算。今天这篇文章详细介绍了实时计算,流数据处
理系统简介与简单分析。
编者按:互联网领域的实时计算一般都是针对海量数据进行的,除了像非实时计算的
需求(如计算结果准确)以外,实时计算最重要的一个需求是能够实时响应计算结果,一
般要求为秒级。实时计算的今天,业界都没有一个准确的定义,什么叫实时计算?什么不
是?今天这篇文章详细介绍了实时计算,流数据处理系统简介与简单分析。
以下为作者原文:
一. 实时计算的概念
实时计算一般都是针对海量数据进行的,一般要求为秒级。实时计算主要分为两块:
数据的实时入库、数据的实时计算。
主要应用的场景:
1) 数据源是实时的不间断的,要求用户的响应时间也是实时的(比如对于大型网站
的流式数据:网站的访问 PV/UV、用户访问了什么内容、搜索了什么内容等,实时的数
据计算和分析可以动态实时地刷新用户访问数据,展示网站实时流量的变化情况,分析每
天各小时的流量和用户分布情况)
2) 数据量大且无法或没必要预算,但要求对用户的响应时间是实时的。比如说:
昨天来自每个省份不同性别的访问量分布,昨天来自每个省份不同性别不同年龄不同
职业不同名族的访问量分布。
二. 实时计算的相关技术
主要分为三个阶段(大多是日志流):
数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段
下面具体针对上面三个阶段详细介绍下
1)数据实时采集:
需求:功能上保证可以完整的收集到所有日志数据,为实时应用提供实时数据;响应
时间上要保证实时性、低延迟在 1 秒左右;配置简单,部署容易;系统稳定可靠等。
目前的产品:Facebook ScribeLinkedIn KafkaCloudera Flume,淘
宝开源的 TimeTunnelHadoop Chukwa
等,均可以满足每秒数百 MB 的日志数据
采集和传输需求。他们都是开源项目。
2)数据实时计算
在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并
把结果发送出去。
实时计算目前的主流产品:
1. Yahoo S4S4 是一个通用的、分布式的、可扩展的、分区容错的、可插拔的
流式系统,Yahoo 开发 S4 系统,主要是为了解决:搜索广告的展现、处理用户的点击反
2. Twitter Storm:是一个分布式的、容错的实时计算系统。可用于处理息和
新数据库(流处理),在数据流上进行持续查询,并以流的返回结果到客户持续
计算),并行化一个类似实时查询查询(分布式的 RPC)。
3. Facebook PumaFacebook 使 puma HBase 相结来处理实时数据,
Facebook 发表一篇 HBase/Hadoop 进行实时数据处理的论文
ApacheHadoop Goes Realtime at Facebook),通过一实时性改造让批处理
计算平台也具实时计算的能
of 10
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。