• 走进墨玉—天山网专题报道 2019-04-19
  • 木垒积极打造农家生活体验区 2019-04-03
  • 安徽省高校公共体艺教育推行俱乐部制 2019-03-26
  • 女性之声——全国妇联 2019-03-23
  • 险!小孩头卡防盗栏 民警爬窗外托举 成功解救 2019-03-23
  • 中国侨联直属机关党委举办党务干部培训班 2019-03-21
  • 雷佳音曾担任佟丽娅婚礼司仪 原因竟是不用随红包 2019-03-17
  • 电商扶贫,山“疙瘩”成“金蛋蛋” 2019-03-17
  • 湖州师院志愿者:携手弱势群体共谱青春乐章 2019-03-14
  • 阳泉计划今年在全省率先整体脱贫 2019-03-13
  • 货币政策取向仍以国内为主 2019-03-13
  • 中华人民共和国防震减灾法 2019-02-22
  • 的神话少了没人相信我,继续,希望你造出更多的神话来 2019-02-22
  • 七彩人生、林氏木业等品牌产品抽检不合格 2019-02-06
  • 阳泉消防开展冬训“集团化”练兵 2019-02-06
  • 阅读更多

    4顶
    0踩

    企业架构

    转载新闻 常用的几种大数据架构剖析

    2018-04-12 10:37 by 副主编 jihong10102006 评论(0) 有32243人浏览
    数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:

    可以看到在BI系统里面,核心的??槭荂ube,Cube是一个更高层的业务模型抽象,在Cube之上可以进行多种操作,例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库,关系型数据库使用SQL语句进行操作,但是SQL在多维操作和分析的表示能力上相对较弱,所以Cube有自己独有的查询语言MDX,MDX表达式具有更强的多维表现能力,所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山,大多数的数据库服务厂商直接提供了BI套装软件服务,轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来:
    • BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主,对于非结构化和半结构化数据的处理非常乏力,例如图片,文本,音频的存储,分析。
    • 由于数据仓库为结构化存储,在数据从其他系统进入数据仓库这个东西,我们通常叫做ETL过程,ETL动作和业务进行了强绑定,通常需要一个专门的ETL团队去和业务做衔接,决定如何进行数据的清洗和转换。
    • 随着异构数据源的增加,例如如果存在视频,文本,图片等数据源,要解析数据内容进入数据仓库,则需要非常复杂等ETL程序,从而导致ETL变得过于庞大和臃肿。
    • 当数据量过大的时候,性能会成为瓶颈,在TB/PB级别的数据量上表现出明显的吃力。
    • 数据库的范式等约束规则,着力于解决数据冗余的问题,是为了保障数据的一致性,但是对于数据仓库来说,我们并不需要对数据做修改和一致性的保障,原则上来说数据仓库的原始数据都是只读的,所以这些约束反而会成为影响性能的因素。
    • ETL动作对数据的预先假设和处理,导致机器学习部分获取到的数据为假设后的数据,因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘,则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据,否则无法结构化入库,然而大多数情况是需要基于异构数据才能提取出特征。
    在一系列的问题下,以Hadoop体系为首的大数据分析平台逐渐表现出优异性,围绕Hadoop体系的生态圈也不断的变大,对于Hadoop系统来说,从根本上解决了传统数据仓库的瓶颈的问题,但是也带来一系列的问题:
    • 从数据仓库升级到大数据架构,是不具备平滑演进的,基本等于推翻重做。
    • 大数据下的分布式存储强调数据的只读性质,所以类似于Hive,HDFS这些存储方式都不支持update,HDFS的write操作也不支持并行,这些特性导致其具有一定的局限性。
    基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈:
    • 分布式计算:分布式计算的思路是让多个节点并行计算,并且强调数据本地性,尽可能的减少数据的传输,例如Spark通过RDD的形式来表现数据的计算逻辑,可以在RDD上做一系列的优化,来减少数据的传输。
    • 分布式存储:所谓的分布式存储,指的是将一个大文件拆成N份,每一份独立的放到一台机器上,这里就涉及到文件的副本,分片,以及管理等操作,分布式存储主要优化的动作都在这一块。
    • 检索和存储的结合:在早期的大数据组件中,存储和计算相对比较单一,但是目前更多的方向是在存储上做更多的手脚,让查询和计算更加高效,对于计算来说高效不外乎就是查找数据快,读取数据快,所以目前的存储不单单的存储数据内容,同时会添加很多元信息,例如索引信息。像类似于parquet和carbondata都是这样的思想。
    总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

    传统大数据架构

    ?之所以叫传统大数据架构,是因为其定位是为了解决传统BI的问题,简单来说,数据分析的业务没有发生任何变化,但是因为数据量、性能等问题导致系统无法正常使用,需要进行升级改造,那么此类架构便是为了解决这个问题??梢钥吹?,其依然保留了ETL的动作,将数据经过ETL动作进入数据存储。

    优点:简单,易懂,对于BI系统来说,基本思想没有发生变化,变化的仅仅是技术选型,用大数据架构替换掉BI的组件。

    缺点:对于大数据来说,没有BI下如此完备的Cube架构,虽然目前有kylin,但是kylin的局限性非常明显,远远没有BI下的Cube的灵活度和稳定度,因此对业务支撑的灵活度不够,所以对于存在大量报表,或者复杂的钻取的场景,需要太多的手工定制化,同时该架构依旧以批处理为主,缺乏实时的支撑。

    适用场景:数据分析需求依旧以BI场景为主,但是因为数据量、性能等问题无法满足日常使用。

    流式架构

    在传统大数据架构的基础上,流式架构非常激进,直接拔掉了批处理,数据全程以流的形式处理,所以在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者。虽然有一个存储部分,但是该存储更多的以窗口的形式进行存储,所以该存储并非发生在数据湖,而是在外围系统。

    优点:没有臃肿的ETL过程,数据的实效性非常高。

    缺点:对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

    适用场景:预警,监控,对数据有有效期要求的情况。

    Lambda架构

    Lambda架构算是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支:实时流和离线。实时流依照流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考,而批处理层则对数据进行全量运算,保障其最终的一致性,因此Lambda最外层有一个实时层和离线层合并的动作,此动作是Lambda里非常重要的一个动作,大概的合并思路如下:

    优点:既有实时又有离线,对于数据分析场景涵盖的非常到位。

    缺点:离线层和实时流虽然面临的场景不相同,但是其内部处理的逻辑却是相同,因此有大量荣誉和重复的??榇嬖?。

    适用场景:同时存在实时和离线需求的情况。

    Kappa架构

    ? Kappa架构在Lambda 的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

    优点:Kappa架构解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构非常简洁。

    缺点:虽然Kappa架构看起来简洁,但是施难度相对较高,尤其是对于数据重播部分。

    适用场景:和Lambda类似,改架构是针对Lambda的优化。

    Unifield架构

    ?以上的种种架构都围绕海量数据处理为主,Unifield架构则更激进,将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层??梢钥吹绞菰诰萃ǖ澜胧莺?,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

    优点:Unifield架构提供了一套数据分析和机器学习结合的架构方案,非常好的解决了机器学习如何与数据平台进行结合的问题。

    缺点:Unifield架构实施复杂度更高,对于机器学习架构来说,从软件包到硬件部署都和数据分析平台有着非常大的差别,因此在实施过程中的难度系数更高。

    适用场景:有着大量数据需要分析,同时对机器学习方便又有着非常大的需求或者有规划。

    总结

    以上几种架构为目前数据处理领域使用比较多的几种架构,当然还有非常多其他架构,不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展,以上几种思想或许终究也会变得过时。
    • 大小: 81.5 KB
    • 大小: 43.9 KB
    • 大小: 42 KB
    • 大小: 57.2 KB
    • 大小: 189.1 KB
    • 大小: 52.6 KB
    • 大小: 65 KB
    来自: 白发川
    4
    0
    评论 共 0 条 请登录后发表评论

    发表评论

    您还没有登录,请您登录后再发表评论

    相关推荐

    • 常用几种大数据架构剖析

    • 大数据架构分析

    • 常用几种大数据架构剖析,你真的知道吗?

      常用几种大数据架构剖析,你真的知道吗? 大数据 架构 数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,...

    • 对比解读五种主流大数据架构的数据分析能力

    • 大数据架构,从Lambda到IOTA

    • 大数据架构和算法实现之路:电商系统的技术实战

      黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。 本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。

    • 胡宁-互联网常用场景下的大数据架构解析.pdf

      胡宁-互联网常用场景下的大数据架构解析.pdf

    • https://blog.csdn.net/ChenVast/article/details/72866506

    • https://blog.csdn.net/brucesea/article/details/45937875

    • 解读主流大数据架构

      前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》,文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员,对于其中的一些技术细节还是破解兴趣的,所以随着作者的思路写下了我对主流数据架构的理解(如无特殊说明,以下涉及到这篇文章一律用《主流大数据架构》来代替)。 作者的原文地址如下: https://mp.weixin.qq.com/s?__biz=M...

    • https://blog.csdn.net/wjandy0211/article/details/78802044

    • 常见的大数据架构都有哪些(三)

      在大数据的发展下,很多的企业也开始重视大数据的应用。而在生活中,大数据也开始变得十分流行了,这些都得益于大数据的架构生态圈打通。我们在这篇文章中重点给大家介绍一下大数据的架构实例,希望能够帮助大家更好地理解大数据架构。 说到大数据的结构我们需要先介绍一下大数据,大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力...

    • 大数据架构 (高清完整版)

      大数据架构大数据架构 必看的大数据架构相关知识。。。。。

    • 几种常用图像处理算法

      几种常用图像处理算法几种常用图像处理算法几种常用图像处理算法

    • https://blog.csdn.net/adnb34g/article/details/79580276

    • 几种常用的表连接方式.doc

      几种常用的表连接方式.doc几种常用的表连接方式.doc几种常用的表连接方式.doc几种常用的表连接方式.doc几种常用的表连接方式.doc几种常用的表连接方式.doc几种常用的表连接方式.doc

    • 大数据架构详解:从数据获取到深度学习.pdf 带书签 高清 完整

      第一部分 大数据的本质 第1章 大数据是什么 2 1.1 大数据导论 2 1.1.1 大数据简史 2 1.1.2 大数据现状 3 1.1.3 大数据与BI 3 1.2 企业数据资产 4 1.3 大数据挑战 5 1.3.1 成本挑战 6 1.3.2 实时性挑战 6 1.3.3 安全挑战 6 1.4 小结 6 第2章 运营商大数据架构 7 2.1 架构驱动的因素 7 2.2 大数据平台架构 7 2.3 平台发展趋势 8 2.4 小结 8 第3章 运营商大数据业务 9 3.1 运营商常见的大数据业务 9 3.1.1 SQM(运维质量管理) 9 3.1.2 CSE(客户体验提升) 9 3.1.3 MSS(市场运维支撑) 10 3.1.4 DMP(数据管理平台) 10 3.2 小结 11 第二部分 大数据技术 第4章 数据获取 14 4.1 数据分类 14 4.2 数据获取组件 14 4.3 探针 15 4.3.1 探针原理 15 4.3.2 探针的关键能力 16 4.4 网页采集 26 4.4.1 网络爬虫 26 4.4.2 简单爬虫Python代码示例 32 4.5 日志收集 33 4.5.1 Flume 33 4.5.2 其他日志收集组件 47 4.6 数据分发中间件 47 4.6.1 数据分发中间件的作用 47 4.6.2 Kafka架构和原理 47 4.7 小结 82 第5章 流处理 83 5.1 算子 83 5.2 流的概念 83 5.3 流的应用场景 84 5.3.1 金融领域 84 5.3.2 电信领域 85 5.4 业界两种典型的流引擎 85 5.4.1 Storm 85 5.4.2 Spark Streaming 89 5.4.3 融合框架 102 5.5 CEP 108 5.5.1 CEP是什么 108 5.5.2 CEP的架构 109 5.5.3 Esper 110 5.6 实时结合机器学习 110 5.6.1 Eagle的特点 111 5.6.2 Eagle概览 111 5.7 小结 116 第6章 交互式分析 117 6.1 交互式分析的概念 117 6.2 MPP DB技术 118 6.2.1 MPP的概念 118 6.2.2 典型的MPP数据库 121 6.2.3 MPP DB调优实战 131 6.2.4 MPP DB适用场景 162 6.3 SQL on Hadoop 163 6.3.1 Hive 163 6.3.2 Phoenix 165 6.3.3 Impala 166 6.4 大数据仓库 167 6.4.1 数据仓库的概念 167 6.4.2 OLTP/OLAP对比 168 6.4.3 大数据场景下的同与不同 168 6.4.4 查询引擎 169 6.4.5 存储引擎 170 6.5 小结 171 第7章 批处理技术 172 7.1 批处理技术的概念 172 7.2 MPP DB技术 172 7.3 MapReduce编程框架 173 7.3.1 MapReduce起源 173 7.3.2 MapReduce原理 173 7.3.3 Shuffle 174 7.3.4 性能差的主要原因 177 7.4 Spark架构和原理 177 7.4.1 Spark的起源和特点 177 7.4.2 Spark的核心概念 178 7.5 BSP框架 217 7.5.1 什么是BSP模型 217 7.5.2 并行模型介绍 218 7.5.3 BSP模型基本原理 220 7.5.4 BSP模型的特点 222 7.5.5 BSP模型的评价 222 7.5.6 BSP与MapReduce对比 222 7.5.7 BSP模型的实现 223 7.5.8 Apache Hama简介 223 7.6 批处理关键技术 227 7.6.1 CodeGen 227 7.6.2 CPU亲和技术 228 7.7 小结 229 第8章 机器学习和数据挖掘 230 8.1 机器学习和数据挖掘的联系与区别 230 8.2 典型的数据挖掘和机器学习过程 231 8.3 机器学习概览 232 8.3.1 学习方式 232 8.3.2 算法类似性 233 8.4 机器学习&数据挖掘应用案例 235 8.4.1 尿布和啤酒的故事 235 8.4.2 决策树用于电信领域故障快速定位 236 8.4.3 图像识别领域 236 8.4.4 自然语言识别 238 8.5 交互式分析 239 8.6 深度学习 240 8.6.1 深度学习概述 240 8.6.2 机器学习的背景 241 8.6.3 人脑视觉机理 242 8.6.4 关于特征 244 8.6.5 需要有多少个特征 245 8.6.6 深度学习的基本思想 246 8.6.7 浅层学习和深度学习 246 8.6.8 深度学习与神经网络 247 8.6.9 深度学习的训练过程 248 8.6.10 深度学习的框架 248 8.6.11 深度学习与GPU 255 8.6.12 深度学习小结与展望 256 8.7 小结 257 第9章 资源管理 258 9.1 资源管理的基本概念 258 9.1.1 资源调度的目标和价值 258 9.1.2 资源调度的使用限制及难点 258 9.2 Hadoop领域的资源调度框架 259 9.2.1 YARN 259 9.2.2 Borg 260 9.2.3 Omega 262 9.2.4 本节小结 263 9.3 资源分配算法 263 9.3.1 算法的作用 263 9.3.2 几种调度算法分析 263 9.4 数据中心统一资源调度 271 9.4.1 Mesos+Marathon架构和原理 271 9.4.2 Mesos+Marathon小结 283 9.5 多租户技术 284 9.5.1 多租户概念 284 9.5.2 多租户方案 284 9.6 基于应用描述的智能调度 287 9.7 Apache Mesos架构和原理 288 9.7.1 Apache Mesos背景 288 9.7.2 Apache Mesos总体架构 288 9.7.3 Apache Mesos工作原理 290 9.7.4 Apache Mesos关键技术 295 9.7.5 Mesos与YARN比较 304 9.8 小结 305 第10章 存储是基础 306 10.1 分久必合,合久必分 306 10.2 存储硬件的发展 306 10.2.1 机械硬盘的工作原理 306 10.2.2 SSD的原理 307 10.2.3 3DXPoint 309 10.2.4 硬件发展小结 309 10.3 存储关键指标 309 10.4 RAID技术 309 10.5 存储接口 310 10.5.1 文件接口 311 10.5.2 裸设备 311 10.5.3 对象接口 312 10.5.4 块接口 316 10.5.5 融合是趋势 328 10.6 存储加速技术 328 10.6.1 数据组织技术 328 10.6.2 缓存技术 335 10.7 小结 336 第11章 大数据云化 337 11.1 云计算定义 337 11.2 应用上云 337 11.2.1 Cloud Native概念 338 11.2.2 微服务架构 338 11.2.3 Docker配合微服务架构 342 11.2.4 应用上云小结 348 11.3 大数据上云 348 11.3.1 大数据云服务的两种模式 348 11.3.2 集群模式AWSEMR 349 11.3.3 服务模式Azure Data Lake Analytics 352 11.4 小结 354 第三部分 大数据文化 第12章 大数据技术开发文化 356 12.1 开源文化 356 12.2 DevOps理念 356 12.2.1 Development和Operations的组合 357 12.2.2 对应用程序发布的影响 357 12.2.3 遇到的问题 358 12.2.4 协调人 358 12.2.5 成功的关键 359 12.3 速度远比你想的重要 359 12.4 小结 361

    • 大数据架构商业之路:从业务需求到技术方案(全书)高清完整.pdf版下载

      编辑推荐   作者荣获美国政府颁发的“美国杰出人才”称号。大润发中国区董事长、飞牛网首席执行董事黄明端先生与eBay全球零售科学高级总监逄伟先生作序力荐!   将技术与商业需求相结合,深入剖析大数据商业应用中的困惑与难题,帮助读者更好地掌握技术支撑业务高速发展的方案! 内容简介   目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。 京东购买链接:https://item.jd.com/11915193.html

    • 大数据架构详解》读后感

      大数据架构详解》 ——?读后感作者:朱洁 罗华霖出版商:中国工信出版社 电子工业出版社版次:2016年10月第1版印数:7001 ~ 12000册定价:69.00元本书花了大量笔墨讲了通信运营商的大数据应用案例及其使用的架构,这也不奇怪,因为作者是为通信运营商做大数据解决方案的。作者服务的运营商大数据平台架构,从上到下依次为———应用层? ? SQM、CSE、MSS、DMP,这些都是运营商特有的...

    • 大数据架构商业之路:从业务需求到技术方案.pdf(中文高清版)

    Global site tag (gtag.js) - Google Analytics
  • 走进墨玉—天山网专题报道 2019-04-19
  • 木垒积极打造农家生活体验区 2019-04-03
  • 安徽省高校公共体艺教育推行俱乐部制 2019-03-26
  • 女性之声——全国妇联 2019-03-23
  • 险!小孩头卡防盗栏 民警爬窗外托举 成功解救 2019-03-23
  • 中国侨联直属机关党委举办党务干部培训班 2019-03-21
  • 雷佳音曾担任佟丽娅婚礼司仪 原因竟是不用随红包 2019-03-17
  • 电商扶贫,山“疙瘩”成“金蛋蛋” 2019-03-17
  • 湖州师院志愿者:携手弱势群体共谱青春乐章 2019-03-14
  • 阳泉计划今年在全省率先整体脱贫 2019-03-13
  • 货币政策取向仍以国内为主 2019-03-13
  • 中华人民共和国防震减灾法 2019-02-22
  • 的神话少了没人相信我,继续,希望你造出更多的神话来 2019-02-22
  • 七彩人生、林氏木业等品牌产品抽检不合格 2019-02-06
  • 阳泉消防开展冬训“集团化”练兵 2019-02-06
  • pk10怎么玩不输 彩票论坛合法吗 3d走势图综合版 pk10牛牛计划群 彩票开奖太湖字迷 中国竟彩500w首页 2元彩票网走势图大全 2013年七星彩走势图表 体彩排列三试机号 北京pk10单吊一码预测 七星彩排列五走势图 香港赛马排位表及赛果 北京pk10技巧方案 北京赛车图解教程 江苏时时彩开奖 辽宁35选7风采走势图