大数据平台搭建与高性能计算 最佳实战

河南 ?? 2019年9月17日开课 ?? 费用:5800元/人
课程已结束;点此联系客服查询最新课程计划
课程介绍

日程安排

日程

亚博vip升级模块

亚博vip升级内容

第一天

上午

大数据技术基础

1.?? ? 大数据的产生背景与发展历程

2.?? ? 大数据的4V特征,以及与云计算的关系

3.?? ? 大数据应用需求以及潜在价值分析

4.?? ? 业界最新的大数据技术发展态势与应用趋势

5.?? ? 大数据思维的转变

6.?? ? 大数据项目的系统与技术选型,及落地实施的挑战

7.?? ? “互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

业界主流的大数据技术方案

1.?? ? 大数据软硬件系统全栈与关键技术介绍

2.?? ? 大数据生态系统全景图

3.?? ? 主流的大数据解决方案介绍

4.?? ? Apache大数据平台方案剖析

5.?? ? CDH大数据平台方案剖析

6.?? ? HDP大数据平台方案剖析

7.?? ? 基于云的大数据平台方案剖析

8.?? ? 大数据解决方案与传统数据库方案比较

9.?? ? 国内外大数据平台方案与厂商对比

大数据计算模型(一)——批处理MapReduce

1.?? ? MapReduce产生背景与适用场景

2.?? ? MapReduce计算模型的基本原理

3.?? ? MapReduce作业执行流程

4.?? ? MapReduce编程模型: Map处理和Reduce处理

5.?? ? MapReduce处理流程:数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce

6.?? ? MapReduce开发高级应用:Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用

7.?? ? MapReduce开发与应用实战:Hadoop平台搭建与运行;MapReduce安装与部署;

8.?? ? 应用案例:基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行

9.?? ? MapReduce参数调优与性能优化技巧

第一天

下午

大数据存储系统与应用实践

1.?? ? 分布式文件系统HDFS产生背景与适用场景

2.?? ? HDFS ? master-slave系统架构与读写工作原理

3.?? ? HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块

4.?? ? HDFS ? Federation机制,viewfs机制,使用场景讲解

5.?? ? HDFS高可用保证机制,SecondaryNameNode,NFS冷备份,基于zookeeper的HA方案

6.?? ? HDFS参数调优与性能优化

大数据实战练习一

1. Hadoop平台搭建、部署与应用实践,包含HDFS分布式文件系统,YARN资源管理软件,MapReduce计算框架软件

2. HDFS 文件、目录创建、上传、下载等命令操作,HDFS合并、归档操作,HDFS监控平台使用

3. MapReduce程序在YARN上运行,YARN监控平台使用

第二天

上午

Hadoop框架与生态发展,以及应用实践操作

1.?? ? Hadoop的发展历程

2.?? ? Hadoop ? 1.0的核心组件JobTracker,TaskTracker,以及适用范围

3.?? ? Hadoop ? 2.0的核心组件YARN工作原理,以及与Hadoop 1.0的联系与区别

4.?? ? Hadoop关键机制:任务推测执行,任务容错,任务选择执行,心跳机制

5.?? ? Hadoop ? YARN的资源管理与作业调度机制:FIFO调度,Capacity调度器,Fair调度器

6.?? ? Hadoop ? 常用参数调优与性能优化技术

大数据计算模型(二)——实时处理/内存计算 Spark

?

1.?? MapReduce计算模型的瓶颈

2.?? Spark产生动机、基本概念与适用场景

3.?? Spark编程模型与RDD弹性分布式数据集的工作原理与机制

4.?? Spark实时处理平台运行架构与核心组件

5.?? Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey

6.?? Spark RDD主要action:count,collect,reduce,saveAsTextFile

7.?? Spark宽、窄依赖关系与DAG图分析

8.?? Spark容错机制

9.?? Spark作业调度机制

10. Spark缓存机制:Cache操作,Persist操作与存储级别

11. Spark作业执行机制:执行DAG图、任务集、executor执行模型、?? BlockManager管理

12. Spark standardalone,Spark ? on YARN运行模式

13. Scala开发介绍与Spark常用Transformation函数介绍

14. Spark调优:序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优

第二天

下午

大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践

1.?? ? 基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

2.?? ? Hive数据仓库的平台架构与核心技术剖析

3.?? ? Hive ? metastore的工作机制与应用

4.?? ? Hive内部表和外部表

5.?? ? Hive ? 分区、分桶机制

6.?? ? Hive行、列存储格式

7.?? ? 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

8.?? ? Spark ? SQL实时数据仓库的实现原理与工作机制

9.?? ? SparkSQL数据模型DataFrame

10. SparkSQL程序开发与

11. SparkSQL数据读取与结果保存:json,Hive table,Parquet ? file,RDD

12. SparkSQL和Hive的区别与联系

13. SparkSQL操作实战

14. 基于MPP的大型分布式数据仓库Impala基础知识与应用场景

15. Impala实时查询系统平台架构、关键技术介绍,以及与Hive,SparkSQL的对比

Hadoop集群运维监控工具

1.? Hadoop运维管理监控系统Ambari工具介绍

2. 第三方运维系统与工具Ganglia, Nagios

大数据实战练习二

1.?? ? 基于 Hadoop平台搭建、部署与配置Spark集群,Spark shell环境实践操作,Spark案例程序分析

2.?? ? 基于sbt的Spark程序编译、开发与提交运行

3.?? ? 应用案例一:基于Spark的服务器运行日志TopN分析、程序实例开发

4.?? ? 应用案例二:? 基于Spark的搜索引擎日志热词与用户分析、程序实例开发

5.?? ? 基于MapReduce的Hive数据仓库实践,Hive集群安装部署,基于文件的Hive数据仓库表导入导出与分区操作,Hive SQL操作,Hive客户端操作

6.?? ? SparkSQL ? shell实践操作:数据表读取、查询与结果保存

第三天

上午

大数据计算模型(三)——流处理Storm, ? SparkStreaming

?

1.?? ? 流数据处理应用场景与流数据处理的特点

2.?? ? 流数据处理工具Storm的平台架构与集群工作原理

3.?? ? Storm关键技术与并发机制

4.?? ? Storm编程模型与基本开发模式

5.?? ? Storm数据流分组

6.?? ? Storm可靠性保证与Acker机制

7.?? ? Storm应用案例分析

8.?? ? 流数据处理工具Spark Streaming基本概念与数据模型

9.?? ? SparkStreaming工作机制

10. SparkStreaming程序开发介绍

11. SparkStreaming的全局统计和窗口函数

12. Storm与SparkStreaming的对比

13. SparkStreaming开发案例:基于文件流的SparkStreaming程序开发;基于socket消息的SparkStreaming程序开发

大数据与机器学习技术

1.?? ? 机器学习发展历程

2.?? ? 机器学习与大数据关联与区别

3.?? ? 数据挖掘经典算法

4.?? ? 预测算法:线性回归与应用场景,非线性回归与应用场景

5.?? ? 分类算法:逻辑回归与应用场景,决策树与应用场景,朴素贝叶斯算法与应用场景,支持向量机算法与应用场景

6.?? ? 聚类算法; k-means与应用场景

7.?? ? 基于Hadoop的大数据机器学习技术

8.?? ? 基于MapReduce的机器学习库Mahout

9.?? ? Mahout支持的数据挖掘算法

10. Mahout编程模型与发

11. 基于Spark的机器学习库Spark ? MLlib

12. Spark MLlib支持的数据挖掘算法

13. Spark MLlib编程模型与开发:基于Spark MLlib的文本分类,基于Spark ? MLlib的聚类

第三天

下午

大数据ETL操作工具,与大数据分布式采集系统

1.?? ? Hadoop与DBMS之间数据交互工具的应用

2.?? ? Sqoop导入导出数据的工作原理

3.?? ? Flume-NG数据采集系统的数据流模型与系统架构

4.?? ? Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

面向OLTP型应用的NoSQL数据库及应用实践

1.?? ? 关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

2.?? ? 列存储NoSQL数据库HBase简介与数据模型剖析

3.?? ? HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

4.?? ? HBase表设计模式与primary key设计规范

5.?? ? 文档NoSQL数据库MongoDB简介与数据模型剖析

6.?? ? MongoDB集群模式、读写机制与常用API操作

8.键值型NoSQL数据库Redis简介与数据模型剖析

9.Redis多实例集群架构与关键技术

10.NewSQL数据库技术简介及其适用场景

大数据实战练习三

1.Sqoop安装、部署与配置,基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出

2.Kafka安装、部署与配置,基于Kafka创建和消费topic实践操作

3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作

大数据项目选型、实施、优化等问题交流讨论

大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

第四天

业内经验交流与返程



开课信息
举办时间:2019年9月17日 亚博vip升级费用:5800元/人 举办地点:河南
报名咨询
上一篇:CISP注册信息安全专业人员 | 下一篇:大数据分析及可视化技术应用实战 【类别:IT互联网 标签:大数据 搭建 计算】 【课程评价 84次浏览】
免费在线咨询 课程编号:161738

-


请您尽量详细填写上述内容,以便工作人员给您更确切答复


宸ュ晢绠$悊涓庡垱鏂扮粡钀ユ€昏镰斾慨鐝? /></a>
</div><div id=

查课程,找讲师,上91亚博vip升级!
91亚博vip升级移动端
亚博vip升级专题 | 关于本站 | 联络我们 | 网站地图 | HR工具