今日要点:

科技:滚动 | 互联网 | IT业界 | 通信 | 人物 | 访谈 | 深度 | 图集   手机:新品 | 靓机 | 导购 | 测评 | 维修   数码:相机 | 笔记本 | MP3 | 家电
当前位置:首页 > 科技频道 > 业界资讯 > 互联网 > 正文
大数据技术及应用教与学(教学大纲和教案)
时间:2020-05-29 09:47:58    来源:香江科技    浏览次数:    科技首页    我来说两句()

《大数据技术及应用》课程教学大纲

一、课程基本信息

课程名称

大数据技术及应用(英文名称)Big data technology and Application

课程代码

课程类别

选修

课程性质

专业课程

课程学分

3

课程学时

其中:理论30学时,实验24学时

开课学期

第6学期

考核方式

考试+课程论文

开课单位

计算机科学学院

先修课程

C语言程序设计;Java程序设计;数据结构;Linux操作系统;

后续课程

软件设计综合实训;专业实习;毕业设计;

适用专业

二、课程的性质、目的和任务

《大数据技术及应用》是计算机相关专业大学本科生及研究生选修的一门专业课程,通过本课程学习,使学生能较系统地掌握大数据的基本知识、原理和方法,初步具备大数据的应用、开发的能力,为从事大数据分析、建模、可视化奠定基础。目的是让学生了解并掌握四个领域即大数据系统的起源及系统特征;大数据系统的架构设计及功能目标设计;大数据系统程序开发;企业大数据案例分析的内容,同时利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;本课程重点让学生掌握三个方面的内容:(1)基础篇:主要包括HDFS使用操作、MapReduce开发;、HBase数据库的开发;(2)核心篇:YARN架构、Spark集群计算、Spark机器学习、Hive数据仓库开发;(3)应用篇:医药大数据案例分析。

三、课程教学目标

(一)总体目标

掌握大数据分析的基本理论、技术,了解大数据分析的典型应用场景、掌握如何分析数据、解决问题、完成相关研究的方法,具有创新和独立思意识。

(二)具体目标

通过本课程的学习,学生应达到如下目标:

1.知识与技能

(1)了解大数据平台搭建的步骤,掌握大数据的存储、分析的原理;

(2)了解大数据分析的典型应用场景,例如文本挖掘、Web广告、聚类、推荐系统、Web链接分析、社交网络大数据分析、频繁项集;

(3)理解大数据分析和挖掘的基本理论技术;

(4)能获取、处理、分析和应用大数据资源。

2.过程与方法

(1)经过对大数据领域的探索,学会用大数据思维认识、分析和解决问题。

3.情感与态度

(1)通过探究活动,养成认真严谨的学习态度;

(2)通过师生、生生互动交流,体验大数据的价值和魅力。

四、教学内容及教学基本要求

第一章大数据概述

(一)教学目的

通过本章的学习掌握大数据基本概念,理解大数据的处理流程,了解大数据在行业中的应用和未来趋势。

(二)教学要求

1、解释大数据基本概念;

2、分析大数据的分析处理流程;

3、知道大数据技术应用场景和前景。

(三)教学内容

第一节大数据的概述

知识要点:大数据的定义和特征。

第二节大数据分析的过程、技术及工具

知识要点:大数据的采集、存储方式、分析技术、展示及应用。

第三节大数据的价值和影响

知识要点:大数据在各行各业的重大价值、挑战与风险。

第四节大数据的应用

知识要点:电商、医疗、教育、金融、农业、旅游、气象大数据的应用。

第五节大数据的处理流程

知识要点:大数据处理流程的4个阶段——数据采集、数据处理与集成、数据分析和数据解释。

第六节大数据成为人工智能产业的燃料

知识要点:人工智能与大数据的关系。

第七节大数据技术的发展前景

知识要点:大数据技术不断发展,出现更多的应用项目。

(四)教学重点与难点

1.教学重点。

大数据的基本概念。

2.教学难点。

大数据分析处理的流程。

第二章大数据集群系统基础

(一)教学目的

能分析大数据集群,阐明其基本原理;在虚拟化计算机系统中安装CentOS 7操作系统,通过SecureCRT/Xshell访问CentOS 7操作系统,以三台节点机搭建大数据集群环境。

(二)教学要求

1. 掌握虚拟机软件VMware Workstation 10 及以上和终端仿真程序SecureCRT/Xshell的下载、安装和使用方法;

2. 掌握VMware Workstation 10中安装CentOS 7的方法;

3. 理解大数据集群相关组成和技术,部署大数据集群。

(三)教学内容

第一节大数据集群系统概述

知识要点:集群概念、分类、目的。

第二节Linux操作系统

知识要点:Linux概念、特点、基本使用操作。

第三节虚拟化技术

知识要点:虚拟化技术概念、原理、常用软件、优缺点。

第四节CentOS大数据集群系统的组成

知识要点:CentOS概念、CentOS集群系统拓扑图。

第五节大数据集群技术的架构

知识要点:大数据集群的构架组成——硬件资源层、OS层、基础设施管理层、文件系统层、资源管理和大数据集群层、大数据应用层。

第六节操作实践:大数据集群的部署

知识要点:集群规划、网络配置、安全配置、时间同步、SSH登录。

(四)教学重点与难点

1.教学重点

VMwareWorkstation、CentOS 7、SecureCRT的安装和使用。

2.教学难点

大数据集群的部署。

第三章Hadoop分布式系统

(一)教学目的

Hadoop的使用需要搭建一个完整的分布式系统,在理解Hadoop工作原理的基础上配置和运行Hadoop。

(二)教学要求

1. 说明Hadoop的运行原理。

2. 掌握Hadoop环境的安装与配置。

(三)教学内容

第一节Hadoop概述

知识要点:Hadoop概念、发展、原理及运行机制。

第二节Hadoop相关技术及生态系统

知识要点:构成Hadoop生态系统的相关技术。

第三节操作实践:Hadoop安装与配置

知识要点:JDK安装、Hadoop安装、Hadoop运行、浏览Hadoop页面。

(四)教学重点与难点

1.教学重点

Hadoop安装过程中hadoop-env.sh、yarn-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml文件的配置。

2.教学难点

Hadoop安装过程中参数的配置。

第四章HDFS分布式文件系统

(一)教学目的

Hadoop采用分布式HDFS,通过本章学习掌握HDFS的基本原理,掌握HDFS相关的操作命令,并能够应用Java 对HDFS 进行编程。

(二)教学要求

1.了解HDFS 的特点、架构、数据读取过程、数据写入过程。

2. 掌握HDFS操作。

(三)教学内容

第一节HDFS

知识要点:HDFS设计前提和设计目标、Namenode和Datanode、文件系统的名字空间、数据复制、HDFS读写流程。

第二节HDFS操作实践

知识要点:HDFSShell、HDFS JavaAPI、Eclipse开发环境、综合实例。

(四)教学重点与难点

1.教学重点

HDFS的原理、数据读写的原理。

2.教学难点。

HDFS综合实例。

第五章分布式计算系统MapReduce及其应用实例

(一)教学目的

Hadoop采用分布式计算系统MapReduce,通过本章的学习,掌握MapReduce的基本原理、架构以及工作机制,并且掌握MapReduce的编程操作,从而运用到实处。

(二)教学要求

1.分析MapReduce的基本原理、架构以及工作机制;

2.操作MapReduce WordCount编程和MapReduce倒排索引编程,实现其应用。

(三)教学内容

第一节MapReduce简介

知识要点:MapReduce架构、原理、工作机制。

第二节MapReduce操作实践

知识要点:MapReduceWordCount编程实例、MapReduce倒排索引编程实例。

(四)教学重点与难点

1.教学重点:

MapReduce的基本原理、架构以及工作机制等知识内容。

2.教学难点:

MapReduce WordCount编程实例;MapReduce倒排索引编程实例。

第六章HBase分布式数据库应用

(一)教学目的

Hbase是一个分布式的、面向列的开源数据库,通过本章的学习了解Hbase的构建与组件并掌握Hbase的安装部署、综合操作。

(二)教学要求

1.了解Hbase的数据模型、构架与组件。

2. 实践Hbase表操作编程、HBase过滤查询编程实例。

(三)教学内容

第一节HBase简介

知识要点:HBase原理、构架与组件、存储。

第二节 HBase集群部署

知识要点:HBase参数配置、运行与测试。常用命令,如创建表,对表的内容进行删除、插入内容等处理。

第三节 HBase Shell操作命令

知识要点:general操作、namespace操作、DDL操作、DML操作、授权。

第四节 HBase过滤器

知识要点:过滤器筛选数据。

第五节 HBase编程

知识要点:HBase表操作编程、HBase过滤查询编程。

(四)教学重点与难点

1.教学重点:

HBASE操作、过滤。

2. 教学难点:

HBASE表操作编程实例、HBase过滤查询编程实例。

第七章YARN资源分配

(一)教学目的

Hadoop采用资源分配系统YARN,通过本章的学习掌握YARN的基本原理、基本架构以及应用场景。

(二)教学要求

1.通过统一资源管理和调度平台引例,对YARN有一个大概的了解;

2.分析YARN的基本原理、架构等知识;

3.操作YARN Shell实例。

(三)教学内容

第一节统一资源管理和调度平台引例

知识要点:了解统一资源管理和调度平台的作用。

第二节 YARN简介

知识要点:YARN架构、工作流程、优势。

第三节 操作实践:YARN Shell实例

知识要点:YARN Shell实例的命令使用。

(四)教学重点与难点

1.教学重点:

YARN的基本原理、架构及其工作流程。

2.教学难点:

YARN Shell应用

第八章 Spark集群计算

(一)教学目的

通过本章的学习,能够领会Spark的基本原理、架构以及相关应用,掌握Spark的核心RDD的相关编程原理及其操作。

(二)教学要求

1. 领会Spark的原理、基本架构以及RDD等知识内容;

2. 实践Spark RDD编程操作以及相关算法实例。

(三)教学内容

第一节Spark简介

知识要点:Spark生态系统、架构。

第二节 Spark RDD

知识要点:RDDs依赖关系、作业调度、内存管理、检查点支持。

第三节 Spark集群部署及应用案例

知识要点:Spark集群安装,特别是相关参数的部署和设置等以及经典的Spark算法实例。

(四)教学重点与难点

1.教学重点:

Spark的基本原理,框架设计以及RDD工作流程。

2.教学难点:

Spark编程应用,Spark算法实现。

第九章Spark机器学习

(一)教学目的

通过本章的学习,能够掌握Spark MLlib的数据类型和常用API,以及几个机器学习分类算法及编程应用实例。

(二)教学要求

1.了解机器学习概念与步骤

2.理解Spark MLlib数据类型与API功能;

3.实践Spark MLlib编程操作以及Spark MLlib 在分类方面的应用。

(三)教学内容

第一节机器学习概述

知识要点:机器学习发展、步骤。

第二节SparkMLlib概述

知识要点:数据类型和基本统计API的使用。

第三节Spark实例

知识要点:经典的Spark分类算法原理讲解与实现。

(四)教学重点与难点

1.教学重点:

Spark的基本原理,框架设计以及工作流程,Spark集群安装步骤。

2.教学难点:

实现Spark分类算法。

第十章Hive数据仓库应用

(一)教学目的

Hive是基于Hadoop的一个数据仓库工具,通过本章的学习掌握Hive集群的安装与部署,掌握Hive语句的操作及对数据的处理。

(二)教学要求

1、解释Hive的工作原理及构架,进行Hive的安装配置。

2、应用Hive的数据类型及存储格式。

3、操作处理Hive数据。

(三)教学内容

第一节 Hive简介

知识要点:Hive工作原理与构架。

第二节 Hive集群安装与配置

知识要点 :Hive集群安装与部署。

第三节 数据类型和文件格式

知识要点 :Hive的数据类型及文件存储格式。

第四节 Hive数据定义与数据操作

知识要点 :定义、操作Hive数据,管理数据表等。

第五节 Hive数据查询

知识要点:查询操作。

第六节 Hive编程

知识要点:Hive JDBC函数与实例编程

(四)教学重点与难点

1.教学重点:

Hive原理及数据处理。

2. 教学难点:

编写Hive实例,如表、数据的命令应用。

第十一章ZooKeeper协调服务

(一)教学目的

ZooKeeper是Hadoop的分布式协调服务,通过本章的学习了解ZooKeeper架构,掌握ZooKeeper集群的安装与部署,熟悉ZooKeeper的特性。

(二)教学要求

1. 了解ZooKeeper的工作原理与应用。

2. 安装与部署ZooKeeper集群。

3. 运用ZooKeeper进行操作。

(三)教学内容

第一节 ZooKeeper简介

知识要点:ZooKeeper工作原理。

第二节 ZooKeeper集群部署

知识要点:ZooKeeper集群的安装配置。

第三节 ZooKeeper基本命令

知识要点:ZooKeeper基本操作。

第四节 ZooKeeper应用

知识要点:ZooKeeper在Hadoop、Spark、Hive等开源系统中的应用。

第五节 ZooKeeper编程

知识要点:ZooKeeper读写操作、集群状态监控。

(四)教学重点与难点

1.教学重点:

ZooKeeper的特性及其应用。

2.教学难点:

ZooKeeper集群的操作编程。

第十二章医药大数据案例分析

(一)教学目的

根据大数据系统的需求分析,在Hadoop框架下,基于Hbase数据库,综合应用各项关键技术完成大数据系统的功能。

(二)教学要求

能在Hadoop框架下,综合大数据应用系统编程的原理、技术,呈现既定的运行结果。

(三)教学内容

第一节 项目概述

知识要点:医药电商大数据分析平台的形成背景。

第二节 功能需求

知识要点:流量分析、经营状况分析、大数据可视化系统。

第三节 软件关键技术

知识要点:医药电商大数据分析平台的关键技术。

第四节 效果展示

知识要点:各类分析效果图。

第五节 系统构架设计

知识要点:系统的组成、协作方式、网络拓扑、建设方案。

第六节 数据存储设计

知识要点:设计流量数据表、订单数据表、会员评价表。

第七节 数据分析

知识要点:采集、分析数据。

第八节 数据展示

知识要点:结果数据展示代码。

(四)教学重点与难点

1.教学重点:

大数据系统的需求分析、Hbase数据库的建立、程序的设计与实现。

2.教学难点:

程序的设计与实现。

五、各教学环节学时分配

章节

教学内容

各教学环节学时分配

合计

讲授

练习

研讨

在线

学习

课外

其它

第一章

大数据概论

2

1

3

第一节

大数据概述

0.3

第二节

大数据分析的过程、技术及工具

0.3

第三节

大数据的价值和影响

0.3

第四节

大数据的应用

0.3

0.5

第五节

大数据的处理流程

0.3

第六节

大数据成为人工智能产业的燃料

0.3

第七节

大数据技术的发展前景

0.2

0.5

第二章

大数据集群系统基础

3.5

1

0.5

5

第一节

大数据集群系统概述

0.5

第二节

Linux操作系统

1

0.5

第三节

虚拟化技术

0.5

第四节

CentOS大数据集群系统的组成

0.5

第五节

大数据集群技术的架构

0.5

0.5

第六节

操作实践:大数据集群的部署

0.5

0.5

第三章

Hadoop分布式系统

2.5

0.5

3

第一节

Hadoop概述

0.5

第二节

Hadoop相关技术及生态系统

1.5

第三节

操作实践:Hadoop安装与配置

0.5

0.5

第四章

HDFS分布式文件系统

2

1

3

第一节

HDFS

1

0.5

第二节

HDFS操作实践

1

0.5

第五章

MapReduce分布式计算

1.5

0.5

2

第一节

MapReduce简介

0.5

第二节

MapReduce操作实践

1

0.5

第六章

HBase分布式数据库应用

3.5

2.5

6

第一节

HBase简介

0.5

第二节

HBase集群部署

1

0.5

第三节

HBase Shell操作命令

0.5

0.5

第四节

HBase过滤器

0.5

0.5

第五节

HBase编程

1

1

第七章

YARN资源分配

2

1

3

第一节

统一资源管理和调度平台引例

0.5

0.5

第二节

YARN简介

0.5

第三节

操作实践:YARN Shell实例

1

0.5

第八章

Spark集群计算

2

1

3

第一节

Spark简介

0.5

第二节

Spark RDD

0.5

第三节

Spark集群部署及应用案列

1

1

第九章

Spark机器学习

2.5

0.5

3

第一节

机器学习概述

1

第二节

Spark MLlib概述

0.5

第三节

Spark实例

1

0.5

第十章

Hive数据仓库应用

5

3

8

第一节

Hive简介

0.5

第二节

Hive安装与配置

1

0.5

第三节

数据类型和文件格式

0.5

第四节

Hive数据定义与数据操作

1

0.5

第五节

Hive数据查询

1

1

第六节

Hive编程

1

1

第十一章

ZooKeeper协调服务

4.5

1.5

6

第一节

ZooKeeper简介

0.5

第二节

ZooKeeper集群部署

1

0.5

第三节

ZooKeeper基本命令

1

0.5

第四节

ZooKeeper应用

1

第五节

ZooKeeper编程

1

0.5

第十二章

医药大数据案例分析

6.5

2.5

9

第一节

项目概述

0.5

第二节

功能需求

0.5

第三节

软件关键技术

0.5

第四节

效果展示

1

0.5

第五节

系统构架设计

1

0.5

第六节

数据存储设计

1

0.5

第七节

数据分析

1

0.5

第八节

数据展示

1

0.5

合计

54

六、教学手段与方法

(一)教学手段

本课程主要采用多媒体、课件演示、实验实训等教学手段进行教学。

(二)教学方法

本课程主要采用任务驱动、案例教学、讲授与讨论相结合等教学方法进行教学。

课程内容主要按大数据处理任务进行组织,因此可以按解决相应任务所需的方法技术进行教学组织和实践。

在课程的授课过程中,对于学生难以理解的方法技术都给与案例分析,完整展现相应方法技术是如何实施和应用的。

另外,课程教学过程中,可以围绕相关大数据处理的任务组织学生进行讨论,培养学生主动学习、解决问题的能力。

七、考核方式、考核内容及成绩评定

(一)考核评价方式

1. 过程性考核评价方式。本课程的过程性考核评价方式主要包括:考勤、作业、讨论、随堂提问等。

2. 结果性考核评价方式。本课程的结果性考核评价方式主要是期末考查(开卷)。根据各章知识点,设计期末考查试卷。

(二)期末考核内容

期末采取开卷考查的方式,时间为2小时(120分钟),以卷面考查成绩为依据。考查内容要全面符合大纲要求,同时要做到体现重点,难度适中,题量适度,难度与题量应按教学要求来安排,对大纲未作教学要求的内容不纳入考试范围。期终考查命题设计:识记部分约占20%;理解运用部分约占6 0%,批判与创新占20%。具体如下:

1. 考核内容及所占比例

序号

考核内容

所占比例

1

大数据的基本概念

5%

2

大数据的集成环境构建

10%

3

Hadoop框架

10%

4

HDFS 分布式文件系统

10%

5

MapReduce编程

15%

6

Hive 数据仓库

10%

7

Spark 原理及应用

15%

8

Hbase数据库

10%

9

综合程序设计

15%

合计

100%

2. 考核题型及所占比例

序号

考核题型

所占比例

1

选择

20%

2

填空

20%

3

判断

10%

4

应用

50%

合计

100%

(三)成绩评定

期末总评成绩=平时成绩(占总评成绩的20%)+实验成绩(30%)+期终成绩(占总评成绩的50%)

八、课程教材

提供PPT课件,源码,答案,大纲,教案,视频

扫码,优惠购书(包邮)

视频演示

“大数据技术与应用”

教案

20192020学年第2 学期

学院(部):计算机科学学院

教研室(系):数据科学与大数据技术

授课班级:数据科学与大数据1 班

课程学分:4

课程学时:54

课程周学时:30+24

使用教材:大数据技术与应用- 微视频版

周次 1 第 1 次课 学时 2

章节名称

第1 章大数据概论

授课形式

理论课■案例讨论课□实验课□习题课□其他□

教学目的及要求

l 掌握大数据分析的过程,技术及工具

l 熟悉大数据的概念及特征

l 熟悉大数据的当前应用及前景发展

教学重点

l 大数据采集方式

l 大数据存储技术

l 大数据分析技术

教学难点

●大数据特征的理解和大数据分析处理的过程

教学内容

l 大数据基本概念

l 大数据的特征

l 大数据的分析过程,涉及大数据的采集,存储以及分析。

l 大数据的具体应用和大数据的发展前景

教学方法与手段设计

1 、教学方法:

(1 )介绍/ 演示大数据的基本概念和特征

(2 )示例说明大数据的特征的类型,加强概念的理解。

(3 )示例说明使用大数据分析过程的步骤以及各自的类型

(4 )示例说明大数据与人工智能的关系,以及大数据的发展应用前景

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关大数据的发展背景或前景可以学生讨论回答

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第1 章课后习题

实验内容

周次 2 第 2 次课 学时 2+2

章节名称

第2 章大数据集群系统基础

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉大数据集群概念及系统组成

l 熟悉Linux 操作系统以及常用指令

l 熟悉虚拟技术

l 掌握大数据集群部署

教学重点

l VMware Workstation、CentOS 7、SecureCRT的安装和使用

教学难点

● 使用三台服务器作为集群节点,部署网络配置、安全配置、时间同步及实现登录

教学内容

l 大数据集群系统的概述及分类,集群的目的

l Linux 系统简介与特性

l 安装Linux

l 熟悉Linux 常用命令,目录操作,文件浏览查找以及归档,系统类,网络类,进程类等命令

l 虚拟化技术简介、原理及优势劣势

l 熟悉常见的虚拟化软件,如VirtualBox ,VMware Workstation ,KVM 等

l CentOS 大数据集群系统的组成,架构

l 操作实践:大数据集群的部署

教学方法与手段设计

1 、教学方法:

(1 )介绍大数据集群系统的原理,组成,架构;

(2 )演示使用Linux 系统命令行进行集群的部署。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关集群部署时,通过示例演示完成;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第2 章课后习题

实验内容

(1 )完成课本实例集群的部署;(2 )熟悉Linux 系统的命令行操作

周次 3 第 3 次课 学时 2+2

章节名称

第3 章Hadoop 分布式系统

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 了解Hadoop 系统及其优点

l 熟悉Hadoop 原理及运行机制

l 安装配置Hadoop 环境并运行Hadoop

教学重点

l 在Java 环境下实现Hadoop 安装与配置

l 在VMware 下使用配置好的环境运行Hadoop

教学难点

● 使用集成开发环境 VMware 执行Hadoop

教学内容

l Hadoop 系统的发展历程及其优点的介绍

l Hadoop 原理的介绍

l HDFS ,MapReduce 组件的介绍

l 使用VMware 安装配置Hadoop 运行环境

l 使用VMware 和命令行编写来执行Hadoop

l 在线帮助和相关资源

教学方法与手段设计

1 、教学方法:

(1 )介绍/ 演示Hadoop 的运行环境

(2 )示例说明使用VMware 执行Hadoop

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关编写和执行Hadoop 时,通过示例演示;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第3 章复习题:填空题& 思考题

实验内容

熟悉Hadoop 运行环境

周次 4 第 4 次课 学时 2+2

章节名称

第4 章HDFS 分布式文件系统

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉HDFS 的常规操作

l 完成在Eclipse 开发环境下进行HDFS 的操作实践

教学重点

l HDFS 的设计前提与目标,及架构组成

l 利用Eclipse 进行操作实践

教学难点

● HDFS的原理、数据读写的原理

● 在Eclipse 环境下,对HDFS 进行目录创建删除,列目录以及文件的上传下载

教学内容

l HDFS 的介绍

l HDFS 的设计前提与目标

l Namenode 和Datanode

l 文件系统的名字空间

l 数据复制,及其中的特性

l HDFS 的读写流程

l HDFS 中Shell 及Java API

l 下载安装Eclipse

l 综合实例演示HDFS 的操作

教学方法与手段设计

1 、教学方法:

(1 )介绍/ 演示HDFS 相关知识点;

(2 )示例说明使用Eclipse 创建HDFS 项目,及常规操作。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关HDFS 的创建及操作时,通过示例演示;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第4 章习题:简答题

实验内容

完成课本综合实例,熟悉HDFS 的应用

周次 5 第 5 次课 学时 2+2

章节名称

第5 章MapReduce 分布式计算

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉MapReduce 架构,原理及工作机制

l 编写和执行MapReduce WordCount 编程实例

l 编写和执行MapReduce 倒排索引编程实例

教学重点

l MapReduce 的基本原理、架构以及工作机制等知识内容

教学难点

●MapReduce WordCount编程实例;

●MapReduce倒排索引编程实例

教学内容

l MapReduce 架构和原理

l MapReduce 的工作机制

l 使用集成开发环境IDLE 编写和执行MapReduce WordCount 实例

l 使用集成开发环境IDLE 编写和执行MapReduce 倒排索引实例

l 在线帮助和相关资源

教学方法与手段设计

1 、教学方法:

(1 )介绍MapReduce 架构,原理及工作机制;

(2 )示例说明使用集成开发环境IDLE 编写和执行MapReduce 倒排索引实例

(3 )示例说明使用集成开发环境IDLE 编写和执行MapReduce WordCount 实例

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关编写和执行MapReduce 实例时,通过示例演示;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第5 章复习题:填空题& 思考题

实验内容

编写MapReduce WordCount 实例及MapReduce 倒排索引编程

周次 6 第 6 次课 学时 2+2

章节名称

第6 章HBas 分布式数据库应用

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉HBase 的架构及存储

l 熟悉HBase 的集群部署,Shell 操作,过滤器

l 熟悉HBase 编程

教学重点

l HBase 架构与存储的介绍

l HBase 部署时,参数配置,运行与测试

l HBase Shell 操作命令

l HBase 的各种过滤器

l HBase 的表编程及过滤查询编程

教学难点

● HBase Shell 各种操作命令

● HBase 相关过滤器

● HBase 的编程

教学内容

l HBase 简介,包括架构与存储

l 安装HBase

l HBase 参数配置

l HBase 运行与测试

l HBase 的general 操作,namespace 操作,DDL 操作,DML 操作以及授权

l HBase 过滤器,包括行,列,列名,值,前缀,列前缀,行键,首次行键,单列值,单列排除,包含结束,列计数等。

l 使用HBase 提供的Java API ,实现表的创建删除,数据查询等

l 使用HBase 提供的过滤类进行查询

教学方法与手段设计

1 、教学方法:

(1 )介绍HBase 的相关知识,演示HBase 的配置及相关操作;

(2 )示例说明HBase 的Shell 操作命令,过滤器及编程。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关编写和执行HBase 代码时,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第6 章习题:简答题& 实践题

实验内容

完成课本中HBase 的Shell 操作命令,过滤器及编程等示例,熟悉HBase 的使用。

周次 7 第 7 次课 学时 2+2

章节名称

第7 章YARN 资源分配

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 了解统一资源调度平台

l 熟悉YARN 架构及其工作流程

教学重点

l YARN的基本原理、架构及其工作流程

l YARN Shell 实例操作

教学难点

l YARN Shell 实例的命令及其操作

教学内容

l 统一资源管理和调度平台介绍

l YARN 的优势对比

l YARN 架构及工作流程

l YARN Shell 实例的具体操作

教学方法与手段设计

1 、教学方法:

(1 )介绍统一资源管理和调度平台;

(2 )示例说明YARN 技术,包扩YARN 的架构和工作流程,介绍

YARN 的优势,具体操作YARN Shell 实例。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关YARN Shell 实例的具体命令和操作,通过示例演示;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第7 章复习题:填空题& 思考题

实验内容

实现YARN Shell 实例的操作

周次 8 第 8 次课 学时 2+2

章节名称

第8 章Spark 集群计算

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉Spark 的生态系统及架构

l 熟悉Spark RDD

l 完成Spark 集群部署及应用案例

教学重点

l Spark的基本原理,框架设计以及RDD工作流程

l Spark RDD

教学难点

● Spark编程应用,Spark算法实现

教学内容

l 简单介绍Spark 及其特性

l 介绍Spark 生态系统的组成及应用框架

l 阐述RDDs ,作业调度,内存管理,检查点支持

l 下载Spark 集群部署所需软件包并解压

l 完成参数配置及运行

l Spark 交互

l 进行基本RDD 的转化操作,行动操作

l Pair RDD 的转化操作,行动操作

l RDD 的其他操作

l Spark 算法实例,如词频统计,相关系数

教学方法与手段设计

1 、教学方法:

(1 )文字介绍Spark 的生态系统,架构及RDD ;

(2 )示例说明使用Python 进行RDD 的相关操作。

(3 )示例说明使用Python 实现Spark 算法实例。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关编写和执行RDD 操作及Spark 算法时,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第8 章习题:简答题& 实践题

实验内容

完成课本实例8-1~ 实例8-50 及两个算法案例,熟悉使用python 进行RDD 相关操作

周次 9 第 9 次课 学时 2+2

章节名称

第9 章Spark 机器学习

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉Spark MLlib 的Local vector 数据类型(本地向量)、Labeled

point 类型(标签向量)、Local matrix 数据类型(本地矩阵)、RowMatrix 类型(分布式矩阵)、IndexedRowMatrix 类型、CoordinateMatrix 类型、BlockMatrix 类型

l 了解基于DataFrame 的API 和基于RDD 的API 的基本统计

教学重点

l Spark MLlib 的Local vector 数据类型(本地向量)、Labeled

point 类型(标签向量)、Local matrix 数据类型(本地矩阵)、RowMatrix 类型(分布式矩阵)、IndexedRowMatrix 类型、CoordinateMatrix 类型、BlockMatrix 类型

l 基于DataFrame 的API 和基于RDD 的API 的基本统计的具体步骤比较

l 编译实现Spark 实例中的聚类问题和随机森林问题

教学难点

l 聚类问题中的K-Means 算法

l 分析鸢尾花数据,学习随机森林算法,掌握数据集的训练、评估与预测方法

教学内容

l Spark MLlib 数据类型概述

l Local vector 数据类型(本地向量)

l Labeled point 类型(标签向量)

l Local matrix 数据类型(本地矩阵)

l RowMatrix 类型(分布式矩阵)

l IndexedRowMatrix 类型

l CoordinateMatrix 类型

l BlockMatrix 类型

l 基于DataFrame 的API 和基于RDD 的API 的基本统计比较

l 聚类问题和随机森林问题的实例操作

教学方法与手段设计

1 、教学方法:

通过示例说明常用内置数据类型的定义、声明和使用。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关常用数据类型的使用以及聚类问题和随机森林问题,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第9 章复习题:填空题& 思考题

实验内容

周次 10 第 10 次课 学时 2+2

章节名称

第10 章Hive 数据仓库应用

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉Hive 的数据类型和文件格式

l 熟悉数据定义,数据操作以及数据查询

l 掌握Hive 编程

教学重点

l Hive原理及数据处理

l 熟悉Hive 的数据类型和文件格式

教学难点

● 编写Hive实例,如表、数据的命令应用

教学内容

l Hive 组成模块,执行流程概述

l Metastore 存储模式

l 安装Hive ,配置参数并运行测试

l Hive Beeline

l 了解基本数据类型与文件格式

l 数据的定义,操作,查询

l Hive 编程

教学方法与手段设计

1 、教学方法:

(1 )介绍Hive 运行环境,数据类型和文件格式;

(2 )示例说明使用Hive 进行数据相关操作。

(3 )示例说明Hive 中,JDBC 函数应用及相关实例。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关编写和执行Hive 数据操作及编程时,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第10 章习题:简答题& 实践题

实验内容

完成课本中的实例,熟悉Hive 的使用

周次 11 第 11 次课 学时 2+2

章节名称

第11 章ZooKeeper 协调服务

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l ZooKeeper 的重要协议ZAB 及数据模型,集群部署的过程和配置

l ZooKeeper 在Hadoop YARN HA 、Spark HA 和Hive HA 的应用及配置方法

l ZooKeeper 在单节点故障的解决办法

l ZooKeeper 基本的读写操作编程案例实现

教学重点

l ZooKeeper的特性及其应用

教学难点

l ZooKeeper集群的操作编程

教学内容

l ZooKeeper 的数据模型和事件监听器的工作机制

l ZooKeeper 集群部署的操作及相关基本命令

l 了解ZooKeeper 在Hadoop ,HBase ,Kafka ,Hive 和Spark 等开源系统中的应用

l 使用集成开发环境IDEA 编写运行ZooKeeper 的连接,删除和读写

l 使用集成开发环境IDEA 编写运行ZooKeeper 监视集群状态

教学方法与手段设计

1 、教学方法:

通过示例说明加强对ZooKeeper 编程的熟练。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关ZooKeeper 编程时,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第11 章复习题:填空题& 思考题

实验内容

周次 12 第 12 次课 学时 2+2

章节名称

第12 章医药大数据案例分析

授课形式

理论课■案例讨论课□实验课■习题课□其他□

教学目的及要求

l 熟悉项目概述,分析项目需求

l 清楚软件关键技术

l 系统架构设计

l 数据存储设计

l 数据分析

教学重点

l 大数据系统的需求分析

l Hbase数据库的建立

l 程序的设计与实现

教学难点

● 系统架构设计

● 数据存储设计

● 程序的设计与实现

教学内容

l 项目概述以及功能需求

l 明确软件关键技术

l 效果展示

l 系统的组成,协作方式,网络拓扑,建设方案

l 数据存储设计

l 数据分析

l 数据展示

教学方法与手段设计

1 、教学方法:

(1 )介绍案例概述,需求以及技术;

(2 )图解说明系统架构设计。

(3 )示例说明数据存储设计及数据的分析。

2 、辅助手段:多媒体演示。

3 、对于重点和难点,通过例题讨论讲解、师生互动、作业等来突出。

板书设计

(详见ppt 课件)

(1 )以文字描述为主,要点及关键词用不同颜色标注;

(2 )涉及有关数据如何存储及分析时,通过示例描述;

(3 )ppt 的播放做到适时呈现、对过程有动态演示。

思考题

和作业

第12 章习题:简答题

实验内容

完成课本项目案例

更多的大数据课程教学大纲

Python数据分析与可视化教与学(教学大纲和教案) Python数据分析课程教学大纲

关键字:
分享到:
责任编辑:
>> 相关文章
    无相关信息
   发表评论 共有条评论
用户名: 密码: 验证码:
匿名发表