GIỚI THIỆU KHÓA HỌC
Đây là gói khóa học lý tưởng cho những cá nhân muốn hiểu các khái niệm cơ bản về Big Data và Hadoop. Khi hoàn thành khóa học này, người học sẽ có thể diễn giải những gì đằng sau việc xử lý khối lượng dữ liệu khổng lồ trong khi ngành công nghệp đang chuyển từ phân tích dựa trên Excel sang phân tích thời gian thực.
MỤC TIÊU KHÓA HỌC
Sau khi kết thúc khóa học, học viên sẽ có kiến thức và kỹ năng để:
- Hiểu đặc điểm của Big Data
- Mô tả những đặc điểm cơ bản của kiến trúc Hadoop và HDFS
- Liệt kê các tính năng và quy trình của MapReduce
- Tìm hiểu những điều cơ bản về Pig , Hive và Hbase
- Khám phá các bản phân phối thương mại của Hadoop
- Thấu hiểu các thành phần chính của hệ sinh thái Hadoop
- Giới thiệu về Sqoop & ZooKeeper
ĐỐI TƯỢNG THAM GIA
Khóa học này dành cho các chuyên gia có ý định đạt được sự hiểu biết cơ bản về Big Data và Hadoop. Phù hợp cho các chuyên gia quản lý cấp cao, những người đòi hỏi nắm bắt lý thuyết về cách Hadoop có thể giải quyết vấn đề Big Data của họ.
NỘI DUNG KHÓA HỌC
Lesson 1.0 - Introduction to Big Data and Hadoop
- Introduction to Big Data and Hadoop
- Objectives
- Need for Big Data
- Three Characteristics of Big Data
- Characteristics of Big Data Technology
- Appeal of Big Data Technology
- Handling Limitations of Big Data
- Introduction to Hadoop
- Hadoop Configuration
- Apache Hadoop Core Components
- Hadoop Core Components—HDFS
- Hadoop Core Components—MapReduce
- HDFS Architecture
- Ubuntu Server—Introduction
- Hadoop Installation—Prerequisites
- Hadoop Multi-Node Installation—Prerequisites
- Single-Node Cluster vs. Multi-Node Cluster
- MapReduce
- Characteristics of MapReduce
- Real-Time Uses of MapReduce
- Prerequisites for Hadoop Installation in Ubuntu Desktop 12.04
- Hadoop MapReduce—Features
- Hadoop MapReduce—Processes
- Advanced HDFS–Introduction
- Advanced MapReduce
- Data Types in Hadoop
- Distributed Cache
- Distributed Cache (contd.)
- Joins in MapReduce
- Introduction to Pig
- Components of Pig
- Data Model
- Pig vs. SQL
- Prerequisites to Set the Environment for Pig Latin
- Summary
Lesson 1.1 - Hive HBase and Hadoop Ecosystem Components
- Hive, HBase and Hadoop Ecosystem Components
- Objectives
- Hive—Introduction
- Hive—Characteristics
- 5 System Architecture and Components of Hive
- Basics of Hive Query Language
- Data Model—Tables
- Data Types in Hive
- Serialization and De serialization
- UDF/UDAF vs. MapReduce Scripts
- HBase—Introduction
- Characteristics of HBase
- HBase Architecture
- HBase vs. RDBMS
- Cloudera—Introduction
- Cloudera Distribution
- Cloudera Manager
- Hortonworks Data Platform
- MapR Data Platform
- Pivotal HD
- Introduction to ZooKeeper
- Features of ZooKeeper
- Goals of ZooKeeper
- Uses of ZooKeeper
- Sqoop—Reasons to Use It
- Sqoop—Reasons to Use It (contd.)
- Benefits of Sqoop
- Apache Hadoop Ecosystem
- Apache Oozie
- Introduction to Mahout
- Usage of Mahout
- Apache Cassandra
- Apache Spark
- Apache Ambari
- Key Features of Apache Ambari
- Hadoop Security—Kerberos