Big Data | Smartpro.vn

Big Data

THỜI LƯỢNG: 5 ngày (~40 giờ)

GIỚI THIỆU KHÓA HỌC

Khóa học được thiết kế để cung cấp cho học viên kiến thức nền tảng về Dữ liệu lớn, bao gồm đặc điểm của Dữ liệu lớn, nhu cầu và lợi ích của việc phân tích dữ liệu quy mô lớn trong cuộc sống hiện đại và cách vận dụng các công cụ Dữ liệu lớn phổ biến. Dữ liệu quy mô lớn có những đặc điểm riêng biệt đòi hỏi phải mở rộng các công nghệ và thuật toán phân tích, do đó dẫn đến những quan điểm mới trong việc hiểu dữ liệu và phân tích dữ liệu.
Học viên được cung cấp một cái nhìn tổng quan về lĩnh vực Dữ liệu lớn đang phát triển tích cực, các vấn đề chính của nó trong quản lý dữ liệu và các ứng dụng liên quan trong kinh doanh thông minh và nghiên cứu khoa học. Kinh nghiệm thực tế sẽ được củng cố thông qua việc vận dụng các công cụ quản lý và phân tích Dữ liệu lớn như Hadoop MapReduce để xử lý hàng loạt, Spark để xử lý trực tuyến và chạy các thuật toán học máy. Qua đó cho phép học viên xây dựng các kỹ năng của riêng mình để giải quyết các vấn đề phức tạp trong thế giới thực cũng như hỗ trợ ra quyết định.

MỤC TIÊU KHÓA HỌC

Sau khi hoàn tất khóa học, học viên sẽ có khả năng:

Trình bày được các đặc điểm chính của Dữ liệu lớn và động lực của việc chuyển từ phân tích dữ liệu cổ điển sang các hình thức nâng cao hơn.
Cài đặt, triển khai được một hệ thống quản lý Dữ liệu lớn ở mức cơ bản dựa trên các công nghệ Hadoop và các công nghệ liên quan.
Lập trình một số bài toán qua các pha Map Reduce và đánh giá mức hiệu quả.
Vận dụng được Spark vào phân tích Dữ liệu lớn.
Triển khai được các thuật toán học máy trên môi trường Dữ liệu lớn.

ĐIỀU KIỆN THAM GIA

Để học tốt khóa học học viên cần có kiến thức trước về: Mạng máy tính cơ bản, Lập trình Python, Lập trình Java

CHỨNG NHẬN

Sau khi hoàn tất khóa học, học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của SmartPro.

NỘI DUNG KHÓA HỌC

1. Giới thiệu về Dữ liệu lớn

Thực hành: đánh giá các nguồn dữ liệu lớn và nhu cầu trên dữ liệu này

2. Hadoop cơ bản

Giới thiệu
Vai trò của Hadoop trong dữ liệu lớn
Kiến trúc chung của Hadoop
- Kiến trúc trước Hadoop 2.2
- Kiến trúc Hadoop 2.2
- Kiến trúc Hadoop 3.0

Thực hành: cài đặt và chạy thử nghiệm Hadoop trên môi trường Windows hoặc Linux

3. Hệ thống lưu trữ HDFS

HDFS trong Hadoop
Kiến trúc hệ thống lưu trữ HDFS
- NameNode
- DataNode
- HDFS Federation
- HDFS tin cậy cao
Tiến trình xử lý dữ liệu
Đọc dữ liệu từ HDFS
Viết dữ liệu đến HDFS

Thực hành: thực hiện cấu hình, lưu trữ, truy cập dữ liệu với HDFS

4. Xử lý dữ liệu lớn với MapReduce

Giới thiệu MapReduce
Kiến trúc MapReduce
- MapReduce Job
- Quản lý lỗi
- Tối ưu nhiệm vụ
Cách thức vận hành của MapReduce
- Pha Map
- Pha Reduce
- Tiến trình Shuffle và Sort
Các ví dụ chạy MapReduce
Các hệ thống thay thế cho MapReduce

Thực hành: lập trình và cài đặt các bài toán thể hiện MapReduce trên dữ liệu đã được lưu trữ trên Hadoop

5. Phân tích dữ liệu với Spark

Thực hành: cấu hình các thành phần Spark

6. API cấu trúc trong Spark

Các loại cấu trúc dữ liệu và ngôn ngữ thao thác trong Spark
- DataFrame
- Dataset
- SQL Table và View
Thực thi API cấu trúc
- Tạo cấu trúc
- Trích xuất
- Thao tác dòng, cột

Thực hành: lập trình thao tác dữ liệu với các API

7. Lập trình API cấp thấp với RDD

Vòng đời một chương trình Spark
Giới thiệu API cấp thấp
- Nguyên nhân sử dụng API cấp thấp
- Cách thức sử dụng cơ bản
- Các phương thức trong pha Transformation
Các phương thức trong pha Action
Tính toán In-Memory
Các biến chia sẻ phân tán

Thực hành: lập trình thao tác dữ liệu với các API cấp thấp

8. Các ứng dụng học máy chạy trên dữ liệu lớn

Thực hành: lập trình các thuật toán học máy trên nền tảng dữ liệu lớn

Xem thêm

KHÓA HỌC LIÊN QUAN

TRUNG TÂM KHẢO THÍ