THỜI LƯỢNG: 5 ngày (~40 giờ)
GIỚI THIỆU KHÓA HỌC
- Khóa học được thiết kế để cung cấp cho học viên kiến thức nền tảng về Dữ liệu lớn, bao gồm đặc điểm của Dữ liệu lớn, nhu cầu và lợi ích của việc phân tích dữ liệu quy mô lớn trong cuộc sống hiện đại và cách vận dụng các công cụ Dữ liệu lớn phổ biến. Dữ liệu quy mô lớn có những đặc điểm riêng biệt đòi hỏi phải mở rộng các công nghệ và thuật toán phân tích, do đó dẫn đến những quan điểm mới trong việc hiểu dữ liệu và phân tích dữ liệu.
- Học viên được cung cấp một cái nhìn tổng quan về lĩnh vực Dữ liệu lớn đang phát triển tích cực, các vấn đề chính của nó trong quản lý dữ liệu và các ứng dụng liên quan trong kinh doanh thông minh và nghiên cứu khoa học. Kinh nghiệm thực tế sẽ được củng cố thông qua việc vận dụng các công cụ quản lý và phân tích Dữ liệu lớn như Hadoop MapReduce để xử lý hàng loạt, Spark để xử lý trực tuyến và chạy các thuật toán học máy. Qua đó cho phép học viên xây dựng các kỹ năng của riêng mình để giải quyết các vấn đề phức tạp trong thế giới thực cũng như hỗ trợ ra quyết định.
MỤC TIÊU KHÓA HỌC
Sau khi hoàn tất khóa học, học viên sẽ có khả năng:
- Trình bày được các đặc điểm chính của Dữ liệu lớn và động lực của việc chuyển từ phân tích dữ liệu cổ điển sang các hình thức nâng cao hơn.
- Cài đặt, triển khai được một hệ thống quản lý Dữ liệu lớn ở mức cơ bản dựa trên các công nghệ Hadoop và các công nghệ liên quan.
- Lập trình một số bài toán qua các pha Map Reduce và đánh giá mức hiệu quả.
- Vận dụng được Spark vào phân tích Dữ liệu lớn.
- Triển khai được các thuật toán học máy trên môi trường Dữ liệu lớn.
ĐIỀU KIỆN THAM GIA
Để học tốt khóa học học viên cần có kiến thức trước về: Mạng máy tính cơ bản, Lập trình Python, Lập trình Java
CHỨNG NHẬN
Sau khi hoàn tất khóa học, học viên sẽ được cấp chứng nhận hoàn tất khóa học theo quy định của SmartPro.
NỘI DUNG KHÓA HỌC
1. Giới thiệu về Dữ liệu lớn
- Khái niệm
- Nền tảng và công nghệ
- Kỹ thuật lưu trữ và phân tích
- Mối quan hệ với phân tích dữ liệu
- Các hướng phát triển
Thực hành: đánh giá các nguồn dữ liệu lớn và nhu cầu trên dữ liệu này
2. Hadoop cơ bản
- Giới thiệu
- Vai trò của Hadoop trong dữ liệu lớn
- Kiến trúc chung của Hadoop
- Kiến trúc trước Hadoop 2.2
- Kiến trúc Hadoop 2.2
- Kiến trúc Hadoop 3.0
Thực hành: cài đặt và chạy thử nghiệm Hadoop trên môi trường Windows hoặc Linux
3. Hệ thống lưu trữ HDFS
- HDFS trong Hadoop
- Kiến trúc hệ thống lưu trữ HDFS
- NameNode
- DataNode
- HDFS Federation
- HDFS tin cậy cao
- Tiến trình xử lý dữ liệu
- Đọc dữ liệu từ HDFS
- Viết dữ liệu đến HDFS
Thực hành: thực hiện cấu hình, lưu trữ, truy cập dữ liệu với HDFS
4. Xử lý dữ liệu lớn với MapReduce
- Giới thiệu MapReduce
- Kiến trúc MapReduce
- MapReduce Job
- Quản lý lỗi
- Tối ưu nhiệm vụ
- Cách thức vận hành của MapReduce
- Pha Map
- Pha Reduce
- Tiến trình Shuffle và Sort
- Các ví dụ chạy MapReduce
- Các hệ thống thay thế cho MapReduce
Thực hành: lập trình và cài đặt các bài toán thể hiện MapReduce trên dữ liệu đã được lưu trữ trên Hadoop
5. Phân tích dữ liệu với Spark
- Giới thiệu Spark
- Hệ sinh thái Spark
- Kiến trúc Spark
- Ứng dụng
Thực hành: cấu hình các thành phần Spark
6. API cấu trúc trong Spark
- Các loại cấu trúc dữ liệu và ngôn ngữ thao thác trong Spark
- DataFrame
- Dataset
- SQL Table và View
- Thực thi API cấu trúc
- Tạo cấu trúc
- Trích xuất
- Thao tác dòng, cột
Thực hành: lập trình thao tác dữ liệu với các API
7. Lập trình API cấp thấp với RDD
- Vòng đời một chương trình Spark
- Giới thiệu API cấp thấp
- Nguyên nhân sử dụng API cấp thấp
- Cách thức sử dụng cơ bản
- Các phương thức trong pha Transformation
- Các phương thức trong pha Action
- Tính toán In-Memory
- Các biến chia sẻ phân tán
Thực hành: lập trình thao tác dữ liệu với các API cấp thấp
8. Các ứng dụng học máy chạy trên dữ liệu lớn
- Thuât toán học máy
- Gom nhóm K-means
- Naïve Bayes
- Cây quyết định
- Random Forest
- SVM
- Các bài toán ứng dụng
- Nhận dạng ký số
- Hệ thống tư vấn
Thực hành: lập trình các thuật toán học máy trên nền tảng dữ liệu lớn