PySpark

GIỚI THIỆU KHÓA HỌC

  • Spark là một công cụ truy vấn mã nguồn mở dùng để xử lý dữ liệu của bộ dữ liệu lớn, và nó tích hợp tốt với ngôn ngữ lập trình Python. PySpark là một giao diện cho phép truy cập Spark bằng cách sử dụng Python. Khóa học này bắt đầu với kiến thức tổng quan về Spark stack và sẽ chỉ cho học viên cách tận dụng các chức năng của Python như khi triển khai trong môi trường sinh thái Spark. Sau đó, khóa học sẽ mang đến cho học viên các kiến thức chuyên sâu như tìm kiếm kiến trúc Apache Spark và cách chuẩn bị môi trường Python cho Spark. Học viên cũng sẽ được học nhiều kỹ thuật khác nhau để thu thập dữ liệu, RDDs và so sánh chúng với DataFrames, cách đọc dữ liệu từ nhiều file HDFS, cũng như cách làm việc với các lược đồ.
  • Cuối cùng, khóa học sẽ dạy học viên cách sử dụng SQL để tương tác với DataFrames. Đến cuối khóa học, học viên sẽ được học cách xử lý dữ liệu bằng cách sử dụng Spark DataFrames và làm chủ các công cụ thu thập dữ liệu thông qua sử lý dữ liệu phân tán.

MỤC TIÊU KHÓA HỌC

Sau khi hoàn tất khóa học, học viên sẽ có khả năng:

  • Có được cái nhìn tổng quan về Apache Spark và kiến trúc Spark 2.0
  • Sở hữu kiến thức toàn diện về nhiều công cụ khác nhau thuộc về hệ sinh thái Spark như Spark SQL, Spark MlLib, Sqoop, Kafka, Flume và Spark Streaming
  • Hiểu rõ lược đồ RDD, lazy executions, và chuyển hóa, và học cách thay đổi lược đồ của một DataFrame
  • Xây dựng và tương tác với Spark DataFrames bằng cách sử dụng Spark SQL
  • Tạo và khám phá nhiều APIs khác nhau để làm việc với Spark DataFrames
  • Học cách tổng hợp, chuyển đổi, chắt lọc, và sắp xếp dữ liệu với DataFrames

ĐỐI TƯỢNG THAM GIA

  • Những người mới vào ngành sẵn sàng bắt đầu sự nghiệp với Big Data
  • Nhà phát triển và kiến trúc sư (Developers and architects)
  • Các chuyên gia về BI/ETL/DW (BI/ETL/DW professionals)
  • Các chuyên gia mainframe (Mainframe Professionals)
  • Kiến trúc sư, kỹ sư và nhà phát triển Big Data (Big Data architects, engineers, and developers)
  • Nhà khoa học dữ liệu và các chuyên gia phân tích (Data scientists and analytics professionals)

NỘI DUNG KHÓA HỌC

  • Bài 01 - A Brief Primer on PySpark
  • Bài 02 - Resilient Distributed Datasets
  • Bài 03 - Resilient Distributed Datasets and Actions
  • Bài 04 - DataFrames and Transformations
  • Bài 05 - Data Processing with Spark DataFrames
CÓ THỂ BẠN QUAN TÂM
Array
(
)