Ứng dụng Linear Regression: Dự đoán năng lượng tiêu thụ

Giới thiệu

Thuật toán Linear Regression, hay còn gọi là Hồi quy tuyến tính, là thuật toán Machine Learning đơn giản, ngoài ra còn được biết tới với cái tên Linear Fitting. Đây là thuật toán supervised learning, học dựa trên dữ liệu cung cấp có tính chất tuyến tính.

Bài toán

Bài toán đặt ra ở đây là dự đoán năng lượng tiêu thụ của 1 nhà máy, dựa trên các thông tin về 4 thuộc tính thu thập được trong vòng 6 năm từ 2006 đến 2011. Nguồn dữ liệu: University of California, Irvine at UCI Machine Learning Repository Combined Cycle Power Plant Data Set. Download dữ liệu tại link này.

Khi bạn đã có dữ liệu trong tay, các bước xử lý thường là:

  1. Extract-Transform-Load (ETL): Đọc dữ liệu từ các nguồn, ví dụ cvs, xlsx, txt, …
  2. Exploratory Data Analysis (EDA): Phân tích dữ liệu, xem dạng dữ liệu là gì, số, boolean, hay enum, v.v.., vẽ các đồ thị tương ứng để xem mối liên hệ giữa các thuộc tính dữ liệu (tuyến tính hay không, tương quan thời gian, v.v…)
  3. Data Modeling: Dựa trên dữ liệu đã có, chia tách thành tập huấn luyện (80%) và tập kiểm tra (20%)
  4. Linear Regression: Sử dụng thư viện scikit-learn để tìm các hệ số (coefficients) từ dữ liệu training
  5. Export Model: Lưu lại model để sau này sử dụng.

Công cụ

Ngoài python ra, các bạn cần cài các package cần thiết qua pip. Để cho dễ đọc và theo dõi, chúng ta nên sử dụng jupyter notebook, có thể chạy từng bước để coi kết quả, ghi chú đồng thời sử dụng lại các code. Để bắt đầu:

 

Source code của bài toán: https://github.com/thachnb85/linear_regression_power_predict