Tách dữ liệu để trainning-testing
Trước khi thực hiện hồi quy toàn bộ, Về cơ bản, trước khi chia dữ liệu thành tập dữ liệu để train – test, chúng ta cần chia dữ liệu thành hai giá trị : giá trị đích và giá trị dự báo. Hãy gọi giá trị đích Y và các giá trị dự báo X. Nếu chúng ta kiểm tra shape của mỗi biến, chúng ta đã có được bộ dữ liệu với tập dữ liệu thử nghiệm có tỷ lệ 66,66% đối với dữ liệu train và 33,33% đối với dữ liệu test.
Chuyển hồi quy tuyến tính đa biến cho tập huấn luyện
Đầu tiên là tập training set. Đây thường là một tập dữ liệu có kích thước lớn, được dùng để training trong quá trình huấn luyện máy học. Nôm na dễ hiểu là, đây chính là tập dữ liệu máy dùng để học và rút trích được những đặc điểm quan trọng để ghi nhớ lại. Tập training set sẽ gồm 2 phần: – Input: sẽ là những dữ liệu đầu vào, trường hợp này là các biến TD, GC, YKNTK, TI, và RRCN; Output: sẽ là những kết quả tương ứng với tập input, ở đây là YDM.
Dự báo kết quả của tập kiểm tra
Đúng với cái tên của nó, testing set là tập dữ liệu dùng để test sau khi máy đã học xong. Một mô hình máy học sau khi được huấn luyện, sẽ cần phải được kiểm chứng xem nó có đạt hiểu quả không. Mô hình máy học cũng vậy, sau mỗi quá trình huấn luyện, các mô hình này sẽ được kiểm chứng độ chính xác, nếu đáp ứng được yêu cầu thì là đạt, không thì cần phải xem xét lại. Và để kiểm nghiệm được độ chính xác của mô hình này, người ta dùng tập Testing set. Khác với Training set, Testing set chỉ gồm các giá trị input (TD, GC, YKNTK, TI, và RRCN) mà không có giá trị output (YDM).
Nếu có bất cứ thắc mắc gì, các bạn hãy liên hệ với chúng tôi qua:
- Email: hotro@hotroluanvan.com
- Zalo: 0833.470.470
- Website: hotroluanvan.com hoặc phantichdulieuspss.com để tham khảo các bài viết