Trang chủ / Python / Quy trình trainning-testing

Quy trình trainning-testing

Tách dữ liệu để trainning-testing

Trước khi thực hiện hồi quy toàn bộ, Về cơ bản, trước khi chia dữ liệu thành tập dữ liệu để train – test, chúng ta cần chia dữ liệu thành hai giá trị : giá trị đích và giá trị dự báo. Hãy gọi giá trị đích Y và các giá trị dự báo X. Nếu chúng ta kiểm tra shape của mỗi biến, chúng ta đã có được bộ dữ liệu với tập dữ liệu thử nghiệm có tỷ lệ 66,66% đối với dữ liệu train và 33,33% đối với dữ liệu test.

Chuyển hồi quy tuyến tính đa biến cho tập huấn luyện

Đầu tiên là tập training set. Đây thường là một tập dữ liệu có kích thước lớn, được dùng để training trong quá trình huấn luyện máy học. Nôm na dễ hiểu là, đây chính là tập dữ liệu máy dùng để học và rút trích được những đặc điểm quan trọng để ghi nhớ lại. Tập training set sẽ gồm 2 phần: – Input: sẽ là những dữ liệu đầu vào, trường hợp này là các biến TD, GC, YKNTK, TI, và RRCN; Output: sẽ là những kết quả tương ứng với tập input, ở đây là YDM.

Dự báo kết quả của tập kiểm tra

Đúng với cái tên của nó, testing set là tập dữ liệu dùng để test sau khi máy đã học xong. Một mô hình máy học sau khi được huấn luyện, sẽ cần phải được kiểm chứng xem nó có đạt hiểu quả không. Mô hình máy học cũng vậy, sau mỗi quá trình huấn luyện, các mô hình này sẽ được kiểm chứng độ chính xác, nếu đáp ứng được yêu cầu thì là đạt, không thì cần phải xem xét lại. Và để kiểm nghiệm được độ chính xác của mô hình này, người ta dùng tập Testing set. Khác với Training set, Testing set chỉ gồm các giá trị input (TD, GC, YKNTK, TI, và RRCN) mà không có giá trị output (YDM).

Thông tin Hỗ trợ luận văn

Tôi luôn mong muốn mang đến sự thành công cho tất cả mọi người. Phương châm sống "Càng hiểu biết, con người càng tự do"

Cũng Xem

Đánh giá sự tương quan giữa các biến nghiên cứu trong Python

Hệ số tương quan giữa các biến trong nghiên cứu, đặc biệt giữa biến phụ …