Random forest là gì

Phân tích tò mò Dữ liệu - EDA có tác dụng sạch dữ liệu Đặc trưng hạng mục (WIP)

Embedding

Hệ thống lưu ý

Đóng góp từ người sáng tác khác

Phụ lục


*
Binder
Random Forest algorithm¶

Đóng góp: Tuấn Nguyễn.

Bạn đang xem: Random forest là gì

Random forest là thuật toán supervised learning, hoàn toàn có thể giải quyết cả việc regression cùng classification.


Giới thiệu về thuật toán Random Forest¶

Random là ngẫu nhiên, Forest là rừng, yêu cầu ở thuật toán Random Forest mình sẽ xây dựng dựng những cây đưa ra quyết định bằng thuật toán Decision Tree, tuy vậy mỗi cây ra quyết định sẽ khác nhau (có nguyên tố random). Sau đó kết quả dự đoán được tổng đúng theo từ các cây quyết định.

Ở bước đào tạo và huấn luyện thì mình sẽ xây dựng dựng nhiều cây quyết định, những cây quyết định có thể khác nhau (phần sau mình sẽ nói mỗi cây được xây dựng như thế nào).

*

Sau đó ở cách dự đoán, với một tài liệu mới, thì ở mỗi cây quyết định mình đã đi từ trên xuống theo các node điều kiện để được các dự đoán, sau đó kết quả cuối thuộc được tổng hợp từ kết quả của những cây quyết định.

*

Ví dụ như trên, thuật toán Random Forest bao gồm 6 cây quyết định, 5 cây dự đoán 1 cùng 1 cây dự đoán 0, do đó mình vẫn vote là tạo ra dự đoán cuối cùng là 1.


Xây dựng thuật toán Random Forest¶

Giả sử bộ dữ liệu của bản thân mình có n dữ liệu (sample) với mỗi dữ liệu có d nằm trong tính (feature).

Để gây ra mỗi cây quyết định mình sẽ có tác dụng như sau:

*

Sau khi sample được n tài liệu từ cách 1 thì bản thân chọn ngẫu nhiên ở k ở trong tính (k

Dùng thuật toán Decision Tree để phát hành cây đưa ra quyết định với bộ tài liệu ở cách 2.

Do thừa trính thành lập mỗi cây quyết định đều phải có yếu tố bất chợt (random) nên tác dụng là những cây ra quyết định trong thuật toán Random Forest rất có thể khác nhau.

Xem thêm: Lối Đá Pressing Là Gì? Cách Thoát Pressing Là Như Thế Nào Các Thoát Pressing Thế Nào

Thuật toán Random Forest sẽ bao hàm nhiều cây quyết định, từng cây được xây dựng cần sử dụng thuật toán Decision Tree bên trên tập dữ liệu khác biệt và dùng tập ở trong tính không giống nhau. Sau đó tác dụng dự đoán của thuật toán Random Forest sẽ được tổng thích hợp từ các cây quyết định.

Khi sử dụng thuật toán Random Forest, bản thân hay chú ý các trực thuộc tính như: con số cây đưa ra quyết định sẽ xây dựng, số lượng thuộc tính dùng để làm xây dựng cây. Không tính ra, vẫn có các thuộc tính của thuật toán Decision Tree để gây ra cây như độ sâu tối đa, số bộ phận tối thiểu trong một node để rất có thể tách.


Tại sao thuật toán Random Forest tốt¶

Trong thuật toán Decision Tree, khi chế tạo cây ra quyết định nếu để độ sâu tùy ý thì cây đang phân nhiều loại đúng hết những dữ liệu trong tập training dẫn mang đến mô hình hoàn toàn có thể dự đoán tệ bên trên tập validation/test, lúc đó mô hình bị overfitting, hay có thể nói rằng là quy mô có high variance.

Thuật toán Random Forest bao gồm nhiều cây quyết định, từng cây quyết định đều có những nhân tố ngẫu nhiên:

Lấy ngẫu nhiên dữ liệu để sản xuất cây quyết định.

Lấy ngẫu nhiên các thuộc tính để phát hành cây quyết định.

Do từng cây đưa ra quyết định trong thuật toán Random Forest không dùng tất cả dữ liệu training, cũng tương tự không dùng tất cả các trực thuộc tính của tài liệu để thi công cây đề nghị mỗi cây rất có thể sẽ dự đoán không tốt, khi ấy mỗi mô hình cây quyết định không trở nên overfitting mà có thế bị underfitting, hay nói theo cách khác là quy mô có high bias. Mặc dù nhiên, kết quả cuối thuộc của thuật toán Random Forest lại tổng hợp từ không ít cây quyết định, vậy cho nên thông tin từ những cây sẽ bổ sung thông tin cho nhau, dẫn đến quy mô có low bias cùng low variance, hay quy mô có tác dụng dự đoán tốt.

Ý tưởng tổng hợp những cây ra quyết định của thuật toán Random Forest như thể với phát minh của The Wisdom of Crowds được khuyến nghị bởi by James Surowiecki vào khoảng thời gian 2004. The Wisdom of Crowds nói rằng thông thường tổng vừa lòng thông tin từ 1 nhóm sẽ xuất sắc hơn từ 1 cá nhân. Ở thuật toán Random Forest tôi cũng tổng thích hợp thông tin từ 1 nhóm những cây ra quyết định và tác dụng cho ra xuất sắc hơn thuật toán Decision Tree với 1 cây quyết định.

Ví dụ: những người ước ao mua một loại sản phẩm trên tiki chẳng hạn, khi đọc reviews sản phẩm, nếu chỉ phát âm 1 review thì hoàn toàn có thể là chủ kiến chủ quan lại của người đấy, hoặc thành phầm người ấy mua rủi ro bị lỗi gì; thông thường để sở hữu cái nhìn giỏi về sản phẩm, mình hay phát âm tất cả nhận xét rồi đến ra đưa ra quyết định cuối cùng.