Tại Sao Phải Tiền Xử Lý Dữ Liệu

Việc chuẩn chỉnh hóa cùng chi phí xử lý tài liệu trsinh hoạt buộc phải cực kỳ đặc trưng lúc tiến hành những Thuật toán thù Máy học khác biệt. Vì việc xử trí trước tài liệu rất có thể ảnh hưởng đáng kể tới công dụng của quy mô tiếp thu kiến thức, điều cực kỳ đặc biệt là toàn bộ các anh tài yêu cầu ở cùng một quy mô. Chuẩn hóa quan trọng trong số thuật toán thù nhỏng k-NN, lắp thêm vector cung cấp, mạng nơ-ron, những nguyên tố bao gồm. Loại chi phí cách xử lý và chuẩn chỉnh hóa kĩ năng cần thiết có thể phụ thuộc vào dữ liệu.

Bạn đang xem: Tại sao phải tiền xử lý dữ liệu

Các nhiều loại chi phí chế biến

Có một số trong những cách thức không giống nhau nhằm biến đổi tỷ lệ tài liệu. Bức Ảnh tiếp sau đây cho biết bốn thịnh hành duy nhất rất có thể được thực hiện trong số thuật tân oán học trang bị.


*
Các phương pháp không giống nhau nhằm phân phối lại với giải pháp xử lý trước một tập tài liệu.

Biểu đồ vật trước tiên trong dữ liệu nơi bắt đầu hiển thị một tập dữ liệu phân nhiều loại hai lớp tổng phù hợp chỉ bao gồm nhì kỹ năng. Đối tượng trước tiên (quý hiếm trục x) bên trong phạm vi 10 với 15. Đối tượng thiết bị hai (quý giá trục y) ở trong vòng từ là một mang lại 9. Bốn biểu thiết bị mặt nên hiển thị các cách không giống nhau để biến hóa dữ liệu đem đến các phạm vi tiêu chuẩn chỉnh rộng.

StandardScaler bảo vệ rằng đối với mỗi nhân tài vào tập tài liệu, quý hiếm vừa đủ là 0 cùng phương thơm không nên là một với đưa tất cả những tác dụng về thuộc độ to. Việc phân tách phần trăm này không bảo đảm bất kỳ quý giá buổi tối thiểu với về tối đa nào cho các tác dụng.

RobustScaler chuyển động tương tự nhỏng StandardScaler mà lại áp dụng trung vị và phần bốn cố kỉnh vày cực hiếm mức độ vừa phải cùng phương không đúng. Như vậy tạo cho cỗ chia xác suất bỏ lỡ các điểm dữ liệu rất khác so với phần còn lại (không nên số đo lường).

Xem thêm: Sắp Xếp Màn Hình Lumia Đẹp Nhất Hiện Nay Trên Wp, Khám Phá Hình Xếp, Ứng Dụng Và Cài Đặt

Bộ chuẩn hóa chia Phần Trăm từng điểm dữ liệu sao để cho vectơ đặc thù tất cả độ lâu năm Euclid là một trong. Mọi điểm dữ liệu được chia Xác Suất bởi một vài khác biệt (nghịch đảo của độ lâu năm của nó). Chuẩn hóa này được sử dụng Khi chỉ hướng của dữ liệu quan trọng đặc biệt chứ chưa hẳn độ dài của vectơ đặc trưng.

MinMaxScaler đổi khác toàn bộ các biến chuyển đầu vào, vì vậy tất cả bọn chúng đều phải sở hữu thuộc thang điểm từ bỏ 0 cho 1. Pmùi hương thức tính tân oán những cực hiếm buổi tối tphát âm và buổi tối nhiều mang đến từng hào kiệt bên trên tài liệu huấn luyện và giảng dạy, kế tiếp vận dụng phnghiền đổi khác tối thiểu mang đến từng anh tài.


*

Áp dụng bài bản trong ML

lấy ví dụ như sau cho biết thêm phương pháp áp dụng MinMaxScaler cho các bản lĩnh. Trước hết tạo thành đối tượng vô phía, tiếp nối Hotline thủ tục phù hợp bằng phương pháp thực hiện tài liệu đào tạo X_train. Điều này và tính toán thù các quý giá chức năng buổi tối tgọi với buổi tối nhiều đến từng tài năng vào tập dữ liệu đào tạo và giảng dạy này. Sau đó, nhằm vận dụng cách thức biến đổi vô hướng, hãy điện thoại tư vấn nó với gửi dữ liệu bạn phải nhằm chia Tỷ Lệ. Đầu ra đang là phiên phiên bản phần trăm của dữ liệu đầu vào. Trong trường phù hợp này, công ty chúng tôi ao ước phân chia Phần Trăm tài liệu đào tạo và giảng dạy cùng lưu nó vào một biến chuyển mới mang tên là X_train_scaled. Và tài liệu thí nghiệm, lưu giữ dữ liệu đó vào một trong những biến bắt đầu mang tên là X_test_scaled. Sau kia, Shop chúng tôi chỉ áp dụng các phiên bản được phân tách Xác Suất này của dữ liệu công dụng nuốm bởi vì tài liệu khả năng lúc đầu.

from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()scaler.fit(X_train)X_train_scaled = scaler.transform(X_train)X_test_scaled = scaler.transform(X_test)clf = SVC().fit(X_test_scaled, y_train)r2_score = clf.score(X_test_scaled, y_test)

Các chi tiết quan trọng cần phải tuân theo lúc xử lý trước tài liệu trong thuật toán ML:

Điều chỉnh phần trăm bằng cách thực hiện tập huấn luyện và đào tạo, tiếp nối áp dụng và một tỷ lệ để biến đổi tập chất vấn. Không phân tách xác suất các tập huấn luyện và giảng dạy và kiểm tra bằng phương pháp áp dụng các Tỷ Lệ không giống nhau: điều này có thể dẫn mang lại rơi lệch ngẫu nhiên trong tài liệu. Không phù hợp với bộ phân chia Xác Suất bằng phương pháp thực hiện ngẫu nhiên phần nào của tài liệu demo nghiệm: câu hỏi tmê mệt chiếu tài liệu thí điểm rất có thể dẫn cho một dạng thất thoát dữ liệu.

ví dụ như dưới đây chứng tỏ khoảng đặc trưng của việc xử trí trước dữ liệu trên tập tài liệu sản phẩm quét ví dụ vào trái đất thực. Phù phù hợp với SVC bên trên tài liệu gốc:

Phần kết luận

Loại chuẩn chỉnh hóa nhân tài tốt nhất có thể buộc phải vận dụng, rất có thể phụ thuộc vào tập dữ liệu, trọng trách tiếp thu kiến thức cùng thuật toán thù học tập được thực hiện.