Sự cần thiết phải mở rộng biến mục tiêu [học máy]

Ngày 2020 tháng 3 năm 19

Người ta thường lập luận rằng chuyển đổi tính năng là quan trọng trong học máy và học sâu.Ví dụ những cuốn sách sau đây.

Mặt khác, không có nhiều thông tin về biến mục tiêu.Do đó, tôi sẽ tóm tắt kết quả điều tra xem có nên chuyển đổi biến mục tiêu trong nhiệm vụ hồi quy hay không.

Sự cần thiết phải mở rộng biến mục tiêu

Tất nhiên, đôi khi nó là cần thiết.

khi nó là cần thiết

Về mặt thống kê, người ta nói rằng sai số (phần dư: chênh lệch giữa giá trị thực và ước lượng hồi quy) không thỏa mãn hai điều kiện sau.
・Phổ quát
・Phân tán đều

Tính không chệch và phương sai đồng nhất của sai số là điều kiện tiên quyết để tìm phương trình hồi quy bằng phương pháp bình phương nhỏ nhất.Lỗi không thiên lệch có nghĩa là giá trị dự kiến ​​của lỗi là 0 cho bất kỳ x nào.Đối với đường hồi quy, điều này có nghĩa là ở bất kỳ đâu trong x, nếu bạn tính trung bình cho nó, sai số sẽ nằm trên đường đó mà không bị sai lệch.
Phương sai thuần nhất có nghĩa là độ biến thiên (phương sai) của sai số là như nhau tại bất kỳ x nào.

Kết hợp lại với nhau, điều này có nghĩa là sai số thay đổi như nhau trên và dưới đường hồi quy, bất kể x ở đâu. Giống nhau ở mọi nơi trong x có nghĩa là khi x thay đổi, phân phối lỗi không thay đổi theo nó, tức là nó không tương quan.

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1182674801

Phương thức xác nhận

Những điều này có thể được nhìn thấy trong một biểu đồ dư lượng hoặc một biểu đồ QQ của dư lượng.

Tập tin:R-car dừng khoảng cách 1920+linear.svg
Ví dụ về các lô dư lượng

Phương pháp đối phó và các loại chuyển đổi quy mô

Nói cách khác, nếu phần dư được phân tích và các giả định trên không đúng (nếu có bất kỳ xu hướng nào theo cách của phần dư), mô hình hồi quy có thể được xử lý bằng toán học để thể hiện tốt hơn mối quan hệ giữa x và y. .Một trong những biện pháp đối phó là chuyển đổi biến mục tiêu.

Ví dụ, khi biến mục tiêu có giá trị tăng theo cấp số nhân, vùng dự đoán càng lớn thì sai số càng lớn.Gọi y là phép biến đổi logarit (log) để biểu diễn một mô hình phi tuyến tính như vậy bằng một mô hình tuyến tính.

Cái chính nhất là biến đổi logarit, nhưng cũng có những cái khác

  • √ (gốc) biến đổi
  • chuyển đổi boxcox
  • phép biến đổi nghịch đảo

Và như thế.

Tuy nhiên, có nhiều cách khác để xử lý, chẳng hạn như tăng số lượng biến, thêm nhiều hơn hai thuật ngữ và thay đổi hàm đánh giá.

Bản thân biến mục tiêu không cần phải được phân phối bình thường

Đó là phần dư cần được phân phối bình thường.Nó không phải là một biến giải thích cũng không phải là một biến khách quan.Đừng nhầm lẫn về điều này.Lý do phần dư cần phải được phân phối chuẩn là vì chúng là mẫu số của thống kê kiểm tra cho phép kiểm tra F trong ANOVA. Điều này là do phân phối F giả định rằng cả mẫu số và tử số đều có phân phối chuẩn.

Biến giải thích và biến mục tiêu trong phân tích hồi quy có phân phối không chuẩn không?

Xem xét nguồn gốc của hàm đánh giá phân tích hồi quy, nó có vẻ hợp lý vì nó hoạt động để phù hợp với dữ liệu không tuân theo phân phối chuẩn.

Trên đây là sự cần thiết của việc chuyển đổi số trong biến mục tiêu.Cuối cùng, nếu độ chính xác tăng lên, tôi cảm thấy mình nên mở rộng quy mô.