Học có giám sát

Xem xét các terms quan trọng

Đại diện đặc trưng

Data instances/samples/examples (X)

Target value (y)

Training and test sets

Mô hình / Công cụ ước tính

Việc fitting mô hình tạo ra một mô hình "trained model"

Training là quá trình ước lượng các tham số của mô hình.

Phương pháp đánh giá

Mục tiêu học tập

Tìm hiểu về các nguyên tắc chung của học máy có giám sát, như overfitting và cách tránh nó.

Tìm hiểu cách áp dụng các thuật toán học máy có giám sát cụ thể trong Python với scikit-learn.

Hiểu điểm mạnh và điểm yếu của các phương pháp học tập có giám sát cụ thể.

Hiểu cách một số thuật toán học có giám sát khác nhau học bằng cách ước tính các tham số của chúng từ dữ liệu để đưa ra các dự đoán mới.

Overfitting và Underfitting

Tổng quát hóa, Overfitting và Underfitting

Khả năng tổng quát hóa đề cập đến khả năng của một thuật toán để đưa ra các dự đoán chính xác cho dữ liệu mới chưa từng thấy trước đây.

Các giả định:

Dữ liệu chưa nhìn thấy trong tương lai (test set) sẽ có cùng thuộc tính với các training sets hiện tại.

Do đó, các mô hình chính xác trên training set được kỳ vọng sẽ chính xác trên test set.

Nhưng điều đó có thể không xảy ra nếu trained model được điều chỉnh quá đặc biệt cho training set.

Các mô hình quá phức tạp đối với số lượng training data có sẵn được cho là overfit và không có khả năng tổng quát hóa tốt cho các ví dụ mới.

Các mô hình quá đơn giản, thậm chí không hoạt động tốt trên training data, được cho là underfit và cũng không có khả năng tổng quát hóa tốt.

Phân loại và hồi quy

Trong phân loại, mục tiêu là dự đoán nhãn lớp, là một lựa chọn từ danh sách các khả năng được xác định trước

Đối với các nhiệm vụ hồi quy, mục tiêu là dự đoán một số liên tục, hoặc một số thực trong thuật ngữ toán học

K-Nearest Neighbors: Phân loại và hồi quy

Thuật toán phân loại k-Nearest Neighbor (k-NN)

Đưa ra một training set X_train với nhãn y_train và đưa ra một phiên bản x_test mới để được phân loại:

Tìm các trường hợp tương tự nhất (hãy gọi chúng là X_NN) cho x_test có trong X_train.

Lấy nhãn y_NN cho các phiên bản trong X_NN

Dự đoán nhãn cho x_test bằng cách kết hợp các nhãn y_NN

Điểm hồi quy R^2 ("r-bình phương")

Đo lường mức độ phù hợp của mô hình dự đoán cho hồi quy với dữ liệu đã cho.

Điểm từ 0 đến 1:

Giá trị 0 tương ứng với một mô hình không đổi dự đoán giá trị trung bình của tất cả các giá trị target training.

Giá trị 1 tương ứng với dự đoán hoàn hảo

Còn được gọi là "hệ số xác định"

KNeighborsClassifier và KNeighborsRegressor: các thông số quan trọng

Độ phức tạp của mô hình

n_neighbors: số lượng nearest neighbors (k) để xem xét

Default = 5

Phù hợp mô hình

metric: hàm khoảng cách giữa các điểm dữ liệu

Mặc định: Khoảng cách Minkowski với tham số công suất p = 2 (Euclidean)

Mối liên hệ giữa độ phức tạp của mô hình với kích thước tập dữ liệu

Các bộ dữ liệu lớn hơn cho phép xây dựng các mô hình phức tạp hơn.

Chỉ cần sao chép các điểm dữ liệu giống nhau hoặc thu thập dữ liệu rất giống nhau sẽ không hữu ích.

Có nhiều dữ liệu hơn và xây dựng các mô hình phức tạp hơn một cách thích hợp thường có thể mang lại hiệu quả tuyệt vời cho các nhiệm vụ học tập có giám sát.

Trong thế giới thực, bạn thường có khả năng quyết định lượng dữ liệu cần thu thập, điều này có thể có lợi hơn so với việc tinh chỉnh và điều chỉnh mô hình của bạn.

Hồi quy tuyến tính: Least-Squares

Phương pháp học có giám sát: Tổng quan

Để bắt đầu, chúng ta sẽ xem xét hai thuật toán dự đoán đơn giản nhưng mạnh mẽ:

K-nearest neighbors

Mô hình tuyến tính phù hợp bằng cách sử dụng least-squares

Những điều này đại diện cho hai phương pháp bổ sung cho việc học có giám sát:

K-nearest neighbors đưa ra ít giả định về cấu trúc của dữ liệu và đưa ra các dự đoán có khả năng chính xác nhưng đôi khi không ổn định (nhạy cảm với những thay đổi nhỏ trong dữ liệu training).

Mô hình tuyến tính đưa ra các giả định mạnh mẽ về cấu trúc của dữ liệu và đưa ra các dự đoán ổn định nhưng có khả năng không chính xác.

Chúng tôi sẽ đề cập đến một số phương pháp học có giám sát được sử dụng rộng rãi để phân loại và hồi quy.

Đối với mỗi phương pháp học có giám sát, chúng ta sẽ khám phá:

Cách thức hoạt động của phương pháp về mặt khái niệm ở cấp độ cao.

Thường cần loại tiền xử lý đặc trưng nào.

Các tham số chính kiểm soát độ phức tạp của mô hình, để tránh underfitting và overfitting.

Những mặt tích cực và tiêu cực của phương pháp học tập.

Mô hình tuyến tính

Mô hình tuyến tính là tổng các biến có trọng số dự đoán giá trị đầu ra mục tiêu cho một trường hợp dữ liệu đầu vào. Ví dụ: dự đoán giá nhà đất

Đặc trưng nhà: thuế mỗi năm (X_tax), tuổi tính theo năm (X_age): (Y_price)^ = 212000 + 109 X_tax − 2000 X_age

Một ngôi nhà có các giá trị đặc trưng (X_tax, X_age) là (10000, 75) sẽ có giá bán dự đoán là: (Y_price)^ = 212000 + 109 ⋅ 10000 − 2000 ⋅ 75 = 1,152,000

Hồi quy tuyến tính là một ví dụ về mô hình tuyến tính

Phiên bản đầu vào - vectơ đặc trưng: x = (x0, x1, … , xn)

Đầu ra dự đoán: y^ = ^(w0)x0 + ^(w1)x1 + ⋯ ^(wn)xn + b^

Các thông số để ước tính:

w^ = (^(w0), ⋯ , ^(wn)): trọng số đặc trưng / hệ số mô hình

b^: thuật ngữ bias không đổi / intercept

Mô hình hồi quy tuyến tính với một biến (đặc trưng)

Input instance: x = (x0)

Predicted output: y^ =^(w0)x0 + b^

Các thông số để ước tính: ^(w0) (hệ số góc), b^ (giá trị của y khi giao với trục tung)

Hồi quy tuyến tính bình phương nhỏ nhất ("Bình phương nhỏ nhất thông thường")

Tìm w và b để giảm thiểu sai số bình phương trung bình của mô hình tuyến tính: tổng của sự khác biệt bình phương giữa giá trị mục tiêu được dự đoán và mục tiêu thực tế.

Không có tham số để kiểm soát độ phức tạp của mô hình.

Các tham số hồi quy tuyến tính w, b được ước lượng như thế nào?

Các thông số được ước tính từ dữ liệu training.

Có nhiều cách khác nhau để ước tính w và b: Các phương pháp khác nhau tương ứng với các tiêu chí và mục tiêu "fit" khác nhau và các cách kiểm soát độ phức tạp của mô hình.

Thuật toán học tìm các tham số tối ưu hóa một hàm mục tiêu, thường để giảm thiểu một số loại hàm mất mát của các giá trị mục tiêu được dự đoán so với giá trị mục tiêu thực tế.

Hồi quy tuyến tính: hồi quy Ridge, Lasso và đa thức

Hồi quy Ridge

Hồi quy Ridge học w, b bằng cách sử dụng cùng một tiêu chí bình phương nhỏ nhất nhưng thêm một ràng buộc cho các biến thể lớn trong các tham số w:

Sau khi các tham số được học, công thức dự đoán hồi quy sườn núi cũng giống như bình phương nhỏ nhất thông thường.

Việc bổ sung một tham số ràng buộc được gọi là chính quy hóa. Chính quy hóa ngăn chặn việc overfitting bằng cách hạn chế mô hình, thường là để giảm độ phức tạp của nó.

Hồi quy Ridge sử dụng chính quy L2: tối thiểu hóa tổng bình phương của các mục w

Ảnh hưởng của thời hạn chính quy hóa được kiểm soát bởi tham số alpha.

Alpha cao hơn có nghĩa là chính quy hóa nhiều hơn và các mô hình đơn giản hơn.

Nhu cầu chuẩn hóa đặc trưng

Điều quan trọng đối với một số phương pháp học máy mà tất cả các đặc trưng đều ở cùng một quy mô (ví dụ: hội tụ nhanh hơn trong học tập, ảnh hưởng đồng đều hơn hoặc 'công bằng' hơn đối với tất cả các trọng số). VD: hồi quy chính quy, k-NN, support vector machines, mạng nơ-ron,…

Cũng có thể phụ thuộc vào dữ liệu. Tìm hiểu thêm về kỹ thuật đặc trưng. Hiện tại, mở rộng quy mô MinMax của các đặc trưng:

Đối với mỗi đặc trưng x_i: tính giá trị nhỏ nhất x_i(min) và giá trị lớn nhất x_i(max) đạt được trên tất cả các trường hợp trong training set.

Đối với từng đặc trưng: biến đổi giá trị x_i của đặc trưng đã cho thành phiên bản được chia tỷ lệ x_i ′ bằng công thức:

Sử dụng một đối tượng scaler: các phương thức fit và transform

Có thể hiệu quả hơn nếu thực hiện việc fitting và transforming cùng nhau trên traning set bằng cách sử dụng phương thức fit_transform.

Chuẩn hóa đặc trưng: test set phải sử dụng tỷ lệ giống hệt với training set

Điều chỉnh tỷ lệ bằng cách sử dụng training set, sau đó áp dụng cùng một tỷ lệ để biến đổi test set.

Không chia tỷ lệ training set và test set bằng cách sử dụng các tỷ lệ khác nhau: điều này có thể dẫn đến sai lệch ngẫu nhiên trong dữ liệu.

Không fit với bộ chia tỷ lệ bằng cách sử dụng bất kỳ phần nào của dữ liệu test: việc tham chiếu dữ liệu test có thể dẫn đến một dạng rò rỉ dữ liệu.

Hồi quy Lasso là một dạng khác của hồi quy tuyến tính chính quy sử dụng ràng buộc chính quy L1 để training (thay vì ràng buộc L2 của ridge)

Ràng buộc L1: Giảm thiểu tổng các giá trị tuyệt đối của các hệ số:

Điều này có tác dụng thiết lập trọng số tham số theo w thành 0 cho các biến ít ảnh hưởng nhất. Đây được gọi là giải pháp thưa thớt: một loại lựa chọn đặc trưng

Tham số alpha kiểm soát lượng chính quy L1 (mặc định = 1,0).

Công thức dự đoán giống như bình phương nhỏ nhất thông thường.

Khi nào sử dụng hồi quy ridge vs lasso:

Nhiều ảnh hưởng vừa / nhỏ: sử dụng ridge.

Chỉ một số biến có ảnh hưởng trung bình / lớn: sử dụng lasso.

Đa thức đặc trưng với hồi quy tuyến tính

Tạo các đặc trưng mới bao gồm tất cả các tổ hợp đa thức của hai đặc trưng ban đầu (x0, x1).

Mức độ của đa thức chỉ định số lượng biến tham gia vào một thời điểm trong mỗi đặc trưng mới (ví dụ trên: mức độ 2)

Đây vẫn là một tổ hợp tuyến tính có trọng số của các đặc trưng, vì vậy nó vẫn là một mô hình tuyến tính và có thể sử dụng cùng một phương pháp ước lượng bình phương nhỏ nhất cho w và b.

Tại sao chúng tôi muốn chuyển đổi dữ liệu của mình theo cách này?

Để nắm bắt tương tác giữa các đặc trưng gốc bằng cách thêm
chúng dưới dạng các đặc trưng của mô hình tuyến tính.

Để làm cho một vấn đề phân loại dễ dàng hơn.

Nói chung hơn, chúng ta có thể áp dụng các phép biến đổi phi tuyến tính khác để tạo các đặc trưng mới (Về mặt kỹ thuật, chúng được gọi là các hàm cơ sở phi tuyến tính)

Cẩn thận với việc mở rộng đa thức đặc trưng với cao vì điều này có thể dẫn đến các mô hình phức tạp quá mức. Do đó, việc mở rộng đa thức đặc trưng thường được kết hợp với một phương pháp học chính quy như hồi quy sườn núi.