Bài giảng Học máy - Bài 2: Đánh giá hiệu năng hệ thống học máy - Nguyễn Nhật Quang

Đánh giá hiệu năng hệ thống học máy (1)
Việc đánh giá hiệu năng hệ thống học máy thường được
thực hiện dựa trên thực nghiệm (experimentally) h , hơn là
dựa trên phân tích (analytically)
• Các đánh g p ( y ) iá phân tích (analytical evaluation) nhằm
chứng minh một hệ thống là đúng đắn (correct) và
hoàn chỉnh (complete) (vd: các bộ chứng minh định lý
trong Logics)
• Không thể xây dựng một đặc tả (định nghĩa) hình thức
của vấn đề mà một hệ thống học máy giải q y uyết (Đối
với bài toán học máy, thì tính đúng đắn và tính hoàn
chỉnh là gì?)
23 trang yennguyen 8700
Download
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học máy - Bài 2: Đánh giá hiệu năng hệ thống học máy - Nguyễn Nhật Quang", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Học máy - Bài 2: Đánh giá hiệu năng hệ thống học máy - Nguyễn Nhật Quang

Học Máy
(IT 4862)
ễ hậNguy n N t Quang
[email protected]
Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông
Năm học 2011-2012
Nội d ô hung m n ọc:
 Giới thiệu chung
 Đánh giá hiệu năng hệ thống học máy
Cá h há h d t ê á ất c p ương p p ọc ựa r n x c su
 Các phương pháp học có giám sát
 Các phương pháp học không giám sát
 Lọc cộng tác
 Học tăng cường
2Học Máy – IT 4862
Đánh giá hiệu năng hệ thống học máy (1)
 Việc đánh giá hiệu năng hệ thống học máy thường được 
thực hiện dựa trên thực nghiệm (experimentally) hơn là , 
dựa trên phân tích (analytically)
• Các đánh giá phân tích (analytical evaluation) nhằm 
chứng minh một hệ thống là đúng đắn (correct) và 
hoàn chỉnh (complete) (vd: các bộ chứng minh định lý 
trong Logics) 
• Không thể xây dựng một đặc tả (định nghĩa) hình thức 
của vấn đề mà một hệ thống học máy giải quyết (Đối 
với bài toán học máy, thì tính đúng đắn và tính hoàn 
chỉnh là gì?)
3Học Máy – IT 4862
Đánh giá hiệu năng hệ thống học máy (2)
 Tập trung vào việc đánh giá hiệu năng của hệ thống
• Thực hiện một cách tự động sử dụng một tập các ví , 
dụ (tập thử nghiệm)
• Không cần sự tham gia (can thiệp) của người dùng
 Các phương pháp đánh giá (evaluation methods)
→ Làm sao có được một đánh giá đáng tin cậy về hiệu 
năng của hệ thống?
 Các tiêu chí đánh giá (evaluation metrics)
→ Làm sao để đo (tính toán) hiệu năng của hệ thống?
4Học Máy – IT 4862
Các phương pháp đánh giá (1)
ấ
Được dùng để huấn
ốTập hu n
luyện
luyện hệ th ng
Toàn bộ
tập ví dụ
Tập tối ưu
Tùy chọn; và được dùng để tối
ưu các tham số của hệ thống
Tập kiểm
Được dùng để đánh giá
hệ thống đã (sau khi) 
đ h ấ l ệthử ược u n uy n
5Học Máy – IT 4862
Các phương pháp đánh giá (2)
 Làm thế nào để thu được một đánh giá đáng tin cậy về 
hiệu năng của hệ thống?
• Tập huấn luyện càng lớn, thì hiệu năng của hệ thống học càng tốt
• Tập kiểm thử càng lớn, thì việc đánh giá càng chính xác
• Vấn đề: Rất khó (ít khi) có thể có được các tập dữ liệu (rất) lớn
 Hiệu năng của hệ thống không chỉ phụ thuộc vào giải 
thuật học máy được sử dụng, mà còn phụ thuộc vào:
• Phân bố lớp (Class distribution)
• Chi phí của việc phân lớp sai (Cost of misclassification)
• Kích thước của tập huấn luyện (Size of the training set)
• Kích thước của tập kiểm thử (Size of the test set) 
6Học Máy – IT 4862
Các phương pháp đánh giá (3)
 Hold-out
 Stratified sampling
Repeated hold out -
 Cross-validation
• k-fold
• Leave-one-out
 Bootstrap sampling
7Học Máy – IT 4862
Hold-out (Splitting)
 Toàn bộ tập ví dụ D được chia thành 2 tập con không giao nhau
• Tập huấn luyện D_train – để huấn luyện hệ thống
• Tập kiểm thử D_test – để đánh giá hiệu năng của hệ thống đã học
→ D = D_train ∪ D_test, và thường là |D_train| >> |D_test|
 Các yêu cầu: 
Bất kỳ ví dụ nào thuộc vào tập kiểm thử D_test đều không được sử 
dụng trong quá trình huấn luyện hệ thống
Bất kỳ í d à đ ử d t i i đ h ấ l ệ hệ thố v ụ n o ược s ụng rong g a oạn u n uy n ng 
(i.e., thuộc vào D_train) đều không được sử dụng trong giai đoạn 
đánh giá hệ thống
Cá í d kiể thử t h hé ột đá h iá khô c v ụ m rong D_test c o p p m n g ng 
thiên vị đối với hiệu năng của hệ thống
 Các lựa chọn thường gặp: |D_train|=(2/3).|D|, |D_test|=(1/3).|D|
 Phù hợp khi ta có tập ví dụ D có kích thước lớn
8Học Máy – IT 4862
Stratified sampling
 Đối với các tập ví dụ có kích thước nhỏ hoặc không cân xứng 
(unbalanced datasets), các ví dụ trong tập huấn luyện và thử 
nghiệm có thể không phải là đại diện
 Ví dụ: Có (rất) ít, hoặc không có, các ví dụ đối với một số lớp
ố ấ Mục tiêu: Phân b lớp (class distribution) trong tập hu n luyện 
và tập kiểm thử phải xấp xỉ như trong tập toàn bộ các ví dụ (D)
 Lấy mẫu phân tầng (Stratified sampling) 
• Là một phương pháp để cân xứng (về phân bố lớp)
• Đảm bảo tỷ lệ phân bố lớp (tỷ lệ các ví dụ giữa các lớp) trong tập 
h ấ l ệ à tậ kiể thử là ấ ỉ hu n uy n v p m x p x n au
 Phương pháp lấy mẫu phân tầng không áp dụng được cho bài 
toán học máy dự đoán/hồi quy (vì giá trị đầu ra của hệ thống là 
một giá trị số, không phải là một nhãn lớp)
9Học Máy – IT 4862
Repeated hold-out
 Áp dụng phương pháp đánh giá Hold-out nhiều lần, để 
sinh ra (sử dụng) các tập huấn luyện và thử nghiệm khác 
nhau
• Trong mỗi bước lặp, một tỷ lệ nhất định của tập D được lựa 
ẫ ể ấ ể ếchọn ng u nhiên đ tạo nên tập hu n luyện (có th sử dụng k t 
hợp với phương pháp lấy mẫu phân tầng – stratified sampling)
• Các giá trị lỗi (hoặc các giá trị đối với các tiêu chí đánh giá khác) 
ghi nhận được trong các bước lặp này được lấy trung bình cộng 
(averaged) để xác định giá trị lỗi tổng thể
 Phương pháp này vẫn không hoàn hảo 
• Mỗi bước lặp sử dụng một tập kiểm thử khác nhau
• Có một số ví dụ trùng lặp (được sử dụng lại nhiều lần) trong các 
ểtập ki m thử này
10Học Máy – IT 4862
Cross-validation
 Để tránh việc trùng lặp giữa các tập kiểm thử (một số ví dụ 
cùng xuất hiện trong các tập kiểm thử khác nhau)
 k-fold cross-validation
• Tập toàn bộ các ví dụ D được chia thành k tập con không giao 
nhau (gọi là “fold”) có kích thước xấp xỉ nhau 
• Mỗi lần (trong số k lần) lặp, một tập con được sử dụng làm tập 
kiểm thử, và (k-1) tập con còn lại được dùng làm tập huấn luyện
• k giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trung 
bình cộng để thu được giá trị lỗi tổng thể
 Các lựa chọn thông thường của k: 10, hoặc 5
 Thông thường, mỗi tập con (fold) được lấy mẫu phân tầng 
(xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá 
Cross-validation
 Phù hợp khi ta có tập ví dụ D vừa và nhỏ
11Học Máy – IT 4862
Leave-one-out cross-validation
 Một trường hợp (kiểu) của phương pháp Cross-validation
• Số lượng các nhóm (folds) bằng kích thước của tập dữ liệu (k=|D|) 
• Mỗi nhóm (fold) chỉ bao gồm một ví dụ
 Khai thác tối đa (triệt để) tập ví dụ ban đầu
 Không hề có bước lấy mẫu ngẫu nhiên (no random sub-
sampling)
 Áp dụng lấy mẫu phân tầng (stratification) không phù hợp
→ Vì ở mỗi bước lặp, tập thử nghiệm chỉ gồm có một ví dụ
 Chi phí tính toán (rất) cao
 Phù hợp khi ta có một tập ví dụ D (rất) nhỏ
12Học Máy – IT 4862
Bootstrap sampling (1)
 Phương pháp Cross-validation sử dụng việc lấy mẫu không lặp lại 
(sampling without replacement)
→ Đối với mỗi ví dụ một khi đã được chọn (được sử dụng) thì , , 
không thể được chọn (sử dụng) lại cho tập huấn luyện
 Phương pháp Bootstrap sampling sử dụng việc lấy mẫu có lặp lại 
(sampling with replacement) để tạo nên tập huấn luyện 
• Giả sử tập toàn bộ D bao gồm n ví dụ
• Lấy mẫu có lặp lại n lần đối với tập D, để tạo nên tập huấn luyện 
D train gồm n ví dụ_ 
¾ Từ tập D, lấy ra ngẫu nhiên một ví dụ x (nhưng không loại bỏ x khỏi 
tập D)
¾ Đưa ví dụ x vào trong tập huấn luyện: D_train = D_train ∪ x
ầ¾ Lặp lại 2 bước trên n l n
• Sử dụng tập D_train để huấn luyện hệ thống
• Sử dụng tất cả các ví dụ thuộc D nhưng không thuộc D train
ể
_
đ tạo nên tập thử nghiệm: D_test = {z∈D; z∉D_train}
13Học Máy – IT 4862
Bootstrap sampling (2)
 Trong mỗi bước lặp, một ví dụ có xác suất = để 
không được lựa chọn đưa vào tập huấn luyện
⎟⎠
⎞⎜⎝
⎛ −
n
11
 Vì vậy, xác suất để một ví dụ (sau quá trình lấy mẫu lặp lại 
– bootstrap sampling) được đưa vào tập kiểm thử là:
1 n⎞⎛
 Có nghĩa rằng:
Tậ h ấ l ệ ( ó kí h th ớ ) b ồ ấ ỉ 63 2% á í d
36801 1 .e
n
≈≈⎟⎠⎜⎝ −
−
• p u n uy n c c ư c =n ao g m x p x . c c v ụ 
trong D (Lưu ý: Một ví dụ thuộc tập D có thể xuất hiện nhiều lần 
trong tập D_train)
• Tập kiểm thử (có kích thước <n) bao gồm xấp xỉ 36 8% các ví dụ . 
trong D (Lưu ý: Một ví dụ thuộc tập D chỉ có thể xuất hiện tối đa 1 
lần trong tập D_test)
 Phù hợp khi ta có một tập dữ liệu D có kích thước (rất) nhỏ 
14Học Máy – IT 4862
Tập tối ưu (Validation set)
 Các ví dụ trong tập kiểm thử không thể được sử dụng (theo 
bất kỳ cách nào!) trong quá trình huấn luyện hệ thống
ố ấ ố Trong một s bài toán học máy, quá trình hu n luyện hệ th ng 
bao gồm 2 giai đoạn
• Giai đoạn thứ 1: Huấn luyện hệ thống (= Học hàm mục tiêu)
• Giai đoạn thứ 2: Tối ưu giá trị các tham số của hệ thống
 Tập kiểm thử không thể được sử dụng cho mục đích tối ưu 
(điều chỉnh) tham số 
 Chia tập toàn bộ các ví dụ D thành 3 tập con không giao nhau: 
tập huấn luyện, tập tối ưu, và tập kiểm thử
 Tập tối ưu (validation set) được sử dụng để tối ưu giá trị các 
tham số trong giải thuật học máy được sử dụng
→ Đối với một tham số giá trị tối ưu là giá trị giúp sinh ra hiệu năng , 
cực đại đối với tập tối ưu
15Học Máy – IT 4862
Các tiêu chí đánh giá (1)
Tính chính xác (Accuracy)
→Mức độ dự đoán (phân lớp) chính xác của hệ thống (đã 
được huấn luyện) đối với các ví dụ kiểm chứng (test 
instances)
Tính hiệu quả (Efficiency)
→Chi phí về thời gian và tài nguyên (bộ nhớ) cần thiết cho 
việc huấn luyện và kiểm thử hệ thống
Khả năng xử lý nhiễu (Robustness)
→Khả năng xử lý (chịu được) của hệ thống đối với các ví 
dụ nhiễu (lỗi) hoặc thiếu giá trị
16Học Máy – IT 4862
Các tiêu chí đánh giá (2)
Khả năng mở rộng (Scalability)
Hiệ ă ủ hệ thố ( d tố độ h / hâ l i) th→ u n ng c a ng v : c ọc p n oạ ay 
đổi như thế nào đối với kích thước của tập dữ liệu
Khả ă diễ iải (I t t bilit ) n ng n g n erpre a y
→Mức độ dễ hiểu (đối với người sử dụng) của các kết quả 
và hoạt động của hệ thống 
Mức độ phức tạp (Complexity)
→Mức độ phức tạp của mô hình hệ thống (hàm mục tiêu) 
học được
17Học Máy – IT 4862
Tính chính xác
 Đối với bài toán phân loại
→ Giá trị (kết quả) đầu ra của hệ thống là một giá trị định danh
•x: Một ví dụ trong tập thử nghiệm D_test
( );)(),(
_
1
_
∑
∈
=
testDx
xcxoIdentical
testD
Accuracy
⎩⎨
⎧ ==
otherwise if ,0
 if ,1
),(
b)(a
baIdentical
•o(x): Giá trị đầu ra (phân lớp) bởi hệ thống đối với ví dụ x
•c(x): Phân lớp thực sự (đúng) đối với ví dụ x
Đối với bài toán hồi quy (dự đoán) 
→Giá trị (kết quả) đầu ra của hệ thống là một giá trị số
;)(1 ∑= xErrorDError )()()( xoxdxError −=
•o(x): Giá trị đầu ra (dự đoán) bởi hệ thống đối với ví dụ x
•d(x): Giá trị đầu ra thực sự (đúng) đối với ví dụ x
_ _∈ testDxtest
• Accuracy là một hàm đảo (inverse function) đối với Error
18Học Máy – IT 4862
Ma trận nhầm lẫn (Confusion matrix)
 Còn được gọi là Contingency Table
 Chỉ được sử dụng đối với bài toán phân loại
 Không thể áp dụng cho bài toán hồi quy (dự đoán)
Đ hâ lớ
• TPi: Số lượng các ví dụ 
thuộc lớp ci được phân loại
Lớp ci
ược p n p
bởi hệ thống
Thuộc Ko thuộc
chính xác vào lớp ci
• FPi: Số lượng các ví dụ 
không thuộc lớp ci bị phân 
Phân lớp
thực sự
Thuộc TPi FNi
Ko thuộc FP TN
loại nhầm vào lớp ci
• TNi: Số lượng các ví dụ 
không thuộc lớp ci được 
(đúng) i iphân loại (chính xác)
• FNi: Số lượng các ví dụ 
thuộc lớp ci- bị phân loại 
ầnh m (vào các lớp khác ci)
19Học Máy – IT 4862
Precision and Recall (1)
 Rất hay được sử dụng để đánh giá 
các hệ thống phân loại văn bản
 Precision đối với lớp ci
→ Tổng số các ví dụ thuộc lớp ci iTP)ecision(c =Pr
được phân loại chính xác chia cho 
tổng số các ví dụ được phân loại 
vào lớp ci
ii
i FPTP +
 Recall đối với lớp ci
→ Tổng số các ví dụ thuộc lớpci
i
i FNTP
TP)call(c +=Ređược phân loại chính xác chia cho 
tổng số các ví dụ thuộc lớp ci
ii
20Học Máy – IT 4862
Precision and Recall (2)
 Làm thế nào để tính toán được giá trị Precision và 
Recall (một cách tổng thể) cho toàn bộ các lớp C={c }? i
 Trung bình vi mô (Micro-averaging)
C C
( )∑
∑
=
+
= C
i
ii
i
i
FPTP
TP
ecision
1
1Pr
( )∑
∑
=
+
= C
ii
i
i
FNTP
TP
call 1Re
 Trung bình vĩ mô (Macro-averaging)
= =i 1
C∑ C
C
)ecision(c
ecision i
i
== 1
Pr
Pr
C
)call(c
call i
i∑
== 1
Re
Re
21Học Máy – IT 4862
F1
 Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí đánh 
giá Precision và Recall 
callecision
callecision..F 11
2
RePr
RePr2
1
+
=+=
 F1 là một trung bình điều hòa (harmonic mean) của 
callecision RePr
các tiêu chí Precision và Recall
•F1 có xu hướng lấy giá trị gần với giá trị nào nhỏ hơn giữa 2 giá 
trị Precision và Recall 
•F1 có giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
22Học Máy – IT 4862
Lựa chọn mô hình học được
 Việc lựa chọn mô hình cần tìm ra sự thỏa hiệp (compromise) 
phù hợp giữa
• Mức độ phức tạp của mô hình hệ thống học được
• Mức độ chính xác về dự đoán của hệ thống đối với tập huấn luyện
ố Nguyên lý Occam’s razor. Một mô hình t t là một mô hình đơn 
giản đạt độ chính xác (về phân loại/dự đoán) cao đối với tập 
dữ liệu được sử dụng
 Ví dụ
• Bộ phân loại Sys1: (Rất) đơn giản, và khá (tương đối) phù hợp 
với tập huấn luyện 
• Bộ phân loại Sys2: Khá phức tạp, và phù hợp hoàn hảo với tập 
huấn luyện
→Bộ phân loại Sys1 được ưa thích hơn bộ phân loại Sys2
23Học Máy – IT 4862
File đính kèm:
bai_giang_hoc_may_bai_2_danh_gia_hieu_nang_he_thong_hoc_may.pdf