Bài giảng Học máy - Bài 9: Các phương pháp học có giám sát (Phần 6) - Nguyễn Nhật Quang

Máy vectơ hỗ trợ (Support vector machine - SVM) được
đề cử bởi V Vapnik và các . Vapnik và các đồng nghiệp của ông vào
những năm 1970s ở Nga, và sau đó đã trở nên nổi tiếng
và phổ biến vào những năm 1990s
SVM là một phương pháp phân lớp tuyến tính (linear
classifier), với mục đích xác định một siêu phẳng
(hyperplane) để phân tách hai lớp của dữ liệu – ví dụ:
lớp các ví dụ có nhãn dương (positive) và lớp các ví dụ
có nhãn âm (negative)
Các hàm nhân (kernel functions), cũng được gọi là các
hàm biến đổi (transformation functions), được dùng cho
các trường hợp phân lớp phi tuyến
47 trang yennguyen 8340
Download
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Học máy - Bài 9: Các phương pháp học có giám sát (Phần 6) - Nguyễn Nhật Quang", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Học máy - Bài 9: Các phương pháp học có giám sát (Phần 6) - Nguyễn Nhật Quang

Học Máy
(IT 4862)
ễ hậNguy n N t Quang
[email protected]
Trường Đại học Bách Khoa Hà Nội
Viện Công nghệ thông tin và truyền thông
Năm học 2011-2012
Nội d ô hung m n ọc:
 Giới thiệu chung
 Đánh giá hiệu năng hệ thống học máy
 Các phương pháp học dựa trên xác suất 
 Các phương pháp học có giám sát
 Máy vectơ hỗ trợ (Support vector machine) 
 Các phương pháp học không giám sát
L ộ tá ọc c ng c
 Học tăng cường
2
Học Máy – IT 4862
Máy vectơ hỗ trợ - Giới thiệu (1)
 Máy vectơ hỗ trợ (Support vector machine - SVM) được 
đề cử bởi V Vapnik và các đồng nghiệp của ông vào . 
những năm 1970s ở Nga, và sau đó đã trở nên nổi tiếng 
và phổ biến vào những năm 1990s
 SVM là một phương pháp phân lớp tuyến tính (linear 
classifier), với mục đích xác định một siêu phẳng 
(hyperplane) để phân tách hai lớp của dữ liệu ví dụ: – 
lớp các ví dụ có nhãn dương (positive) và lớp các ví dụ 
có nhãn âm (negative)
 Các hàm nhân (kernel functions), cũng được gọi là các 
hàm biến đổi (transformation functions), được dùng cho 
các trường hợp phân lớp phi tuyến 
3Học Máy – IT 4862
Máy vectơ hỗ trợ - Giới thiệu (2)
 SVM có một nền tảng lý thuyết chặt chẽ – dựa trên nhiều 
định lý toán học 
 SVM là một phương pháp tốt (phù hợp) đối với những bài 
toán phân lớp có không gian biểu diễn thuộc tính lớn – 
các đối tượng cần phân lớp được biểu diễn bởi một tập 
rất lớn các thuộc tính
ế ế ố SVM đã được bi t đ n là một trong s các phương pháp 
phân lớp tốt nhất đối với các bài toán phân lớp văn bản 
(text/document classification) 
4Học Máy – IT 4862
Máy vectơ hỗ trợ - Giới thiệu (3)
 Các vectơ được ký hiệu bởi các chữ đậm nét!
Biể diễ tậ á í d h ấ l ệ (t i i l ) u n p r c c v ụ u n uy n ra n ng examp es
{(x1, y1), (x2, y2), , (xr, yr)}, 
 xi là một vectơ đầu vào được biểu diễn trong không gian X ⊆ Rn
 yi là một nhãn lớp (giá trị đầu ra), yi ∈ {1,-1}
 yi=1: lớp dương (positive); yi=-1: lớp âm (negative)
 Đối với một ví dụ xi: ⎩⎨
⎧
<+〉⋅〈−
≥+〉⋅〈=
01
01
bnêu
bnêu
y
i
i
i xw
xw [Eq.1]
 SVM xác định một hàm phân tách tuyến tính
f(x) = 〈w ⋅ x〉 + b
ố ố
[Eq.2]
 w là vectơ trọng s các thuộc tính; b là một giá trị s thực
5Học Máy – IT 4862
Mặt siêu phẳng phân tách
 Mặt siêu phẳng phân tách các ví dụ huấn luyện lớp 
dương và các ví dụ huấn luyện lớp âm: 〈w x〉 + b = 0 ⋅ 
 Còn được gọi là ranh giới (bề mặt) quyết định
Tồn tại nhiều mặt siêu phẳng phân tách Chọn cái nào? . 
[Liu, 2006]
6Học Máy – IT 4862
Mặt siêu phẳng có lề cực đại
 SVM lựa chọn mặt siêu phẳng phân tách có lề (margin) lớn nhất
 Lý thuyết học máy đã chỉ ra rằng một mặt siêu phẳng phân tách như 
thế sẽ tối thiểu hóa giới hạn lỗi (phân lớp) mắc phải
[Liu, 2006]
7Học Máy – IT 4862
SVM – Dữ liệu phân tách được tuyến tính
 Giả sử rằng tập dữ liệu (tập các ví dụ huấn luyện) có thể phân 
tách được một cách tuyến tính
 Xét một ví dụ của lớp dương (x+,1) và một ví dụ của lớp âm 
(x-,-1) gần nhất đối với siêu phẳng phân tách H0 (+b=0)
 Định nghĩa 2 siêu phẳng lề song song với nhau
 H+ đi qua x+, và song song với H0
H đi q a à song song ới H - u x-, v v 0
H+: +b = 1
H +b 1 [Eq.3]-: w⋅x- = -
sao cho: +b ≥ 1, nếu yi = 1
+b ≤ -1, nếu yi = -1
8Học Máy – IT 4862
Tính toán mức lề (1)
 Mức lề (margin) là khoảng cách giữa 2 siêu phẳng lề H+
và H Trong hình vẽ nêu trên:-. 
 d+ là khoảng cách giữa H+ và H0
 d- là khoảng cách giữa H- và H0
 (d+ + d−) là mức lề
 Theo lý thuyết đại số vectơ, khoảng cách (trực giao) từ
ột điể đế ặt iê hẳ (〈 〉 b 0) làm m xi n m s u p ng w ⋅ x + = :
||||
|| xw bi +〉⋅〈 [Eq.4]
trong đó ||w|| là độ dài của w: w
222|||| www +++=>⋅<= www [Eq.5]21 ... n
9Học Máy – IT 4862
Tính toán mức lề (2)
 Tính toán d+ – khoảng cách từ x+ đến (〈w ⋅ x〉 + b = 0)
Áp d ng các biể thức [Eq 3 4] ụ u . - :
||||
1
||||
|1|
||||
||
www
xw ==+〉⋅〈=
+
+
bd [Eq.6]
 Tính toán d- – khoảng cách từ x- đến (〈w ⋅ x〉 + b = 0)
 Áp dụng các biểu thức [Eq.3-4]:
Tí h t á ứ lề
||||
1
||||
|1|
||||
||
www
xw =−=+〉⋅〈=
−
−
bd [Eq.7]
 n o n m c
||||
2
w
=+= −+ ddmargin [Eq.8]
10Học Máy – IT 4862
Học SVM – Cực đại hóa mức lề
Định nghĩa (Linear SVM – Trường hợp phân tách được)
Tậ ồ í d h ấ l ệ ó thể hâ tá h t ế tí h p g m r v ụ u n uy n c p n c uy n n
D = {(x1,y1), (x2,y2), , (xr,yr)}
ằ ề SVM học một phân lớp nh m cực đại hóa mức l
 Tương đương với việc giải quyết bài toán tối ưu bậc
hai sau đây
 Tìm w và b sao cho: đạt cực đại
 Với điều kiện:
2
w
=margin
với mọi ví dụ huấn luyện xi (i=1..r)⎩⎨
⎧
=−≤+〉⋅〈
=≥+〉⋅〈
;
-1ynêu ,1
 1ynêu ,1
i
i
b
b
i
i
xw
xw
11Học Máy – IT 4862
Cực đại hóa mức lề – Bài toán tối ưu
 Học SVM tương đương với giải quyết bài toán cực tiểu
hóa có ràng buộc sau đây
Cực tiểu hóa: 〉⋅〈
2
ww [Eq.9]
Với điều kiện:
⎩⎨
⎧
−=−≤+〉⋅〈
=≥+〉⋅〈
1,1
1,1
ii
ii
yifb
yifb
xw
xw
 tương đương với
Cực tiểu hóa: 〉⋅〈 ww [Eq 10]
Với điều kiện: riby ii 1.. ,1)(
2
=∀≥+〉⋅〈 xw
.
12Học Máy – IT 4862
Lý thuyết tối ưu có ràng buộc (1)
 Bài toán cực tiểu hóa có ràng buộc đẳng thức:
Cực tiểu hóa f(x) với điều kiện g(x)=0, 
 Điều kiện cần để x0 là một lời giải:
⎧ ∂
với α là một hệ số nhân
(multiplier) Lagrange
( )
; 
 0
0
⎪⎩
⎪⎨
=
=+∂ =
)g(
)αg)f(
x
(xx
x
0xx
 Trong trường hợp có nhiều ràng buộc đẳng thức gi(x)=0 
(i=1..r), cần một hệ số nhân Lagrange cho mỗi ràng buộc:
với αi là một hệ số nhân
Lagrange
; 
0
0
1⎪⎩
⎪⎨
⎧ =⎟⎠
⎞⎜⎝
⎛ +∂
∂
==
∑
)(
)(gα)f(
r
i
ii xxx
0xx
 =gi x
13Học Máy – IT 4862
Lý thuyết tối ưu có ràng buộc (2)
 Bài toán cực tiểu hóa có các ràng buộc bất đẳng thức:
Cực tiểu hóa f(x) với các điều kiện g (x)≤0, i
 Điều kiện cần để x0 là một lời giải:
với αi ≥ 0;
0
0
1⎪⎩
⎪⎨
⎧
≤
=⎟⎠
⎞⎜⎝
⎛ +∂
∂
==
∑
)(
)(gα)f(
r
i
ii xxx
0xx
 Hàm
 gi x
được gọi là hàm Lagrange
∑
=
+=
r
i
ii )(gα)f(L
1
xx
14Học Máy – IT 4862
Giải bài toán cực tiểu hóa có ràng buộc
 Biểu thức Lagrange
]1)([
2
1),,(
1
−+〉⋅〈−〉⋅〈= ∑
=
bybL i
r
i
iiP xwwwαw α [Eq.11]
trong đó αi (≥0) là các hệ số nhân Lagrange
 Lý thuyết tối ưu chỉ ra rằng một lời giải tối ưu cho [Eq.11] 
phải thỏa mãn các điều kiện nhất định được gọi là các , 
điều kiện Karush-Kuhn-Tucker – là các điều kiện cần 
(nhưng không phải là các điều kiện đủ)
 Các điều kiện Karush-Kuhn-Tucker đóng vai trò trung 
tâm trong cả lý thuyết và ứng dụng của lĩnh vực tối ưu 
có ràng buộc 
15Học Máy – IT 4862
Tập điều kiện Karush-Kuhn-Tucker
0
1
=−=∂
∂ ∑
=
ixww
r
i
ii
P yαL [Eq.12]
0
1
=−=∂
∂ ∑
=
r
i
ii
P yα
b
L [Eq.13]
( ) )1(01b ∀ [E 14] , ..riyi =≥−+⋅ ii xxw q.
0≥iα [Eq.15]( )( ) 01 =−+⋅ byα xw [Eq 16]
 [Eq.14] chính là tập các ràng buộc ban đầu
 Điều kiện bổ sung [Eq.16] chỉ ra rằng chỉ những ví dụ (điểm dữ liệu) 
ii i .
thuộc các mặt siêu phẳng lề (H+ và H-) mới có αi>0 – bởi vì với 
những ví đụ đó thì yi(〈w⋅xi〉+b)-1=0
→Những ví dụ (điểm dữ liệu) này được gọi là các vectơ hỗ trợ!
ố Đ i với các ví dụ khác (không phải là các vectơ hỗ trợ) thì αi=0
16Học Máy – IT 4862
Giải bài toán cực tiểu hóa có ràng buộc
 Trong trường hợp tổng quát, các điều kiện Karush-Kuhn-
Tucker là cần đối với một lời giải tối ưu nhưng chưa đủ , 
 Tuy nhiên, đối với bài toán cực tiểu hóa đang xét có hàm 
mục tiêu lồi (convex) và các ràng buộc tuyến tính, thì các 
điề kiệ K h K h T k là ầ à đủ đối ới ột lờiu n arus - u n- uc er c n v v m 
giải tối ưu
 Giải quyết bài toán tối ưu này vẫn là một nhiệm vụ khó 
khăn – do sự tồn tại của các ràng buộc bất đẳng thức!
 Phương pháp Lagrange giải quyết bài toán tối ưu hàm lồi 
ẫ ế ể ố ẫ ốd n đ n một bi u thức đ i ng u (dual) của bài toán t i ưu
→ Dễ giải quyết hơn so với biểu thức cần tối ưu ban đầu 
(primal)
17Học Máy – IT 4862
Biểu thức đối ngẫu
 Để thu được biểu thức đối ngẫu từ biểu thức ban đầu:
→Gán giá trị bằng 0 đối với các đạo hàm bộ phận của biểu thức 
Lagrange trong [Eq.11] đối với các biến ban đầu (w và b)
→Sau đó, áp dụng các quan hệ thu được đối với biểu thức Lagrange 
ể ể Tức là: áp dụng các bi u thức [Eq.12-13] vào bi u thức Lagrange 
ban đầu ([Eq.11]) để loại bỏ các biến ban đầu (w và b)
 Biểu thức đối ngẫu L D
〉⋅〈−= ∑∑
==
ji
r
ji
jiji
r
i
iD yyL xxα
1,1 2
1)( ααα [Eq.17]
 Cả hai biểu thức LP và LD đều là các biểu thức Lagrange
 Dựa trên cùng một hàm một tiêu – nhưng với các ràng buộc khác nhau
Lời iải tì đ bằ á h tiể hó L h ặ đ i hó L g m ược, ng c c cực u a P o c cực ạ a D
18Học Máy – IT 4862
Bài toán tối ưu đối ngẫu
Cực đại hóa: 〉⋅〈−=∑ ∑
= =
yyL
r
i
r
ji
jijiiD 2
1)(
1 1
ααα ji xxα
[Eq.18]
Với điều kiện:
⎪⎩
⎪⎨
⎧
∀≥
=∑
=
i
y
r
i
ii
10
 0
1
,
α
 Đối với hàm mục tiêu là hàm lồi và các ràng buộc tuyến tính, giá trị
cực đại của LD xảy ra tại cùng các giá trị của w, b và αi giúp đạt được
= ri ..,α
giá trị cực tiểu của LP
 Giải quyết biểu thức [Eq.18], ta thu được các hệ số nhân Lagrange αi
(các hệ số αi này sẽ được dùng để tính w và b)
 Giải quyết biểu thức [Eq.18] cần đến các phương pháp số học (để giải
quyết bài toán tối ưu hàm lồi bậc hai có các ràng buộc tuyến tính)
→Chi tiết các phương pháp này nằm ngoài phạm vi của bài giảng! 
19Học Máy – IT 4862
Tính các giá trị w* và b*
 Gọi SV là tập các vectơ hỗ trợ
 SV là tập con của tập r các ví dụ huấn luyện ban đầu 
→αi>0 đối với các vectơ hỗ trợ xi
→αi=0 đối với các vectơ không phải là vectơ hỗ trợ xi
ể ể Sử dụng bi u thức [Eq.12], ta có th tính được giá trị w*
bởi vì ∀xi ∉ SV: αi=0;
1
∑∑ ==
SV
ii
r
i
ii yy xxw* ii αα
 Sử dụng biểu thức [Eq.16] và (bất kỳ) một vectơ hỗ trợ xk, ta có
 αk(yk(+b*)-1)=0
∈= ix
 Nhớ rằng αk>0 đối với mọi vectơ hỗ trợ xk
 Vì vậy: (yk(+b*)-1)=0
 Từ đây, ta tính được giá trị b*= yk-
20Học Máy – IT 4862
Ranh giới quyết định phân lớp
 Ranh giới quyết định phân lớp được xác định bởi siêu phẳng:
0=+〉⋅〈=+〉⋅〈= ∑ b*yαb*)f( ii i xxx*wx [Eq.19]
 Đối với một ví dụ cần phân lớp z, cần tính giá trị:
∈SVix
⎞⎛
→Nếu biểu thức [Eq 20] trả về giá trị 1 thì ví dụ z được phân vào lớp
⎟⎟⎠⎜
⎜
⎝
+〉⋅〈=+〉⋅〈 ∑
∈SV
ii b*yαsignb*)sign(
ix
i zxz*w [Eq.20]
. , 
có nhãn dương (positive); ngược lại, được phân vào lớp có nhãn
âm (negative)
 Việc phân lớp này:
 Chỉ phụ thuộc vào các vectơ hỗ trợ
 Chỉ cần giá trị tích vô hướng (tích trong) của 2 vectơ (chứ không
cần biết giá trị của 2 vectơ đấy)
21Học Máy – IT 4862
Linear SVM: Không phân tách được(1)
 Phương pháp SVM trong trường hợp các ví dụ phân lớp tuyến
tính nhưng không thể phân tách được?
 Trường hợp phân lớp tuyến tính và phân tách được là lý tưởng (ít
xảy ra)
 Tập dữ liệu có thể chứa nhiễu, lỗi (vd: một số ví dụ được gán nhãn
lớp sai) 
 Đối với trường hợp phân tách được, bài toán tối ưu:
〉〈Cực tiểu hóa:
Với điều kiện: riby ii ...,2,1,,1)(
2
=≥+〉⋅〈
⋅
xw
ww
 Nếu tập dữ liệu chứa nhiễu, các điều kiện có thể không được
thỏa mãn
Khô tì đ lời iải ( * à b*)!
→ ng m ược g w v
22Học Máy – IT 4862
Linear SVM: Không phân tách được (2)
Hai ví dụ nhiều xa và xb được gán nhãn lớp sai
[Liu, 2006]
23Học Máy – IT 4862
Nới lỏng các điều kiện 
 Để làm việc với các dữ liệu chứa nhiễu, cần nới lỏng các điều 
kiện lề (margin constraints) bằng cách sử dụng các biến slack
ξi (≥ 0) 
〈w⋅xi〉+b ≥ 1−ξiđối với các ví dụ có giá trị yi = 1
ố〈w⋅xi〉+b ≤ −1+ξi đ i với các ví dụ có giá trị yi = -1
 Đối với một ví dụ nhiễu/lỗi: ξi >1
 (Σiξi) là giới hạn trên của lỗi của các ví dụ huấn luyện
 Các điều kiện mới đối với trường hợp (phân lớp tuyến tính) 
ểkhông th phân tách được:
yi(〈w⋅xi〉+b) ≥ 1−ξi, ∀i =1..r
ξ 0 ∀i 1i ≥ , = ..r
24Học Máy – IT 4862
Tích hợp lỗi trong hàm mục tiêu
 Cần phải tích hợp lỗi trong hàm tối ưu mục tiêu
Bằ á h á iá t ị hi hí ( t) h á lỗi à tí h ng c c g n g r c p cos c o c c , v c
hợp chi phí này trong hàm mục tiêu mới:
Cực tiểu hóa: 〉〈 r
trong đó C (>0) là tham số xác định mức độ chi phí (penalty 
∑
=
+⋅
i
k
iC
1
)(
2
ξww
degree) đối với các lỗi
→ Giá trị C càng lớn, thì mức độ chi phí càng cao đối với các lỗi
 k =1 thường được sử dụng
 Lý do (ưu điểm): Thu được biểu thức đối ngẫu (dual formulation) 
đơn giản hơn – không chứa ξi và các hệ số nhân Lagrange của
chúng
25Học Máy – IT 4862
Bài toán tối ưu mới
+〉⋅〈 ∑2 C
r
iξww [Eq.21]Cực tiểu hóa:
⎩⎨
⎧
=∀≥
=∀−≥+〉⋅〈
=
10
1.. ,1)(
1
ri
riby iii
i
ξ
ξxwVới điều kiện:
 Bài toán tối ưu mới này được gọi là Soft-margin SVM
 .. ,i
 Biểu thức tối ưu Lagrange:
∑∑∑ −+−+〉⋅〈−+〉⋅〈= rrr byCL ]1)([1 ξμξαξ xwww
[Eq.22]
trong đó αi (≥0) và μi (≥0) là các hệ số nhân Lagrange
=== i
iiii
i
ii
i
iP
1112
26Học Máy – IT 4862
Tập điều kiện Karush-Kuhn-Tucker (1)
∑∂ rPL 0 [Eq 23]
=
=−=∂ i ii y1 ixww α
∂
.
0
1
=−=∂ ∑=
r
i
ii
P y
b
L α [Eq.24]
riCL iiP ..1 ,0 =∀=−−=∂
∂ μαξ [Eq.25]i
27Học Máy – IT 4862
Tập điều kiện Karush-Kuhn-Tucker (2)
( ) riby ii ..1 ,01 =∀≥+−+〉⋅〈 ξixw [Eq.26]
0≥iξ [Eq.27]
0≥iα
0≥μ
[Eq.28]
[Eq 29]i
( )( ) 01 =+−+〉⋅〈 iii by ξα ixw
.
[Eq.30]
0=iiξμ [Eq.31]
28Học Máy – IT 4862
Chuyển về biểu thức đối ngẫu
 Giống như với trường hợp dữ liệu có thể phân tách 
được, chúng ta chuyển biểu thức Lagrange từ dạng ban 
đầu (primal formulation) về dạng đối ngẫu (dual 
formulation)
 Gán giá trị bằng 0 cho các đạo hàm bộ phận của biểu thức 
Lagrange ([Eq.22]) đối với các biến ban đầu (w, b, ξi)
 Thay thế các kết quả thu được vào biểu thức Lagrange ban đầu
ế ể ể ế→Sử dụng các k t quả của các bi u thức [Eq.23-25] đ thay th 
vào trong biểu thức Lagrange ban đầu [Eq.22]
Từ biể thứ [E 25] t ó C 0 u c q. , a c : - αi - μi = , 
 và bởi vì: μi ≥0,
 nên ta suy ra điều kiện: α ≤C i
29Học Máy – IT 4862
Biểu thức đối ngẫu
〉⋅〈−=∑ ∑21)( yyL
r r
jijiiD ααα ji xxαCực đại hóa:
⎪⎨
⎧ =∑
= =
 0
1 1,
y
r
ii
i ji
α [Eq.32]Với điều kiện:
⎪⎩ =∀≤≤
= 
..1 ,0
1
riCi
i α
 Quan trọng: ξi và các hệ số nhân Lagrange của chúng 
(μi) không xuất hiện trong biểu thức đối ngẫu
→ Hàm mục tiêu giống hệt như đối với bài toán phân lớp 
tuyến tính phân tách được (separable linear classification)!
 Khác biệt duy nhất là tập các ràng buộc mới: αi ≤C 
30Học Máy – IT 4862
Tìm lời giải cho các biến ban đầu
 Bài toán đối ngẫu [Eq.32] được giải quyết bằng các phương 
pháp số học (để giải quyết bài toán tối ưu hàm lồi bậc hai có 
ếcác ràng buộc tuy n tính)
 Các giá trị (hệ số nhân Lagrange) αi lời giải được sử dụng để 
tính toán w* và b* 
 w* được xác định sử dụng biểu thức [Eq.23]
 b* được xác định sử dụng các điều kiện bổ sung Karush-Kuhn-
ấ ề ếTucker trong [Eq.30-31] nhưng, có v n đ : ξi chưa bi t!
 Để tính được b*
 Từ [Eq.25] và [Eq.31], ta suy ra được: ξi=0 nếu αi<C 
 Vì vậy, ta có thể sử dụng một ví dụ học xk thỏa mãn điều kiện 
(0<αk<C) và [Eq.30] (với ξk =0) để tính toán b*
 Đến đây, việc tính toán b* tương tự như với trường hợp phân lớp 
tuyến tính phân tách được!
31Học Máy – IT 4862
Các đặc điểm quan trọng
 Từ các biểu thức [Eq.25-31], ta có thể suy ra các kết luận sau: 
( ) 0 và,1thì0Nêu ii =≥+〉⋅〈= ξα byi ixw ( )
( ) 0 và,1thìNêu
0 và,1thì0Nêu
ii
ii
><+〉⋅〈=
==+〉⋅〈<<
ξα
ξα
byC
byC
i
i
i
i
xw
xw [Eq.33]
 Biểu thức [Eq.33] thể hiện một đặc điểm rất quan trọng của SVM
 Lời giải được xác định dựa trên rất ít (sparse) các giá trị αi
 Rất nhiều ví dụ học nằm ngoài khoảng lề (margin area) và chúng có giá , 
trị αi bằng 0
 Các ví dụ nằm trên lề (yi(〈w⋅xi〉+b)=1 – chính là các vectơ hỗ trợ), thì có 
giá trị αi khác không (0<αi<C)
 Các ví dụ nằm trong khoảng lề (yi(〈w⋅xi〉+b)<1 – là các ví dụ nhiễu/lỗi), 
thì có giá trị αi khác không (αi=C)
 Nếu không có đặc điểm thưa thớt (sparsity) này, thì phương pháp 
SVM không thể hiệu quả đối với các tập dữ liệu lớn
32Học Máy – IT 4862
Ranh giới quyết định phân lớp
 Ranh giới quyết định phân lớp chính là siêu phẳng:
** 〉〈〉〈 ∑ bb r
→Rất nhiều ví dụ học xi có giá trị αi bằng 0! (chính là đặc 
0
1
=+⋅=+⋅
=
y
i
iii xxx*w α
điểm thưa thớt – sparsity – của phương pháp SVM)
 Đối với một ví dụ cần phân loại z, nó được phân loại bởi:
sign(〈w*⋅z〉+b*)
 Cần xác định giá trị phù hợp của tham số C (trong hàm 
tối ưu mục tiêu)
→ Thường được xác định bằng cách sử dụng một tập dữ liêu tối 
ưu (validation set) 
33Học Máy – IT 4862
Linear SVM – Tổng kết
 Sự phân lớp dựa vào siêu phẳng phân tách
ẳ Siêu ph ng phân tách được xác định dựa trên tập các vectơ
hỗ trợ
 Chỉ đối với các vectơ hỗ trợ thì hệ số nhân Lagrange của , 
chúng khác 0
 Đối với các ví dụ huấn luyện khác (không phải là các vectơ hỗ 
trợ) thì hệ số nhân Lagrange của chúng bằng 0, 
 Việc xác định các vectơ hỗ trợ (trong số các ví dụ huấn luyện) 
đòi hỏi phải giải quyết bài toán tối ưu bậc hai
 Trong biểu thức đối ngẫu (LD) và trong biểu thức biểu diễn 
siêu phẳng phân tách, các ví dụ huấn luyện chỉ xuất hiện bên 
trong các tích vô hướng (inner/dot-products) của các vectơ 
34Học Máy – IT 4862
SVM phân lớp phi tuyến – Non-linear SVM
 Lưu ý: Các công thức trong phương pháp SVM đòi hỏi tập dữ liệu phải 
có thể phân lớp tuyến tính (có/không nhiễu)
 Trong nhiều bài toán thực tế, thì các tập dữ liệu có thể là phân lớp phi 
tuyến (non-linearly separable)
 Phương pháp phân loại SVM phi tuyến (Non-linear SVM): 
 Bước 1. Chuyển đổi không gian biểu diễn đầu vào ban đầu 
sang một không gian khác (thường có số chiều lớn hơn nhiều)
→ Dữ liệu được biểu diễn trong không gian mới (đã chuyển đổi) có thể 
phân lớp tuyến tính (linearly separable)
 Bước 2. Áp dụng lại các công thức và các bước như trong 
phương pháp phân lớp SVM tuyến tính 
 Không gian biểu diễn ban đầu: Không gian đầu vào (input space)
 Không gian biểu diễn sau khi chuyển đổi: Không gian đặc trưng 
(f t )ea ure space
35Học Máy – IT 4862
Chuyển đổi không gian biểu diễn (1)
 Ý tưởng cơ bản là việc ánh xạ (chuyển đổi) biểu diễn dữ 
liệ từ khô i b đầ X ột khô i khá Fu ng g an an u sang m ng g an c 
bằng cách áp dụng một hàm ánh xạ phi tuyến φ
:φ FX →
)(xx φa
 Trong không gian đã chuyển đổi, tập các ví dụ học ban 
đầu {(x1, y1), (x2, y2), , (xr, yr)} được biểu diễn (ánh xạ) 
t ứương ng:
{(φ(x1), y1), (φ(x2), y2), , (φ(xr), yr)} 
36Học Máy – IT 4862
Chuyển đổi không gian biểu diễn (2)
[Liu, 2006]
• Trong ví dụ này, không gian sau chuyển đổi vẫn là có số 
chiều bằng không gian ban đầu (2 chiều) 
• Nhưng thông thường, số chiều của không gian sau chuyển 
đổi (feature space) lớn hơn (nhiều) số chiều của không gian 
ầ ( )ban đ u input space
37Học Máy – IT 4862
Non-linear SVM – Bài toán tối ưu
 Sau quá trình chuyển đổi không gian biểu diễn, bài toán tối ưu:
+〉⋅〈= ∑ CL r iP ξwwCực tiểu hóa:
( )
⎩⎨
⎧
=∀≥
=∀−≥+〉⋅〈
=
 ..1 ,0
..1 ,1)(
2 1
ri
riby
i
ii
i
ξ
ξφ ixw
[Eq.34]
Với điều kiện:
 Bài toán (tối ưu) đối ngẫu:
)()(
2
1 〉⋅〈−= ∑∑ yyL r jijir iD φφααα ji xxCực đại hóa:
10
 0
1
1,1
⎪⎩
⎪⎨
⎧
=∀≤≤
=∑
=
==
riC
y
r
i
ii
jii
α
α
[Eq.35]
Với điều kiện:
 Ranh giới quyết định phân lớp là siêu phẳng phân tách:
.. ,i
0)*)()(*)()( =+〉⋅〈=+〉⋅〈= ∑r bybf zxz*wz φφαφ [Eq 36]
1=i
ii i .
38Học Máy – IT 4862
Chuyển đổi không gian – Ví dụ
 Xét không gian biểu diễn ban đầu có 2 chiều, và chúng ta 
h hà á h từ khô i b đầ (2 D)c ọn m n xạ ng g an an u - sang 
không gian mới (3-D) như sau:
)2()( 22
 Xét ví dụ học (x=(2 3) y=-1) trong không gian ban đầu
,, , 212121 xxxxxx a
 , , 
(2-D)
 Trong không gian sau chuyển đổi (3-D) thì ví dụ học này , 
được biểu diễn như sau:
(φ(x)=(4, 9, 8.49), y=-1)
39Học Máy – IT 4862
Chuyển đổi không gian – Trở ngại
 Việc chuyển đổi không gian một cách trực tiếp có thể gặp vấn 
đề về số chiều không gian quá lớn (curse of dimensionality)
 Ngay cả với một không gian ban đầu có số chiều không lớn, 
một hàm chuyển đổi (ánh xạ) thích hợp có thể trả về một 
khô i ới ó ố hiề ất lớng g an m c s c u r n
→ “thích hợp” ở đây mang ý nghĩa là hàm chuyển đổi cho phép 
xác định không gian mới mà trong đó tập dữ liệu có thể phân lớp 
tuyến tính
 Vấn đề: Chi phí tính toán quá lớn đối với việc chuyển đổi 
khô i t tiếng g an rực p
 Rất may, việc chuyển đổi không gian trực tiếp là không cần 
thiết
40Học Máy – IT 4862
Các hàm nhân – Kernel functions
 Trong biểu thức đối ngẫu ([Eq.35]) và trong biểu thức siêu phẳng 
phân tách ([Eq.36]):
 Việc xác định trực tiếp (cụ thể) giá trị φ(x) và φ(z) là không cần thiết
 Chỉ cần tính giá trị tích vô hướng vectơ 〈φ(x)⋅φ(z)〉
Việc chuyển đổi không gian trực tiếp là không cần thiết!→ 
 Nếu có thể tính được tích vô hướng vectơ 〈φ(x)⋅φ(z)〉 trực tiếp từ 
các vectơ x và z, thì không cần phải xác định (không cần biết): 
 vectơ đặc trưng (trong không gian sau chuyển đổi) φ(x), và
 hàm chuyển đổi (ánh xạ) φ
 Trong phương pháp SVM, mục tiêu này đạt được thông qua việc 
sử dụng các hàm nhân (kernel functions), được ký hiệu là K
K(x z) = 〈φ(x)⋅φ(z)〉 [Eq 37], .
41Học Máy – IT 4862
Hàm nhân – Ví dụ
 Hàm nhân đa thức
K(x z) = 〈x⋅z〉d [Eq.38], 
 Xét hàm nhân đa thức với bậc d=2, đối với 2 vectơ được biểu 
diễn trong không gian 2 chiều: x=(x1,x2) và z=(z1,z2)
2
)( 22
2222
2
11
2zx
zxzxzxzx
zxzx
++=
+=〉⋅〈
)2()2( 
2222
2222
1
22
11
22
1
1111
 zz,z,zxx,x,x 〉⋅〈=
 Ví dụ trên thể hiện hàm nhân 〈x⋅z〉2 là một tích vô hướng của 2 
vectơ φ(x) và φ(z) trong không gian sau chuyển đổi
),()()( zxzx K=〉⋅〈= φφ
42Học Máy – IT 4862
Kernel trick
 Diễn giải chi tiết của các bước tính toán trong ví dụ trên 
chỉ mang mục đích giải thích (minh họa) 
 Trong thực tế, ta không cần phải tìm (xác định) hàm ánh 
xạ φ 
 Bởi vì: Ta có thể áp dụng hàm nhân một cách trực tiếp
→Thay thế tất cả các giá trị tích vô hướng vectơ 
〈φ(x)⋅φ(z)〉 trong [Eq.35-36] bằng một hàm nhân được 
chọn K(x z) (ví dụ: hàm nhân đa thức 〈x⋅z〉d trong , 
[Eq.38])
 Chiến lược này được gọi là kernel trick! 
43Học Máy – IT 4862
Kernel function – How to know?
 Làm sao để biết một hàm là hàm nhân hay không – mà 
không cần thực hiện các bước suy diễn (phân tích) cụ 
thể như trong ví dụ minh họa?
Là để biết ột hà ó hải là ột tí h ô→ m sao m m c p m c v 
hướng vectơ trong một không gian nào đó?
 Câu hỏi này được trả lời bằng định lý Mercer (Mercer’s 
theorem)
Nằ ài h i ủ bài iả à !→ m ngo p ạm v c a g ng n y
44Học Máy – IT 4862
Các hàm nhân thường dùng
 Đa thức:
( ) NR,dθθ),K( d ∈∈+〉⋅〈= :đó trong;zxzx
 Gaussian RBF (Gaussian radial basis function)
0đót2
2
>
−−
)K( σ
zx
 Xích-ma (Sigmoidal)
 : rong;= σe,zx
( ) Rβ,λe
λ)(),K(
λ
∈+=−〉⋅〈= −〉⋅〈− :đó trong;1
1tanh zxzxzx ββ
45Học Máy – IT 4862
Phân lớp bằng SVM – Các vấn đề
 SVM chỉ làm việc với không gian đầu vào là các số thực
→Đối với các thuộc tính định danh (nominal), cần chuyển các giá trị định 
danh thành các giá trị số
 SVM chỉ làm việc (thực hiện phân lớp) với 2 lớp
→Đối với các bài toán phân lớp gồm nhiều lớp, cần chuyển thành một tập 
các bài toán phân lớp gồm 2 lớp, và sau đó giải quyết riêng rẽ từng bài 
toán 2 lớp này
→ Ví dụ: chiến lược “one-against-rest”
 Siêu phẳng phân tách (ranh giới quyết định phân lớp) xác định 
được bởi SVM thường khó hiểu đối với người dùng
 Vấn đề (khó giải thích quyết định phân lớp) này càng nghiêm trọng, nếu 
các hàm nhân (kernel functions) được sử dụng
 SVM thường được dùng trong các bài toán ứng dụng mà trong đó việc 
giải thích hoạt động (quyết định) của hệ thống cho người dùng không 
ầphải là một yêu c u quan trọng
46Học Máy – IT 4862
Tài liệu tham khảo
•B. Liu. Web Data Mining: Exploring Hyperlinks, 
Contents, and Usage Data. Springer, 2006.
•C. J. C. Burges. A Tutorial on Support Vector 
Machines for Pattern Recognition. Data Mining and 
Knowledge Discovery, 2(2): 121-167, 1998.
47Học Máy – IT 4862
File đính kèm:
bai_giang_hoc_may_bai_9_cac_phuong_phap_hoc_co_giam_sat_phan.pdf