Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu - Phân lớp và đánh giá
20.1. GIỚI THIỆU
Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập
đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra
các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này,
chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành
từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các
khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo
tài liệu về chủ đề này (Phụ lục 2)
20.2. PHÂN LỚP
20.2.1. Chọn lọc đặc trưng
Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng
ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả.
Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị
tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các
đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết
đối tượng.
Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực
giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật
sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều
này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất.
Các đặc trưng tốt có bốn đặc điểm:
1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách
đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là
dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị
khác nhau đối với những quả sơ ri và những quả nho.
2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối
tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo
nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo
xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai
đều thuộc lớp đối tượng là các quả táo.
3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan
với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc
trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba.
Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một
tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan
chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau)402
để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được
sử dụng như những đặc trưng độc lập.
4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng
theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số
các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của
nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể
đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng
chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng
tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của
những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện.
Trong thực tế, quá trình chọn lựa đặc trưng thường bao gồm cả việc kiểm tra tập
các đặc trưng hợp lý quatrực giác và việc giảm tập xuống còn một số các đặc trưng
tốt nhất có thể chấp nhận. Thường có ít hoặc không có sẵn các đặc trưng lý tưởng
dưới dạng các tính chất đã nói ở trên.
Tóm tắt nội dung tài liệu: Bài giảng Xử lý ảnh - Chương 20: Nhận dạng mẫu - Phân lớp và đánh giá
401 Ch¬ng 20 NHẬN DẠNG MẪU: PHÂN LỚP VÀ ĐÁNH GIÁ 20.1. GIỚI THIỆU Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này, chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo tài liệu về chủ đề này (Phụ lục 2) 20.2. PHÂN LỚP 20.2.1. Chọn lọc đặc trưng Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả. Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết đối tượng. Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất. Các đặc trưng tốt có bốn đặc điểm: 1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị khác nhau đối với những quả sơ ri và những quả nho. 2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai đều thuộc lớp đối tượng là các quả táo. 3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba. Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau) 402 để làm giảm tính nhậy cảm đối với nhiễu, thì nói chung chúng lại không được sử dụng như những đặc trưng độc lập. 4. Các số nhỏ. Tính phức tạp của một hệ thống nhận dạng mẫu tăng nhanh chóng theo kích cỡ (số các đặc trưng được dùng) của hệ thống. Quan trọng hơn là số các đối tượng cần có để huấn luyện bộ phân lớp và để đo lường hiệu suất của nó tăng theo cấp số mũ với số các đặc trưng. Trong vài trường hợp, để có thể đạt được lượng dữ liệu cần thiết cho việc huấn luyện bộ phân lớp tương xứng chỉ là điều hão huyền. Cuối cùng, việc thêm các đặc trưng nhiễu hay đặc trưng tương quan chặt với các đặc trưng hiện có có thể làm suy giảmhiệu suất của những bộ phân lớp, đặc biệt bởi vì kích thước giới hạn của tập huấn luyện. Trong thực tế, quá trình chọn lựa đặc trưng thường bao gồm cả việc kiểm tra tập các đặc trưng hợp lý quatrực giác và việc giảm tập xuống còn một số các đặc trưng tốt nhất có thể chấp nhận. Thường có ít hoặc không có sẵn các đặc trưng lý tưởng dưới dạng các tính chất đã nói ở trên. 20.2.2. Thiết kế bộ phân lớp Thiết kế bộ phân lớp bao gồm việc thiết lập cấu trúc logic của bộ phân lớp và cơ sở toán học của quy tắc phân lớp. Thông thường, đối với mỗi đối tượng thường gặp, sự phân lớp tính toán, với từng lớp, giá trị báo hiệu (bằng độ lớn của nó) mức độ mà đối tượng đó tương tự đối tượng điển hình của lớp đó. Giá trị này được tính như một hàm đặc trưng và nó được dùng để chọn lớp gần giống với công việc được giao nhất. Hầu hết các quy tắc quyết định bộ phân lớp đều giảm đến một vạch ngưỡng phân chia các không gian kích cỡ thành các vùng rời nhau, mỗi lớp một (hoặc nhiều) vùng. Mỗi vùng (phạm vi các giá trị đặc trưng) ứng với một lớp riêng lẻ. Nếu các giá trị đặc trưng nằm trong một vùng riêng biệt thì đối tượng được ấn định cho lớp tương ứng. Trong vài trường hợp, một hoặc nhiều vùng như vậy có thể ứng với một lớp “không xác định”. 20.2.3. Huấn luyện bộ phân lớp Một khi các quy tắc quyết định cơ bản của bộ phân lớp đã được thiết lập thì ta phải xác định các giá trị ngưỡng riêng biệt phân tách các lớp. Điều này thường được thực hiện bằng cách huấn luyện bộ phân lớp theo nhóm các đối tượng đã biết. Tập huấn luyện là một tập hợp các đối tượng từ mỗi lớp đã được nhận biết trước đó bằng một phương pháp chính xác nào đó. Các đối tượng trong tập huấn luyện được đo, và không gian kích cỡ được phân chia, bằng các bề mặt quyết định, thành các vùng mà độ chính xác của bộ phân lớp là tối đa khi nó hoạt động trên tập huấn luyện. Khi huấn luyện một bộ phân lớp, ta có thể sử dụng quy tắc đơn lẻ, ví dụ như tối thiểu hoá tổng các sai số phân lớp. Nếu một vài sự phân lớp sai lầm có thể gây rắc rối hơn những cái khác thì ta có thể thiết lập một hàm giá để giải thích điều này bằng cách cân nhắc các sai số khác nhau một cách gần đúng. Các đường quyết định sau đó được đặt vào để tối thiểu hoá toàn bộ “giá” của việc thao tác bộ phân lớp. Nếu tập huấn luyện là biểu diễn của các đối tượng nói chung thì bộ phân lớp loại cũng phải thực hiện xung quanh các đối tượng mới giống như nó đã từng thực hiện trên tập huấn luyện. Có được một tập huấn luyện đủ lớn thường là một công việc gian khổ. Để được thể hiện, tập huấn luyện phải bam gồm các ví dụ về tất cả những đối tượng có thể gặp, kể cả những đối tượng hiếm khi nhìn thấy. Nếu tập huấn luyện ngăn chận một đối tượng không phổ biến nào đó, thì nó không biểu hiện. Nếu nó chứa các sai số phân lớp thì nó bị thành kiến. 403 20.2.4. Xác định hiệu suất Sự chính xác của một bộ phân lớp có thể được đánh giá trực tiếp bằng cách liệt kê hiệu suất của nó dựa trên tập các đối tượng kiểm tra đã biết. Nếu tập kiểm tra đủ lớn để biểu diễn các đối tượng lớn và nếu nó không có sai số, thì hiệu suất được đánh giá có thể rất hữu ích. Một phương pháp lựa chọn cho việc đánh giá hiệu suất là sử dụng tập kiểm tra của các đối tượng đã biết để đánh giá PDF của những đặc trưng theo từng nhóm. Từ những PDF cơ bản đã cho, ta có thể sử dụng các tham số phân lớp để tính tỷ lệ sai số mong muốn. Nếu đã dạng tổng quát của các PDF đó thì kỹ thuật này có thể sử dụng tập kiểm tra kích thước ở mép tốt hơn. Ta muốn có được hiệu suất của bộ phân lớp trên tập huấn luyện như một phép đo toàn bộ hiệu suất của nó, nhưng đánh giá này thường bị nghi ngờ về tính lạc quan. Một phương pháp tiếp cận tốt hơn là sử dụng một tập kiểm tra riêng biệt đối với việc đánh giá hiệu suất của bộ phân lớp. Tuy nhiên, điều này làm tăng đáng kể sự cần thiết của những dữ liệu trước phân lớp. Nếu những đối tượng đã phân lớp trước đây được đánh giá cao, thì ta có thể sử dụng một thủ tục vòng luân chuyển mà trong đó bộ phân lớp được huấn luyện với hầu hết mọi đối tượng và tiếp theo sau là đối tượng đó được phân lớp. Khi điều này được thực hiện với tất cả các đối tượng thì ta sẽ có một đánh giá của toàn bộ hiệu suất thực hiện của bộ phân lớp. 20.3. CHỌN LỰA ĐẶC TRƯNG Trong một bài toán nhạn dạng mẫu, ta thường phải đối mặt với côngviệc chọn lựa trong nhiều đặc trưng sẵn có, đặc trưng nào xác định và thể hiện bộ phân lớp. Bài toán chọn lựa đặc trưng đã nhận được sự quan tâm đáng kể trong tài liệu, nhưng lại nổi lên tình trạng không rõ ràng. Phần này dành cho độc giả như một vấn đề lý thú. Như đã lưu ý trước đây, ta tìm kiếm một tập nhỏ các đặc trưng tin cậy, độc lập và sự phân biệt đối xử. Nói chung, ta mong muốn làm suy giảm hiệu suất của bộ phân lớp khi các đặc trưng được đánh giá, ít ra cũng là những đặc trưng hữu ích. Thực tế, đánh giá nhiễu hay các đặc trưng tương quan chặt có thể thực sự cải tiến hiệu suất thực hiện. Sau đó, chọn lựa đặc trưng có thể được coi như quá trình đánh giá một vài đặc trưng và kết hợp các đặc trưng có liên quan khác, cho đến khi tập đặc trưng trở nên dễ sử dụng và sự thực hiện vẫn còn chính xác. Nếu tập đặc trưng được giảm từ M đặc trưng xuống còn một lượng N nào đó nhỏ hơn, thì chúng ta sẽ tìm kiếm tập N đặc trưng riêng biệt để tối thiểu hoá toàn bộ việc thực hiện bộ phân lớp. Một phương pháp tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần để chọn lựa đặc trưng được cho dưới đây. Đối với tất cả các tập con của N đặc trưng có thể có, huấn luyện bộ phân lớp, và xác định hiệu suất của nó bằng cách liệt kê các tỷ số phân lớp nhầm các nhóm khác nhau của bộ phân lớp. Sau đó tạo ra một chỉ số hiệu suất tổng thể là một hàm tỷ số lỗi. Cuối cùng, sử dụng tập N đặc trưng đó để tạo ra chỉ số hiệu suất tốt nhất. Dĩ nhiên bài toán với cách tiếp cận bằng cách lặp đi lặp lại một thủ tục đơn giản nhiều lần là một khối lượng khổng lồ đối với tất cả trừ các bài toán nhận dạng mẫu đơn giản nhất. Thực tế, thường thì tài nguyên chỉ đủ để huấn luyện và đánh giá bộ phân lớp. Trong đa số các bài toán thực tiễn, phương pháp tiếp cận bằng cách lặp đi 404 lặp lại một thủ tục đơn giản nhiều lần là không thực tế và một kỹ thuật ít tốn tiền phải được sử dụng để đạt được cùng một mục đích. Trong phần thảo luận dưới đây, chúng ta sẽ xem xét trường hợp giảm một bài toán hai đặc trưng xuống còn một đặc trưng đơn giản. Giả sử tập huấn luyện là có sẵn và chứa các đối tượng của M lớp khác nhau. Đặt Nj là số đối tượng trong lớp j. Hai đặc trưng xij và yij thu được khi xác định đối tượng thứ i trong lớp j. Ta có thể khởi đầu bằng việc tính giá trị trung bình của từng đặc trưng trong mỗi lớp: jN i ij j xj xN 1 1 (1) và jN i ij j yj yN 1 1 (2) Dấu mũ trên đầu xj và yj nhắc ta rằng đây là những đánh giá của các giá trị trung bình trong lớp dựa trên tập huấn luyện, chứ không phải là các giá trị trung bình thật sự của lớp. 20.3.1. Độ lệch đặc trưng Lý tưởng mà nói, các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối tượng trong cùng một lớp. Độ lệch đặc trưng x trong lớp j được đánh giá là jN i xjij j xj xN 1 2 2 1 (3) và đối với đặc trưng y là jN i yjij j yj yN 1 2 2 1 (4) 20.3.2. Tương quan đặc trưng Sự tương quan của các đặc trưng x và y trong lớp j có thể được đánh giá bởi yjxj N i yjijxjij j xyj j yx N 1 1 (5) Đại lượng này nằm giữa -1 và +1. Giá trị 0 cho thấy rằng hai đặc trưng là không tương quan, trong khi giá trị gần +1 cho thấy một mức đọ cao của sự tương quan. Giá trị -1 chứng tỏ rằng mỗi biến tỷ lệ với giá trị âm của biến khác. Nếu độ lớn của một tương quan xấp xỉ 1, thì hai đặc trưng có thể được kết hợp thành một hay có thể bỏ đi một trong hai đặc trưng đó. 20.3.3. Khoảng cách phân tách lớp Một phép tính xác đáng về khả năng của một đặc trưng để phân biệt hai lớp là khoảng cách độ lệch đã chuẩn hoá giữa các giá trị trung bình của lớp. Với đặc trưng x, khoảng cách này được cho bởi 405 22 xkxj xkxj xjkD (6) trong đó j, k là hai lớp. Rõ ràng, đặc trưng cao hơn là đặc trưng tạo ra sự tách lớp phổ biến nhất. 20.3.4. Giảm chiều Có nhiều phương pháp kết hợp hai đặc trưng x và y thành một đặc trưng z đơn lẻ. Một phương pháp đơn giản là sử dụng một hàm tuyến tính (Xem phần 13.6.2.1) byaxz (7) Bởi vì hiệu suất phân lớp không bị ảnh hưởng bởi việc lấy tỷ lệ độ lớn của các đặc trưng, chúng ta có thể lợi dụng sự hạn chế về độ lớn, ví dụ như 122 ba (8) Biểu thức này có thể hợp nhất với biểu thức (7) bằng cách viết sincos yxz (9) trong đó là một biến mới chỉ rõ tỷ lệ của x và y trong biểu thức. Nếu mỗi đối tượng trong tập huấn luyện tương ứng với một điểm trong không gian đặc trưng hai chiều (ví dụ mặt phẳng x, y), thì biểu thức (9) miêu tả mọi điểm lên trục z, làm thành với trục x một góc . Điều này được cho trong bảng 20-1. Rõ ràng, phải được chọn để tối thiểu hoá sự tách lớp hay một tiêu chuẩn chất lượng nào đó của một đặc trưng. Để hiểu thêm về sự giảm chiều, độc giả nên tham khảo một cuốn sách nói về nhận dạng mẫu. HÌNH 20-1 Hình 20-1 Giảm chiều bằng phép chiếu 20.4. SỰ PHÂN LỚP THỐNG KÊ Trong phần này, chúng ta sẽ xem xét một vài phương pháp thống kê phổ biến được dùng cho phân lớp. 406 20.4.1. Lý thuyết quyết định thống kê Giả sử chúng ta có một bài toán sắp xếp trái cây đơn giản như trong chương 18, nhưng chỉ với hai lớp và một đặc trưng đơn lẻ. Nghĩa là các đối tượng thể hiện chính bản thân chúng theo lớp 1 (anh đào) hoặc lớp 2 (táo). Đối với mỗi đối tượng, ta xác định một tính chất, đường kính, và ta gọi đặc trưng này là x. Có thể biết trước PDF của đường kính x đối với một hay cả hai lớp đối tượng. Ví dụ, Hiệp hội nông dân trồng anh đào có thể phát hành một bản tin mở đầu là đường kính trung bình của các quả anh đào là 20 mm và PDF là xẫpỉ hàm Gauss với độ lệch tiêu chuẩn là 4 mm. Nếu không biết PDF của đừng kính những quả táo, ta có thể ước lượng nó bằng cách đo một lượng lớn các quả táo, vẽ lược đồ các đường kính của chúng và tính trung bình và độ lệch. Sau đó chuẩn hoá thành đơn vị diện tích và có lẽ nên làm trơn, có thể coi lược đồ này như một ước lượng củaPDF tương ứng. 20.4.1.1. Xác suất tiên nghiệm Nói chung, đó là khả năng một lớp hầu như sẽ xuất hiện không theo thứ tự. Ví dụ, giả sử băng truyền trong ví dụ sắp xếp trái cây đã biết, vận chuyển số anh đào nhiều gấp hai lần số táo mỗi chu kỳ vận hành. Vì thế, ta có thể nói rằng một xác suất tiên nghiệm của hai lớp là 3 1 3 2 2 CPCP i vµ (10) Các biểu thức này phát biểu đơn giản rằng lớp 1 có khả năng xuất hiện gấp hai lần lớp 2. Xác suất tiên nghiệm biểu diễn điều mà chúng ta biết về một đối tượng trước khi nó được xác định. Trong ví dụ này, chúng ta ta biết rằng một đối tượng chưa xác định là anh đào có khả năng xuất hiện gấp hai lần táo. Xác suất có điều kiện. Hình 20-2 trình bày hình dạng của hai PDF. Ta ký hiệu PDF có điều kiện đối với đường kính anh đào là P(x|C1), có thể đọc là “xác suất mà đường kính x sẽ xuất hiện, khi đã biết xác suất xuất hiện đối tượng thuộc lớp 1”. Tương tự, P(x|C2) là xác suất xuất hiện của đường kính x, khi đã biết xác suất xuất hiện lớp 2. HÌNH 20-2 Hình 20-2 Các PDF có điều kiện 20.4.1.2. Định lý Bayes Trước khi một đối tượng được xác định, ta chỉ biết nó chỉ gồm xác suất tiên nghiệm của biểu thức (10). Tuy nhiên, sau khi xác định, ta có thể sử dụng số đo và 407 các PDF có điều kiện để chứng tỏ hiểu biết của ta về thành viên lớp của đối tượng. Sau khi xác định, cái gọi là xác suất hậu nghiệm để đối tượng thuộc lớp i được cho bởi định lý Bayes; tức là, xp CPCxp xCP iii | | (11) trong đó 2 1 | i ii CPCxpxp (12) là hệ số chuẩn hoá cần thiết để tạo thành tổng các xác ... hiết là đánh giá của một hay nhiều tỷ lệ-tức là phần nào đó trong toàn bộ đối tượng nằm trong mỗi lớp. Đối với vấn đề này, chúng ta đưa ra chủ đề ước lượng tỷ lệ thức từ lĩnh vực thống kê. 424 20.6.1. Trường hợp hai lớp, không sai số Định nghĩa. Giả sử chúng ta muốn xác định tỷ lệ p của số sinh viên nữ trong một trường đại học (0 p 1). Chúng ta bắt đầu với các định nghĩa như sau: Pp {lựa chọn sinh viên ngẫu nhiên là nữ} (40) Pq {lựa chọn sinh viên ngẫu nhiên được gọi là nữ} (41) Vì chúng ta đang giả thiết rằng chúng ta có thể chỉ ra số sinh viên nữ mà không có sai sót nào, p và q hoàn toàn giống nhau trong trường hợp này. Tiếp theo chúng ta đưa ra một thí nghiệm bằng cách phỏng vấn N sinh viên được chọn lựa ngẫu nhiên. Chúng ta tìm được n trong số họ là nữ và N - n trong số họ là nam. Tự nhiên ta có tỷ lệ mẫu, N nq (42) như một ước lượng của tỷ lệ sinh viên nữ. Tuy nhiên, trừ khi N đủ lớn để bao gồm toàn bộ số sinh viên, sẽ chẳng có gì tốt hơn một ước lượng của tỷ lệ p cơ bản thực sự. Nếu N là nhỏ, nó có thể là một ước lượng kém. Khác biệt giữa giá trị của q từ một thí nghiệm cụ thể nào đó với tỷ lệ thực sự p có thể quy về sai số lấy mẫu thống kê. 20.6.1.1. Sự phân bố của ước lượng Nếu chúng ta lặp lại thí nghiệm trên nhiều lần, chúng ta sẽ quan sát được các giá trị khác nhau của q . Trong thực tế, q là một biến ngẫu nhiên với phân bố nhị thức. Với N lớn (chẳng hạn, lớn hơn 24), phân bố này là xấp xỉ của Gauss (chuẩn hoá) với giá trị trung bình và độ lệch tiêu chuẩn tưng ứng. N pppq q 1 vµ (43) Nhắc lại rằng xấp xỉ 95% diện tích phân bố chuẩn nằm trong phạm vi hai độ lệch tiêu chuẩn trên mỗi phần giá trị trung bình. Do đó, ta có thể nói với độ tin cậy 95% mà bất kỳ một tỷ lệ quan sát q nào cũng nằm giữa p - 2q và p + 2q. Khi kích thước mẫu tăng, sự phân bố trở nên từ từ hẹp lại hơn xung quanh giá trị trung bình p của nó, đó thực sự là tỷ lệ sinh viên nữ trong trường đại học. Vì thế, chúng ta có thể ước lượng p càng chính xác như mong muốn bằng cách thực hiện với N đủ lớn. Bởi vì chúng ta không biết bắt đầu với giá trị p nào, nên thật khó khăn để tính q. Tại nơi bắt đầu, chúng ta có thể thực hiện nó an toàn bằng cách giả định trường hợp xấu nhất. Chú ý là p = 0.5% sẽ cực đại hoá q, vì vậy việc sử dụng giá trị đó sẽ mang lại một ước lượng có chừng mực đối với độ rộng của phân bố. Sau khi dữ liệu được thu thập, chúng ta thay thế q vào p trong biểu thức (43) để có một ước lượng tốt hơn. 20.6.1.2. Ví dụ: thăm dò ý kiến Một ví dụ cụ thể, cho N = 1000. Giả sử rằng p = 0.5; q =1.58% và khoảng tin cậy của chúng ta xấp xỉ 3%. Đây là phương pháp thường dùng cho kịch bản đối với 425 việc thăm dò chính trị được đăng tải trên các báo. Họ chất vấn một ngàn người và xác nhận độ chính xác là 3%. 20.6.2. Trường hợp hai lớp với sai số phân loại Nguyên lý trên đây có thể áp dụng nếu chúng ta phân loại các đối tượng bằng bộ phân lớp hai lớp không sai số và sử dụng các kết quả để đánh giá tỷ lệ. Giả sử rằng phương pháp của chúng ta để xác định giới tính không rõ ràng cho lắm. Ở đây, chúng ta xem xét sai số phân loại ảnh hưởng tới việc đánh giá tỷ lệ. Cho hai tỷ lệ sai số của bộ phân lớp là P 1 {nữ được gọi là nam} (44) Và P 2 {nam được gọi là nữ} (45) Ngoài ra, q = n/N được phân bố bình thường (gần đúng với N lớn), nhưng giá trị trung bình của phân bố bây giờ là p-1 2 11pq (46) đây là xác suất hoặc là giới tính nữ sẽ được phânguyên lýớp chính xác hoặc là giới tính nam được phân lớp không chính xác. 20.6.2.1. Lệch bộ ước lượng (Estimator Bias) Chú ý rằng giá trị trung bình của phân bố không lớn hơn tỷ lệ thực p, khi nó nằm trong trường hợp không có sai số. Nó có thể cao hơn hoặc thấp hơn, thuỳ thuộc vào các giá trị liên quan của hai tỷ lệ sai số. Ở đây, sai số phân lớp đã được làm lệch thành ước lượng tỷ lệ. Tất nhiên nếu cả hai tỷ lệ sai số đều bằng 0, thì trường hợp này sẽ giảm xuống mức trước đó. Độ lệch tiêu chuẩn phân bố của q là: N qq q 1 (47) Biểu thức này có xu hướng trở về 0 khi mẫu trở lên lớn hơn. Giống như giá trị trung bình, nó có thể lớn hơn hay nhỏ hơn trong trường hợp không có sai số. Điều lo lắng là các kích thước mẫu lớn hơn sẽ gây ra sự phân bố của q trở lên hẹp lại xung quanh đáp số sai. Vế trái không được kiểm tra, điều này có thể gây trở ngại nghiêm trọng đối với việc ước lượng tỷ lệ tự động. 20.6.2.2. Chống lệch bộ ước lượng (Unbiasing estimator) Mặc dù giá trị q có được từ một thí nghiệm bất kỳ là một ước lượng lệch của p, nó là một ước lượng không lệch của q, xác suất để phân lớp một sinh viên là nữ (biểu thức (41)). Nếu biết trước tỷ lệ sai số thì chúng ta có thể tính ước lượng không lệch của p từ 21 2 1 qp (48) 426 Ở đây, chúng ta giải biểu thức (46) theo p và thay q cho q. Bây giờ, p một lần nữa là giá trị trung bình của sự phân bố bộ ước lượng p và chúng ta có thể đánh giá tỷ lệ chính xác đến độ mong muốn, chứng tỏ rằng chúng ta muốn tập hợp đầy đủ dữ liệu. Chú ý rằng bất kỳ sai số nào trong giá trị 1 hay 2 sẽ không làm giảm tính chính xác của công thức trên. Bởi vì, có các tye lệ sai số bộ phân lớp, nên chúng thường phải được đánh giá bằng thử nghiệm. Tập thử nghiệm phải có kích thước thích hợp và đại diện cho tất cả. 20.6.3. Trường hợp nhiều lớp Chúng ta có thể mở rộng trình bày trước đây để kiểm soát trường hợp có nhiều hơn hai lớp. 20.6.3.1. Các định nghĩa Giả sử có K kiểu đối tượng khác nhau. Chúng ta có một véc tơ p của các tỷ lệ, với các thành phần: pi = P{đối tượng được lựa chọn một cách ngẫu nhiên tuỳ thuộc vào lớp thứ i} (49) trong đó i = 1, ..., K. Các tỷ lệ sai số bộ phân lớp có thể được xác định theo dạng của ma trận kết hợp C có các phần tử: cịj = P{đối tượng của lớp thứ i được ấn định cho lớp thứ j} (50) trong đó j = 1, ...., K. Theo các số hạng này, ma trận hỗn hợp là một mảng các xác suất phân lớp. Các tác giả khác thường sử dụng cùng một tên cho một mảng các kết quả phân lớp không chuẩn hoá. Chúng ta đặt q là vec tơ của các xác suất phân lớp đối tượng với các phần tử qj= P{đối tượng được lựa chọn một cách ngẫu nhiên theo lớp thứ j } (51) được cho bởi pCq T K i ijij Cpq hay 1 (52) Nếu bộ phân lớp kiểm tra N đối tượng và ấn định nj của chúng cho lớp j, thì bộ ước lượng có khả năng xảy ra tối đa của q là vec tơ q , có các phần tử N n j q (53) 20.6.3.2. Bộ ước lượng Tương tự với trường hợp hai lớp, bây giờ chúng ta tìm kiếm một vec tơ p mà (a) dựa trên q , (b) là một bộ ước lượng không lệch của p, và (c) tối thiểu hoá sai số bình phương trung bình được cho bởi K i iii ppN MSEE 1 21 (54) 427 trong đó [] là phép toán dự tính và là một vec tơ của các trọng số không âm cho phép chúng ta nhấn mạnh những lớp có các sai số nghiêm trọng nhất. Trong khi đó giá trị của i là tuỳ ý, thì chúng ta có thể chọn tỷ lệ thích hợp sao cho tổng của chúng là 1 mà không làm mất tính tổng quát. Nếu không tính đến sự liên quan trọng số thì chúng ta có thể làm cho tất cả các phần tử của bằng nhau. Bộ ước lượng không lệch của p là qCp 1T (55) Đây là biểu thức tổng quát nhiều lớp của biểu thức (48). Nó cho biết rằng việc nhân q với nghịch đảo của ma trận kết hợp sẽ loại bỏ sự lệch do sai số phân lớp sai. Như trên, tỷ lệ sai số phải được biết một cách chính xác. 20.6.3.3. Ma trận mập mờ (Befuddlement) Sai số ước lượng bình phương trung bình thực tế là BpT K i iii N pp N MSEE 111 1 (56) trong đó ma trận B có các phần tử K i mllimlml CCB 1 21 (57) trong đó ml là hàm delta Kronecker, chẳng hạn, 1,0 1,1 m m ml (58) Chỉ phụ thuộc vào ma trận kết hợp, B là một biểu thức của các tỷ lệ sai số bộ phân lớp. Nó được gọi là ma trận mập mờ (Befuddlement) để tránh sự kết hợp. Các phần tử của ma trận này là không âm. Nếu bộ phân lớp là tốt (chẳng hạn, các phần tử ngoài đường chéo của C nhỏ) thì B xấp xỉ ma trận kết hợp bằng cách thay 1 - cij vào đường chéo. Giống như với B, các phần tử của p và đều không âm. Vì thế, số hạng thứ hai của biểu thức (56) có thể không bao giờ âm và không thể giảm MSEE, không có ảnh hưởng đến p và nhận được. Khi bộ phân lớp không có sai số (chẳng hạn, khi C = I), tất cả các phần tử của B đều là 0 và số hạng thứ hai suy giảm dần. Điều này để lại số hạng thứ nhất khi sai số bộ ước lượng chỉ có được từ kích thước mẫu giới hạn. Do đó, theo lý thuyết, ta có thể đánh giá các tỷ lệ với mức độ chính xác bất kỳ mong muốn (thậm chí với bộ ước lượng kém) bằng cách xem xét một lượng đối tượng đủ lớn. Biểu thức (56) cũng cho phép ta so sánh các bộ phân lớp khác nhau để chọn ra một bộ hỗ trợ tốt nhất cho việc đánh giá tỷ lệ. Căn cứ vào ma trận kết hợp của một bộ phân lớp riêng biệt, ta có thể tính thành phần mập mờ của MSEE (ví dụ, pTB) mà bộ phân lớp sẽ đóng góp. Bộ phân lớp đóng góp ít sai số mập mờ nhất là tốt hơn cho công việc đánh giá tỷ lệ. Với một bộ phân lớp tồi, thành phần sai số mập mờ trong biểu thức (56) sẽ bị chi phối và đòi hỏi thêm nhiều mẫu để khắc phục những tác động phân lớp sai. Nói cách khác, nếu bộ phân lớp đủ tốt sao cho thành phần sai số mập mờ ít hơn đáng kể so với 428 thành phần sai số lấy mẫu, thì sự cải thiện vượt bậc của bộ phân lớp có thể không đáng giá so với kết quả của sự cố gắng. 20.6.3.4. Sự mập mờ hai lớp Bây giờ chúng ta quay trở lại với trờng hợp hai lớp. Nếu 1 và 2 nhỏ, ma trận mập mờ gần giống với 22 11 B (59) và sai số mập mờ được cho bởi 21212 pT Bp (60) Bởi vì chỉ xuất hiện như một tổng, nên chúng đơn thuần chỉ có tác dụng nhân tỷ lện trong trường hợp này. Hơn nữa, nếu p nhỏ (chẳng hạn, lượng nữ là hiếm), thì nó bằng 2 (phân loại nhầm thành nam) có mặt nhiều nhất trong MSEE và ngược lại nếu p lớn. Nếu sự hoà hợp xấp xỉ như nhau (p 0.5), thì cả hai sai số đều phiền toái như nhau. Thường thì một bộ phân lớp có một tham số điều chỉnh để điều khiển việc cân bằng các yếu tố khác nhau giữa 1 và 2 . Ta có thể giảm yếu tố tốn kém nhất bằng cách tăng cường các yếu tố khác. Trong trường hợp đó, biểu thức (60) đưa ra cách tối ưu hoá cách thiết lập. 20.7. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG 1. Các đặc trưng sử dụng đối với sự phân lớp phải phân biệt đối xử, tin cậy, độc lập và ít số. 2. Một tập huấn luyện được sử dụng để thiết lập các tham số phải là điển hình và không bị lệch. 3. Hiệu suất bộ phân lớp (tỷ lệ sai số) có thể đánh giá bằng cách phân lớp một tập thử nghiệm đã biết. 4. Các đặc trưng hiệu quả có sự thay đổi nhỏ trong phạm vi lớp, tương quan thấp và sự tách biệt thay đỏi được chuẩn hoá giữa các giá trị trung bình của lớp. 5. Định lý Bayes [biểu thức (11)] đưa ra xác suất của một đối tượng theo từng lớp riêng biệt. 6. Quy tắc quyết định Bayes tối thiểu hoá độ rủi ro khi thao tác một bộ phân lớp. 7. Các tham số chưa biết có thể ước lượng theo khả năng xảy ra tối đa và các kỹ thuật Bayes. 8. Một mạng nơ ron là một sự tập hợp các phần tử xử lý giống nhau đã được kết nối và được sắp xếp theo lớp. Mối nút tính toán một tổng trọng số các đầu vào của nó và chuyển đầu ra của nó qua các nút trong lớp tiếp theo. 9. Trong một mạng nơ ron sử dụng để nhận dạng mẫu, vec tơ đặc trưng được đặt vào lớp đầu tiên và lớp cuối cùng đưa ra một sự phân công công việc. 10. Các mạng nơ ron được huấn luyện bằng cách áp dụng lặp đi lặp lại tập huấn luyện, với những điều chỉnh nho nhỏ tạo ra các trọng số liên kết tại mỗi bước. 11. Một bộ phân lớp mạng nơ ron là mục tiêu của việc huấn luyện xếp chồng, trong đó nó tự điều chỉnh với tập huấn luyện. 12. Hiệu suất của một bộ phân lớp mạng nơ ron được huấn luyện tốt thường giống hiệu suất của một bộ phân lớp được thiết kế tốt. Tri thức ít ỏi về bài toán 429 rất cần thiết cho việc phát triển bộ phân lớp mạng nơ ron, nhưng có sẵn tri thức tối thiểu đối với quá trình thực hiện quyết định. 13. Các sai số phân lớp đưa sự sai lệch vào trong một ước lượng tỷ lệ. Với một bộ ước lượng bị lệch, sự đáng giá không hội tụ về đúng tỷ lệ cơ bản khi kích thước mẫu tăng. 14. Sự lệch lạc (bias) có thể được loại bỏ khỏi một ước lượng tỷ lệ bằng cách nhân vec tơ của các tỷ lệ quan sát được với nghịch đảo của ma trận kết hợp [biểu thức (55)]. Một kích thức mẫu lớn mạng lại các ước lượng tỷ lệ với độ chính xác tuỳ ý. 15. Với một bôh ước lượng không bị lệch, sai số ước lượng bình phương trung bình có hai thành phần, một là do lấy mẫu và một là do phân lớp sai [biểu thức (56)]. Cả hai thành phần đều tiên tới 0 khi kích thước mẫu lớn. 16. Một bộ phân lớp tốt hơn cho việc đánh giá tỷ lệ là bộ phân lớp mà có sai số mập mờ, pTB ,thấp. BÀI TẬP 1. Trọng lượng trung bình của một quả cam là 100 gam, với độ lệch tiêu chuẩn là 25 gam. Trọng lượng trung bình của một quả bưởi là 180 gam, với độ lệch tiêu chuẩn là 40 gam. Những quả cam thường bằng hay lớn gấp rưỡi những quả bưởi. Bảy quả trong một cái hộp riêng biệt nặng 80, 100, 120, 140, 160 và 200 gam. Hộp đó chứa được bao nhiêu quả cam? 2. Một trường đại học có số lượng sinh viên nam và nữ xấp xỉ bằng nhau. Trong một bộ ước lượng tỷ lệ giới tính sinh viên hai lớp, hai sai số phân loại nhầm luôn luôn bằng nhau, nhưng chúng có thể rút gọn bằng cách cải tiến thuật giải hơn nữa. Giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng với sai số lấy mẫu? 1 và 2 có thể thấp đến bao nhiêu để sai số mập mờ chỉ bằng 1/8 sai số lấy mẫu? 3. Trên sân một trường đại học nào đó, số lượng nam chiếm 3/4 nhóm sinh viên. trong một bộ ước lượng giới tính sinh viên hai lớp hiện có, sai số phân lớp nhầm của cả hai là 0.25. Có bao nhiêu sinh viên phải được phỏng vấn để giảm MSEE xuống còn 1%? Tỷ lệ sai số có thể giảm bằng cách cải tiến thuật giải. Bạn cố gắng giảm sai số nào để giảm bớt kích thước mẫu yêu cầu? Nếu bạn chỉ giảm một sai số, giá trị nào của 1 và 2 sẽ tạo ra sai số mập mờ bằng nửa sai số lấy mẫu? Có bao nhiêu sinh viên phải được phỏng vấn để giảm MSEE xuống còn 1%? DỰ ÁN 1. Phát triển một bộ phân lớp Bayes hai lớp, hai đặc trưng và huấn luyện nó để định rõ số nam và nữ bằng cách dùng chiều cao và trọng lượng cơ thể như các đặc trưng. Viết một bài ngắn gọn mô tả quá trình thiết kế, huấn luyện và thực hiện của bộ phân lớp. 2. Phát triển một chương trình phân lớp Bayes mà có thể xác định sự thích hợp của các quân bài (rô, cơ, chuồn, bích) trong các ảnh số của biểu tượng thích hợp. Kiểm tra chương trình bằng một người đánh bài. 3. Huấn luyện một mạng nơ ron để phân lớp các vec tơ ngẫu nhiên từ ba phân bố. Sử dụng một tập huấn luyện nhỏ, chỉ ra sai số trên tập huấn luyện và trên một tập thử nghiệm riêng biệt như một hàm khối lượng của quá trình huấn luyện. Đưa ra bằng thực nghiệm để làm sáng tỏ việc huấn luyện xếp chồng. 430 4. Sử dụng các lớp, đặc trưng, tập huấn luyện và tập thử nghiệm như nhau, so sánh hiệu suất của một mạng nơ ron và một bộ phân lớp Bayes. Viết một bài ngắn gọn để tổng kết những điều thuận lợi và không thuận lợi của chúng.
File đính kèm:
- bai_giang_xu_ly_anh_chuong_20_nhan_dang_mau_phan_lop_va_danh.pdf