Bài giảng Xử lý ảnh - Chương 18: Nhận dạng mẫu - Phân đoạn ảnh

18.1. GIỚI THIỆU

Từ trước đến nay, trong cuốn sách này, chúng ta đã xem xét những phương pháp

chủ yếu để cải thiện ảnh hiển thị. Trong chương 16, tham vọng chúng ta là đạt được

một ảnh gần giống hơn so với ảnh ban đầu, ảnh không suy biến.

Trong chương này và hai chương tiếp theo, chúng ta sẽ đưa ra một vài hướng

phân tích nội dung của một ảnh. Nghĩa là chúng ta cố gắng tìm ra những gì có trong

ảnh. Chúng ta sẽ xem xét hai cách tiếp cận, nhận dạng mẫu thống kê và mạng nơ ron,

mỗi một phương pháp đều có thể áp dụng vào ảnh số. Các cuốn sách đã viết nhiều

về cả hai phương pháp này, giúp độc giả những người mong muốn tiếp tục tìm hiểu

với những giới thiệu về lĩnh vực này rất nhiều.

Trong 3 chương về nhận dạng mẫu này, chúng ta sẽ đưa ra một tập các chủ đề về

lĩnh vực này. Trong thực tế, chúng ta nghiên cứu nhận dạng mẫu thống kê, được thực

hiện bằng các kỹ thuật xử lý ảnh số. Việc này trước hết bao gồm việc định vị và cô

lập các đối tượng trong một ảnh và sau đó nhận biết (phân loại) những đối tượng đó

sử dụng kỹ thuật dựa trên lý thuyết quyết định thống kê. Chúng ta cũng xem qua việc

sử dụng mạng nơ ron nhân tạo cho việc nhận dạng mẫu.

30 trang yennguyen 4520

Download

Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Xử lý ảnh - Chương 18: Nhận dạng mẫu - Phân đoạn ảnh", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Xử lý ảnh - Chương 18: Nhận dạng mẫu - Phân đoạn ảnh

350
Ch¬ng 18
NHẬN DẠNG MẪU:
PHÂN ĐOẠN ẢNH
18.1. GIỚI THIỆU
Từ trước đến nay, trong cuốn sách này, chúng ta đã xem xét những phương pháp
chủ yếu để cải thiện ảnh hiển thị. Trong chương 16, tham vọng chúng ta là đạt được
một ảnh gần giống hơn so với ảnh ban đầu, ảnh không suy biến.
Trong chương này và hai chương tiếp theo, chúng ta sẽ đưa ra một vài hướng
phân tích nội dung của một ảnh. Nghĩa là chúng ta cố gắng tìm ra những gì có trong
ảnh. Chúng ta sẽ xem xét hai cách tiếp cận, nhận dạng mẫu thống kê và mạng nơ ron,
mỗi một phương pháp đều có thể áp dụng vào ảnh số. Các cuốn sách đã viết nhiều
về cả hai phương pháp này, giúp độc giả những người mong muốn tiếp tục tìm hiểu
với những giới thiệu về lĩnh vực này rất nhiều.
Trong 3 chương về nhận dạng mẫu này, chúng ta sẽ đưa ra một tập các chủ đề về
lĩnh vực này. Trong thực tế, chúng ta nghiên cứu nhận dạng mẫu thống kê, được thực
hiện bằng các kỹ thuật xử lý ảnh số. Việc này trước hết bao gồm việc định vị và cô
lập các đối tượng trong một ảnh và sau đó nhận biết (phân loại) những đối tượng đó
sử dụng kỹ thuật dựa trên lý thuyết quyết định thống kê. Chúng ta cũng xem qua việc
sử dụng mạng nơ ron nhân tạo cho việc nhận dạng mẫu.
18.1.1. Nhận dạng mẫu thống kê
Chi nhánh thị giác máy của lĩnh vực trí tuệ nhân tạo được nghiên cứu bằng cách
phát triển các thuật giải phân tích nội dung ảnh. Một sự đa dạng của những phương
pháp tiếp với mục đích hiểu ảnh đã được dùng, nhưng việc hiểu nó là nền tảng cho
sự nhận thức toàn bộ quá trình nhận dạng mẫu, tuy nhiên nó có thể được thực hiện.
Nhận dạng mẫu thống kê giả thiết rằng ảnh có thể chứa một hay nhiều đối tượng
và mỗi đối tượng đó thuộc một trong các kiểu, các loại hay các lớp mẫu đã định
nghĩa trước đây. Trong khi có thể thực hiện nhận dạng mẫu bằng nhiều cách, chúng
ta chỉ quan tâm tới việc thực hiện nó bằng các kỹ thuật xử lý ảnh số.
Cho một ảnh số có chứa một vài đối tượng, quá trình nhận dạng mẫu gồm có 3
pha chính. (Xem Hình 18-1) Pha đầu tiên được gọi là phân đoạn ảnh hay cô lập đối
tượng, trong đó mỗi đối tượng được tìm ra và ảnh của nó tách ra khỏi cảnh còn lại.
Pha thứ hai gọi là trích chọn đặc trưng. Đây là pha mà các đối tượng được đo
lường. Một số đo là giá trị của một tính chất nào đó có thể xác định số lượng của một
đối tượng. Một đặc trưng là một hàm của một hay nhiều số đo, được tính toán sao
cho nó có thể nó xác định được một tính chất quan trọng nào đấy của đối tượng. Quá
trình trích chọn đặc trưng tạo ra một tập các đặc trưng, cùng nhận được, bao gồm vec
tơ đặc trưng. Điều này đã làm giảm khối lượng thông tin (so với ảnh ban đầu) biểu
diễn mọi tin tức mà các quyết định thống kê phải dựa vào đó. Thật là hữu ích để nhận
thức hoá một không gian n chiều mà trong đó mọi vec tơ đặc trưng n phần tử có thể
có đều tập trung vào. Vì thế, một đối tượng riêng biệt bất kỳ đều tương ứng với một
điểm trong không gian đặc trưng.
Pha thứ ba trong nhận dạng mẫu là phân loại, đầu ra của nó chỉ đơn thuần là một
quyết định về lớp các đối tượng. Mỗi đối tượng được coi như thuộc một loại cụ thể,
và sự nhận dạng được thực hiện như một quá trình phân loại. Từng đối tượng được
351
ấn định vào một trong nhiều nhóm (lớp) đã thiết lập trước đó biểu diễn cho tất cả các
loại đối tượng có thể có trong ảnh. Một lỗi không phân loại nhầm sẽ xảy ra nếu đối
tượng bị ấn định vào một lớp không thích hợp. Khả năng để xảy ra điều này là tỉ số
lỗi phân loại nhầm.
Sự phân loại chỉ dựa vào vec tơ đặc trưng. Trong hai chương tiếp theo, chúng ta
sẽ xem xét kỹ thuật phân loại xuất phát từ các phạm trù trong lý thuyết quyết định
thống kê và mạng nơ ron.
HÌNH 18-1
Hình 18-1 Ba pha nhận dạng mẫu
18.1.2. Ví dụ về nhận dạng mẫu
Các khái niệm cơ bản về nhận dạng mẫu thống kê có thể được minh hoạ tốt nhất
bằng một ví dụ. Giả sử chúng ta muốn thực hiện một hệ thống sắp xếp trái cây đổ
xuống trên một băng truyền. Việc sắp xếp thực sự có thể bị ảnh hưởng bởi các phần
có thể di chuyển từ trên xuống và làm chệch hướng đi của các loại trái cây khác nhau
ra khỏi băng truyền và rơi vào trong các hộp chuyên chở thích hợp, như minh hoạ
trong hình 18-2. Hãy giả sử rằng đó là các quả là các trái anh đào, các quả táo, chanh
và các quả nho. Những gì chúng ta cần là một hệ thống xử lý ảnh mà có thể quan sát
các quả đang đến gần, phân ra từng loại và thả phần đã phân loại thích hợp đúng lúc
vào hộp đựng trái cây tương ứng.
HÌNH 18-2
Hình 18-2 Hệ thống sắp xếp trái cây
Chúng ta có thể cài đặt một camera truyền hình số trên băng truyền và thực hiện
quyết định phân loại bằng một máy tính. Với ví dụ này, hãy xác định hai tham số cho
từng mẫu trái cây: đờng kính và màu sắc của nó. Chương trình máy tính sẽ xử lý
352
từng ảnh số hoá và tính đường kính trái cây theo đơn vị milimet và một tham số biểu
thị màu sắc.
Giả sử chúng ta sử dụng một camera TV màu và chương trình tính độ sáng của
từng đối tượng theo các kênh đỏ, lục và lam. (Xem chương 21) Sau đó có thể nhận
được một đặc trưng (ví dụ tỷ lệ độ sáng đỏ-lục) nhận các giá trị thấp cho quả màu
vàng và các giá trị cao cho quả màu đỏ. Chúng ta có thể gọi tham số này là độ đo sắc
đỏ.
Hình 18-3 cho thấy không gian hai đặc trưng chiều định nghĩa bằng hai tham số,
đường kính và sắc đỏ, và các nhóm được đưa ra tương ứng với mỗi một trong bốn
lớp quả. Bằng cách đặt các đường quyết định xấp xỉ trong không gian đặc trưng,
chúng ta có thể phân chia nó ra thành mỗi vùng thuộc một lớp và thiết lập một quy
tắc phân loại.
Khi một quả nào đó đến gần camera TV, nó sẽ được xác định, và các đặc trưng
xác định một điểm trong không gian hai chiều. Tuỳ thuộc vào nơi mà điểm này nằm
trong không gian, mà trái cây được ấn định vào một trong bốn lớp. Ngay khi quyết
định phân loại được thực hiện, cơ chế bỏ vào phần mà sau đó sẽ được làm lệch
hướng đi để đẩy quả vào trong thùng chứa thích hợp.
HÌNH 18-3
Hình 18-3 Không gian đặc trưng
Trong khi hệ thống tiền xử lý không được sử dụng rộng rãi trong ngành công
nghiệp đóng gói trái cây, nhưng nó đáp ứng được việc minh hoạ nhận dạng mẫu
thống kê. Vai trò của thống kê trong thiết kế và hoạt động của hệ thống sẽ trở nên rõ
ràng hơn ở hai chương tiếp theo. Bây giờ đủ điều kiện để nói rằng mỗi lớp quả tạo ra
một PDF trong không gian đặc trưng. Các dòng quyết định có thể được xác định, từ
tác động qua lại giữa các PDF đó, theo cách để tránh hay có ít ra là tối thiểu hoá, các
lỗi phân loại nhầm.
18.1.3. Thiết kế hệ thống nhận biết mẫu
Thiết kế một hệ thống nhận biết mẫu thường được thực hiện theo năm bước liệt kê
trong bảng 18.1: thiết kế bộ định đối tượng, chọn lựa đặc trưng, thiết kế bộ phân loại
và thực hiện việc đánh giá.
Bộ định vị đối tượng là thuật toán tách ảnh của đối tượng riêng biệt trong một ảnh
phức hợp. Việc phân tách các đối tượng được gọi là phân đoạn ảnh hay phân đoạn
cảnh, sẽ được trình bày trong chương này. Chọn lựa đặc trưng có tác dụng quyết
định thuộc tính của đối tượng (kích thức, hình dạng,). điểm khác biệt nhất giữa các
lớp đối tượng cần phải tính toán. Thiết kế bộ phân loại bao gồm việc thiết lập một cơ
sở toán học cho thủ tục phân loại. Các tham số có thể điều chỉnh (ngưỡng quyết
định) của chính bộ phân loại bắt buộc phải có trong công đoạn huấn luyện bộ lọc.
353
Cuối cùng, nó thường cần được thiết lập các tỷ lệ lỗi phân loại khi hệ thống hoạt
động. Đây là bước thực hiện việc đánh giá.
18.2. QUÁ TRÌNH PHÂN ĐOẠN ẢNH
Chúng ta có thể định nghĩa quá trình phân đoạn ảnh như là việc phân chia một ảnh
số thành các vùng rời nhau (không chờm lên nhau). Đối với mục đích của chúng ta,
một vùng là một tập liên thông của các điểm ảnh-tức là, một tập trong đó tất cả các
điểm ảnh gần kề hay sát nhau. Định nghĩa chuẩn của tính liên thông như sau: giữa
hai điểm ảnh bất kỳ trong một tập liên thông, tồn tại một đường liên thông trong
phạm vi tập, ở đó một đường liên thông là một đường luôn luôn di chuyển giữa các
điểm ảnh lân cận. Do đó, trong một tập liên thông, bạn có thể tìm thấy một đường
liên thông giữa hai điểm ảnh bất kỳ trong tập.
BẢNG 18-1 THIẾT KẾ HỆ THỐNG NHẬN DẠNG MẪU
Bước Hàm
1. Thiết kế bộ định vị đối tượng Chọn thuật giải phân đoạn ảnh để phân
tách các đối tượng riêng biệt trong ảnh.
2. Lựa chọn đặc trưng Quyết định các tính chất đối tượng mà có
thể phân biệt các loại đối tượng tốt nhất
và làm thế nào để đo lường chúng.
3. Thiết kế bộ phân loại Thiết lập cơ sở toán học cho thuật giải
phân loại, và lựa chọn kiểu cấu trúc của
bộ phân loại để sử dụng.
4. Huấn luyện bộ phân loại Cố định các tham số điều chỉnh khác
nhau (các đường biên quyết định,)
trong bộ phân loại cho phù hợp với đối
tượng được phân loại.
5. Đánh giá hiệu suất Đánh giá tỷ số các lỗi phân loại nhầm có
thể nhận được khác nhau.
Có hai quy tắc liên thông, và một trong số đó có thể chấp nhận. Nếu chỉ các điểm
lân cận bên (trên, dưới, trái, phải) được coi là thuộc liên kết, thì đây là liên thông 4
và các đối tượng là liên kết 4. Vì thế, mỗi điểm ảnh chỉ có 4 lân cận để có thể liên
kết. Thêm vào đó, nếu các điểm ảnh lân cận chéo (lân cận 450) cũng được tính đến
trong liên kết thì chúng ta có liên thông 8, và các đối tượng là liên kết 8. Mỗi điểm
ảnh có 8 lân cận để có thể liên kết. Cũng có thể sử dụng quy tắc liên thông kia, miễn
là thích hợp. Thông thường liên thông 8 mang lại kết quả được coi là gần với trực
giác của con người hơn cả.
Khi một người quan sát một cảnh, quá trình xử lý đặt trong hệ thống thị giác sẽ
phân đoạn cảnh đó cho người đó. Việc này được thực hiện hiệu quả đến nỗi ta trông
nó không như một cảnh phức tạp, nhưng đúng hơn là người ta coi điều đó như là tập
hợp cáca đối tượng. Tuy nhiên, bằng xử lý số, chúng ta phải tách các đối tượng trong
một ảnh bằng cách phân chia ảnh thành tập các điểm ảnh, mỗi tập là ảnh của một đối
tượng. Trong khi công việc phân đoạn ảnh hầu như không có bản sao trong kinh
nghiệm nhìn nhận của con người, thì đây là một công việc không tầm thường trong
phân tích ảnh số.
Phân đoạn ảnh có thể tiếp cận từ ba lý thuyết phối cảnh khác nhau. Trong trường
hợp chúng ta tiếp cận vùng, ta ấn định mỗi điểm ảnh cho một đối tượng hay vùng cụ
thể. Trong phương pháp tiếp cận đường biên, ta chỉ thử định vị các đường biên đã có
giữa các vùng. Trong phương pháp tiếp cận đỉnh, ta có thể tìm cách nhận biết các
điểm biên và sau đó liên kết chúng với nhau tạo thành đường biên cần có. Tất cả ba
cách tiếp cận đều hữu dụng trong việc nhìn nhận vấn đề.
354
Trong chương này, chúng ta xem xét một vài kỹ thuật phân tách các đối tượng
trong một ảnh số. Mỗi lần phân tách, các đối tượng có thể được đo lường và phân
loại. Các kỹ thuật cho những hoạt động này được chỉ ra trong hai chương tiếp theo.
18.3. PHÂN ĐOẠN ẢNH BẰNG PHÂN NGƯỠNG
Phân ngưỡng là một kỹ thuật phổ biến để tiếp cận vùng, hữu ích đối với những
cảnh có chứa những đối tượng đồng màu trên nền tương phản. Mục đích là để đơn
giản trong tính toán và luôn xác định được những vùng có các đường biên đóng và
liên thông.
Khi sử dụng qui tắc phân ngưỡng để phân vùng ảnh, người ta ấn định tất cả những
điểm ảnh nằm bên trên mức xám ngưỡng thuộc về đối tượng. Còn tất cả những điểm
ảnh không nằm trên mức xám ngưỡng sẽ nằm ngoài đối tượng. Đường bao là tập tất
cả những điểm nằm bên trong và mỗi điểm có ít nhất một điểm lân cận nằm ngoài
đối tượng.
Phân ngưỡng sẽ được thực hiện hoàn hảo nếu đối tượng được xét có mức xám bên
trong đồng nhất và nằm trên nền có mức xám đồng nhất khác. Nếu một vài tính chất
(ngoài mức xám, tính kết cấu chẳng hạn) của các đối tượng khác nền của chúng, thì
đầu tiên người ta có thể chuyển đổi tính chất đó thành mức xám. Sau đó tiến hành
phân ngưỡng mức xám để có thể phân vùng ảnh.
18.3.1. Phân ngưỡng tổng thể
Trong quá trình xác định đường biên bằng phân ngưỡng đơn giản nhất, giá trị mức
xám ngưỡng là hằng số được sử dụng trong toàn bộ ảnh. Nếu mức xám nền là hằng
số hợp lý và nếu các đối tượng đều có độ tương phản xấp xỉ bằng nhau, thì một
ngưỡng tổng thể cố định thường được dùng để qui định mức xám ngưỡng hợp lý
được chọn.
18.3.2. Phân ngưỡng thích nghi
Trong nhiều trường hợp mức xám nền không phải là hằng số và độ tương phản
của các đối tượng trong ảnh hoàn toàn khác nhau, thường xảy ra trường hợp một
ngưỡng áp dụng thích hợp cho một vùng ảnh này nhưng lại không thích hợp cho
những vùng khác. Trong những trường hợp đó, thuận tiện nhất là sử dụng mức xám
ngưỡng là một hàm biến thiên chậm theo vị trí trong ảnh.
Hình 18-4 cho thấy ảnh hiển vi của các nhiễm sắc thể từ một tế bào máu người.
Trong ảnh này, mức xám nền thay đổi do sự chiếu sáng không đồng đều và độ tương
phản thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác. Trong hình 18-4a, một
mức xám ngưỡng không đổi được sử dụng cho toàn bộ ảnh để phân tách các nhiễm
sắc thể. Mỗi nhiễm sắc thể được bao bởi một đường và một dãy số. Trong hình 18-
4b, ngưỡng được thay đổi từ nhiễm sắc thể này sang nhiễm sắc thể khác tương xứng
với nền cục bộ và độ tương phản của nhiễm sắc thể. Điều này đã tạo ra một vài sai số
phân đoạn-trong đó nhiều nhiễm sắc thể bị dính vào nhau hay các nhiễm sắc thể
riêng biệt bị phá vỡ. Một nghiên cứu tương tự cho thấy rằng độ chính xác của phép
đo diện tích các nhiễm sắc thể đã được cải tiến bằng phân ngưỡng thích nghi. Trong
hình 18-4b, ngưỡng đối với mỗi nhiễm sắc thể được đặt xấp xỉ mức trung bình giữa
mức xám trung bình của đối tượng và mức xám nền cục bộ.
18.3.3. Lựa chọn ngưỡng tối ưu
Trừ phi đối tượng trong ảnh có các mặt cực kỳ dốc đứng, còn thì giá trị chính xác
của mức xám ngưỡng có thể có tác động đáng kể lên vị trí đường biên và toàn bộ
kích thước đối tượng được trích chọn. Nghĩa là các số đo kích thước liên tiếp-khu
vực riêng biệt-nhạy cảm với mức xám ngưỡng. Vì lý do đó mà chúng ta cần sự tối ưu
hay ít ra cũng là phương pháp thiết lập ngưỡng.
355
HÌNH 18-4
Hình 18-4 Phân ngưỡng tổng thể và thích nghi
18.3.3.1. Kỹ thuật lược đồ mức xám
Một ảnh chứa một đối tượng trên nền tương phản có lược đồ mức xám nhị thức
(bimodal) (hình 18-5). Hai đỉnh tương ứng với số lượng tương đối lớn các điểm trong
và ngoài đối tượng. Vùng lõm giữa các đỉnh tương ứng với các điểm tương đối ít
xuất hiện xung quanh biên của đối tượng. Trong các trường hợp như thế này, lược đồ
mức xám thường được dùng để thiết lập mức xám ngưỡng.
Diện tích một đối tượng xác định bởi mức xám ngưỡng T là
T
dDDHA )( (18.1)
Lưu ý rằng việc tăng ngưỡng T thêm một lượng T chỉ hơi làm giảm diện tích nếu
ngưỡng tương ứng với vùng lõm trong lược đồ mức xám. Bởi vậy, việc lấy ngưỡng
tại vùng lõm của lược đồ sẽ tối thiểu hoá tính nhậy cảm của phép đo vùng với các sai
số nhỏ trong sự chọn ngưỡng.
Hình 18-5 Lược đồ mức xám nhị thức
Nếu ảnh hay vùng trong ảnh chứa đối tượng bị nhiễu và không lớn lắm thì chính
lược đồ mức xám sẽ bị nhiễu. Nhiễu sẽ làm mờ đi vị trí của vùng lõm, trừ phi vùng
lõm rõ nét một cách khác thường. Điều này có thể khắc phục trong một phạm vi nào
đó bằng cách làm trơn lược đồ mức xám, bằng cách sử dụng tích chập hay bằng một
thủ tục điều chỉ ... ng các điểm ở phía trong
được thay bằng số đếm bao nhiêu bước đã thực hiện từ khi gặp giá trị 0 cuối cùng.
Trong hình 18-26(c),ta thấy các kết quả của bước thứ hai (lùi), nó được xây dựng từ
phải sang trái. trong bước này, mỗi điểm ảnh được thay thế bằng giá trị nhỏ nhất của
(a) nó hay (a) số bước nhận được từ khi gặp được giá trị 0 cuối cùng. Kết quả là môt
ảnh mà mức xám trong đó phản ánh khoảng cách đến đường biên gần nhất.
HÌNH 18-26
Hình 18-26 Biến đổi khoảng cách một chiều: (a) ảnh nhị phân; (b) kết quả của
bước thứ nhất (trái sang phải); (c) kết quả của bước thứ hai (phải sang trái)
Trong biến đổi khoảng cách hai chiều, một mặt nạ tương tự hạt nhân tích chập
(xem hình 18-27) được áp dụng lên ảnh trong quá trình giống tích chập. Giống như
biến đổi khoảng cách một chiều, biến đổi khoảng cách hai chiều cũng có hai giai
đoạn. Bước tiến di chuển từ trái sang phải, thực hiện từ trên xuống dưới ảnh, trong
khi bước lùi di chuyển từ phải sang trái, thực hiện từ dưới lên trên ảnh. Tại mỗi vị trí,
một tập các tổng hai số hạng được tạo ra bằng cách thêm từng phần tử trong mặt nạ
vào giá trị điểm ảnh cơ bản. Những nơi tống trong mặt nạ, không có thao tác nào
được thực hiện. Điểm ảnh dưới tâm của mặt nạ được thay thế bởi tổng nhỏ nhất.
375
HÌNH 18-27
Hình 18-27 Cặp mặt nạ đối với biến đổi khoảng cách hai chiều sử dụng thuật giải
xoi đường: (a) 3 3; (b) 5 5
Các mặt nạ 3 3 trong hình 18-27 co ta một ảnh khoảng cách mà mức xám trong
đó gấp ba lần khoảng cách Ơ clit đến đường biên. Độ lệch cực đại từ khoảng cách Ơ
clit thực sự là 8%. Các mặt nạ 5 5 cho ta một ảnh khoảng cách đượ nhân tỷ lệ lên
năm lần và sai số cực đại của chúng chỉ là 2%.
Ví dụ, biến đổi khoảng cách thường dùng trong việc phân đoạn các nhóm đối
tượng tiếp xúc. Mỗi đối tượng trong nhóm tạo ra một giá trị cực đại cục bộ trong ảnh
khoảng cách. Thuật giải đường phân nước (giảm ngưỡng từ một ngưỡng cao của ảnh
ban đầu) có thể phân đoạn ảnh khoảng cách thành các đối tượng thành phần riêng
biệt, như cho trong hình 18-28. Sử dụng thuật giải đường phân nước trên ảnh biến
đổi khoảng cách (hình 18-28(b)) có hiệu quả phá vỡ một phần đối tượng tròn tiếp
xúc (hình 18-28(c)).
18.7.6. Phân tích độ cong đường biên
Độ cong tại một điểm trên đường cong được định nghĩa như một sự thay đổi của
góc tang tại điểm đó. Độ cong trên đường biên của đối tượng là dương trong các
khoảng mà ở đó đối tượng là lồi và âm ở chỗ lõm.
Ví dụ, trong hình 18-29 một đồ thị độ cong của đường biên trình bày hai đỉnh
nhọn âm tương ứng với hai chỗ lõm. Nếu các đối tượng mong đợi là lồi, thì điều này
báo hiệu sai số phân đoạn. Một đường cắt ngang, được vẽ giữa hai điểm a và b, tách
biệt hai đối tượng. Vì thế, hàm độ cong đường biên có thể trợ giúp trong việc phát
hiện tự động và hiệu chỉnh các sai số phân đoạn.
HÌNH 18-28
Hình 18-28 Sử dụng thuật giải đường phân nước với biến đổi khoảng cách đề
phân đoạn các đối tượng tiếp xúc: (a) ảnh nhị phân; (b) biến đổi khoảng cách;
(c) ngưỡng đường phân nước
376
18.8. CẤU TRÚC ẢNH PHÂN ĐOẠN
Nếu chỉ đòi hỏi tổng kích thước của mỗi đối tượng, thì không cần thiết phải trích
chọn các đối tượng từ ảnh ban đầu. Trong các trường hợp khác, chúng ta có thể tổng
hợp một ảnh mới bằng cácnh trình bày các đối tượng được sắp xếp lạobằng cách nào
đó, hay ta có thể hiển thị từng đối tượng bằng chính ảnh của nó. Ta cũng có thể thực
hiện thêm phép đo hay xử lý khác trên các đối tượng riêng lẻ. Trong các trường hợp
này, có thể đáng giá để trích chọn và lưu trữ các đối tượng riêng lẻ theo một khuôn
dạng thuận lợi hơn.
Nói chung, mỗi đối tượng phải được ấn định một dãy số khi tìm thấy nó. Giá trị số
của đối tượng này có thể sử dụng để nhận biết và đánh dấu các đối tượng riêng lẻ
trong cảnh. trong phần này, ta sẽ đề cập ba phương pháp cấu trúc ảnh phân đoạn.
18.8.1. Bản đồ đối tượng thành viên
Một phương pháp để lưu trữ thông tin phân đoạn là để tạo ra một ảnh riêng biệt,có
cùng kích thước với ảnh ban đầu, và mã hoá đối tượng thành viên trên cơ sở từng
điểm ảnh. trong bản đồ đối tượng thành viên, mức xám của từng điểm ảnh mã hoá
chuỗi số thứ tự đối tượng có chứa điểm ảnh tương ứng trong ảnh ban đầu. Ví dụ, tất
cả các điểm ảnh thuọcc đối tượng 27 trong ảnh sẽ có mức xám 27 trong bản đồ thành
viên.
Kỹ thuật bản đồ thành viên nói chung là hoàn hảo, nhưng nó không phải là
phương pháp đặc biệt để lưu trữ thông tin phân đoạn. Thêm vào đó, nó đòi hỏi một
ảnh số đúng kích thước để miêu tả một cảnh chứa đúng một đối tượng nhỏ. Tuy
nhiên, đây là kiểu ảnh nén khá hiệu quả, vì bình thường nó chỉ chứa các vùng lớn có
mức xám không đổi.
Nếu chỉ quan tâm đến lích thước và hình dạng đối tượng, thì ảnh ban đầu có thể bị
loại bỏ sau khi phân đoạn. Kết quả giảm dữ liệu hiệu quả hơn nữa nếu chỉ có một đối
tượng hay nếu các đối tượng không cần thiết phải phân biệt. Trong cả hai trường
hợp, bản đồ thành viên đều trở thành một ảnh nhị phân.
Những yêu cầu dữ liệu cho phân đoạn ảnh thỉnh thoảng bắt buộc quá trình phải
làm nhiều giai đoạn khác nhau trên ảnh. một bản đồ thành viên nhị phân hai đa mức
thường được dùng như một bước trung gian trong thủ tục phân đoạn ảnh nhiều bước.
18.8.2. Chuỗi mã đường biên
Một khuôn dạng đầy đủ hơn đối với việc lưu trữ thông tin phân đoạn ảnh là chuỗi
mã bường biên. Bởi vì đây là đường biên định nghĩa một đối tượng, nên không cần
thiết phải lưu trữ vị trí các điểm bên trong. Hơn nữa, sự thật là chuỗi mã đường biên
dùng các đường biên là các đường liên kết.
Chuỗi mã khởi đầu bằng cách cách định rõ toạ độ (x, y) của điểm xuất phát tuỳ
chọn trên đường biên của đối tượng. Điểm ảnh được nhận biết có 8 lân cận và ít nhất
trong số chúng cũng phải là điểm biên. Chuỗi mã đường biên định rõ chiều hướng
mà một bước phải được tiến hành để đi từ điểm biên hiện tại đến điểm tiếp theo.
Vì có thể có 8 hướng, nên chúng có thể được đánh số, từ 0 đến 7. hình 18-30 cho
thấy một cách chia có thể chấp nhận của mã 8 hướng. Khi đó chuỗi mã đờng biên
bao gồm các toạ đọ của điểm xuất phát, theo sau là dãy mã hướng xác định đường
xung quanh biên.
Với chuỗi mã đường biên, việc lưu trữ sự phân đoạn của một đối tượng đòi hỏi
duy nhất một toạ độ (x, y) và ba bit cho mỗi điểm biên. Đây là không gian lưu trữ ít
hơn một cách đáng kể so với không gian cần thiết cho một bản đồ đối tượng thành
viên. Khi một cảnh phức tạp được phân đoạn, chương trình có thể lưu trữ từng đường
biên đối tượng như một bản ghi đơn lẻ bao gầm số đối tượng, chu vi (số các điểm
biên) và chuỗi mã. Thêm vào đó, có nhiều đặc trưng kích thước và hình dạng có thể
được trích chọn trực tiếp từ chuỗi mã đường biên, như trình bày ở chương tiếp theo.
377
HÌNH 18-30
Hình 18-30 Hướng mã đường biên
Sự sinh ra chuỗi mã đường biên thường yêu cầu truy cập ngẫu nhiên đối với ảnh
vào, vì đờng biên phải được đánh lần theo dấu vết trên toàn bộ ảnh. Bằng kỹ thuật
tìm vết đường biên trong phân đoạn ảnh, sự sinh ra chuỗi mã là điều tất yếu. Bằng
việc định vị đường biên phân ngưỡng, chuỗi mã thường phải được sinh ra trong bước
kế tiếp. Sự sinh ra chuỗi mã đường biên cũng không phù hợp cho lắm với việc xử lý
từng dòng ảnh lưu trên đĩa. Bởi vì các điểm ảnh bên trong bị bỏ qua, nên chuỗi mã ít
được dùng khi đòi hỏi xử lý thêm các ảnh đối tượng riêng biệt.
18.8.3. Mã hoá phân đoạn dòng
Mã hoá phân đoạn dòng là kỹ thuật lưu trữ từng dòng các đối tượng được trích
chọn. Quá trình được minh hoạ tốt nhất bằng một ví dụ trong hình 18-31. Giả sử
chúng ta muốn phân đoạn một ảnh sử dụng ngưỡng mức xám T. Chương trình xem
xét ảnh, từng dòng, hoạt động tư trên xuống, tìm kiếm những điểm ảnh có mức xám
lớn hơn hoặc bằng T.
Trong hình, đoạnh có nhãn 1-1 là dãy ba điểm ảnh kề sát nhau trên dòng thứ 100
có mức xám bằng hoặc trên mức ngưỡng. Vì thế, đoạn 1-1 là phân đoạn dòng đầu
tiên của đối tượng đầu tiên (đối tượng số 1) mà chương trình bắt gặp.
Thực hiện trên dòng 101, chương trình gặp hai đoạn, 1-2 và 2-1, trên mức
ngưỡng. Vì nó không có khả năng chứng tỏ là lúc này cả hai đối tượng thực sự thuộc
cùng một đối tượng, chương trình giả thiết rằng đoạn thứ hai trên dòng 101 là một
phần của đối tượng thứ hai, đối tượng số 2. Vì đoạn thứ 1-2 nằm dưới đoạn 1-1 nên
chương trình giả thiết rằng cả hai đoạn này đều là một phần của đối tượng số 1.
Quá trình tiếp tục trên toàn bộ dòng 102, nhưng với dòng 103 chỉ tìm thấy một
đoạn đơn lẻ và nó nằm dưới các đoạn của cả hai đối tượng 1 và 2. bây giờ chương
trình thừa nhận rằng các đối tượng 1 và 2 là như nhau và việc đánh số đoạn tiếp tục
cho đối tượng 1.
Trên dòng 105, chương trình lại tìm thấy hai đoạn. Tuy nhiên, vì chúng đều nằm
dưới đoạn 1-5 nên có thể thấy chúng thuộc đối tượng 1. trên dòng 107, không tìm
thấy đoạn nào nằm dưới đoạn 1-8 hay 1-9 và sự phân tách của đối tượng 1 là hoàn
toàn. Theo phương pháp này, đây là những phân đoạn dòng, cùng nhận được, định rõ
đối tượng đã được phân tách.
Hình 18-32 cho thấy môt cách mà thông tin phân đoạn đối tượng có thể được tổ
chức lưu trữ trên đĩa. Mỗi khi một đối tượng mới được xác định, chương trình sẽ tạo
ra một tệp đối tượng mới. Tệp này bắt đầu bằng một nhãn đối tượng chứa số đối
tượng và số lượng đoạn trong đối tượng. Mục sau cùng phải được thường xuyên
được cập nhật cho đến khi đối tượng được phân đoạn hoàn toàn.
Theo sau nhãn đối tượng, các phân đoạn dòng được lưu trữ như các bản ghi.
Trong hình 18-32, chúngđược lưu trữ bằng một nhãn đoạn, theo sau là giá trị mức
xám của các điểm ảnh trong đoạn đó. Nhãn đoạn chứa số dòng mà từ đó đoạn được
trích chọn, toạ độ của điểm ảnh đầu tiên trên phân đoạn dòng và số điểm ảnh trong
phân đoạn dòng.
Đối với đối tượng trong hình 18-31, hai tệp đối tượng đoạn đều được mở. Sau đó
chỉ hai đoạn này được lưu trong tệp đối tượng 2, tuy nhiên, chương trình khám phá ra
378
rằng các đối tượng 1 và đều giống nhau. Vì vậy, cấu trúc sâu hơn của tệp đối tượng 2
không thể tiếp tục. Sau đó, hay sau khi phân đoạn hoàn toàn đối tượng này, hai tệp
đoạn đối tượng có thể được hợp nhất.
Kết quả của kỹ thuật mã hoá phân đoạn dòng là một tập các tệp đoạn, mỗi tệp cho
một đối tượng. Nếu mỗi tệp đoạn được lưu như một bản ghi đơn lẻ trên ổ đĩa, thì chỉ
cần một vòng quay của đĩa là đủ để đọc và ghi toàn bộ đối tượng. Một ảnh đối tượng
có thể dễ dàng tái tạo trong bộ nhớ đơn giản bằng cách mở tệp đoạn. Điêug này
thường sử dụng khi cần xử lý thêm các ảnh đối tượng.
Đối với việc phân đoạm các ảnh lớn, ảnh đầu vào được đọc từng dòng từ đĩa và
các tệp đoạn đối tượng được thu thập trong bộ nhớ. Miễn sao một tệp đối tượng được
hoàn thành, nhãn của nó được thông qua và tệp đó được ghi lên đĩa như một bản ghi.
Một điểm thuận lợi của phương pháp này là diện tích, chu vi, IOD, kích thước mở
rộng chiều ngang và chiều dọc của đối tượng đó dễ dàng xây dựng thành bước trích
chọn đối tượng. Trong phương pháp này, một vài đặc trưng quan trọng của đối tượng
được biết ngay khi bước phân đoạn được hoàn thành.
HÌNH 18-32
Hình 18-32 Tệp đoạn đối tượng
18.9. TỔNG KẾT NHỮNG ĐIỂM QUAN TRỌNG
1. Phân đoạn ảnh là quá trình phân chia một ảnh số thành những tập điểm ảnh liên
kết và không đè lên nhau, một tập tương ứng với nền và các tập còn lại tương
ứng với các đối tượng trong ảnh.
2. Phân đoạn ảnh có thể được tiếp cận như quá trình ấn định các điểm ảnh cho các
đối tượng hay tìm đường biên giữa các đối tượng (hay giữa các đối tượng và
nền).
3. Phân ngưỡng mức xám là một kỹ thuật phân vùng đơn giản luôn tạo ra các
đường biên kín, liên thông.
4. Quá trình làm đặc nền và khử nhiễu, được xây dựng trước khi phân đoạn,
thường có thể cải thiện hiệu suất trong suốt quá trình phân đoạn.
5. Phân ngưỡng mức xám thường rất cần thiết để thay đổi trong phạm vi ảnh, trừ
phi độ tương phản giữa đối tượng và mức xám nền tương đối ổn định.
6. Đối với ảnh các đối tượng đơn giản trên nền tương phản, việc lập mức ngưỡng
tại điểm lõm của lược đồ nhị thức làm tối thiểu hoá tính nhạy của của diện tích
đo được với sự thay đổi ngưỡng.
7. Hàm chiếu của một điểm tròn đồng tâm có thể xuất phát từ lược đồ hay hàm
chu vi ảnh của nó.
8. Gradient trung bình xung quanh một đường viền có thể tính từ hàm chu vi và
lược đồ [biểu thức (12)]
379
9. Phân đoạn đối tượng có thể được thực hiện bằng cách tìm vết đường biên, hay
phân ngưỡng, theo gradient ảnh.
10. Các kỹ thuật tăng vùng thường dùng cho việc phân đoạn các cảnh phức tạp sử
dụng các định nghĩa đối tượng phức tạp.
11. Phân đoạn một ảnh có thể được lưu trữ như một bản đồ thành viên, như một
chuỗi mã hay theo mã phân đoạn dòng.
BÀI TẬP
1. Bên dưới là lược đồ của một ảnh 20 mức xám (0 là màu đen) của một quả bóng
bi-a màu trắng trên nền đen. Quả bóng được làm bằng vật liệu có trọng lượng
riêng là 1.5 gam/cm3. Khoảng cách điểm ảnh là 1 mm. Quả bóng cân nặng bao
nhiêu?
[0 100 500 3000 9000 3000 500 200 100 200 300 500 627 500 300 200 100 0 0 0]
2. Bên dưới là lược đồ của một ảnh 20 mức xám của một trái cây trên một nền
tương phản. Khoảng cách điểm ảnh là 2 mm. Đây là quả anh đào, quả nho hay
quả bí ngô?
[0 100 200 300 500 600 500 300 200 100 200 500 3000 8000 20000 8000 3000
5000 1000 0]
3. Bên dưới là lược đồ của một ảnh 32 mức xám (0 là màu đen) chứa một máy
ghi đĩa màu đen, đường kíng là 12 inch, với nhãn màu trắng trên nền xám.
Khoảng cách điểm ảnh là bao nhiêu? đường kính nhãn là bao nhiêu?
[0 0 0 0 100 200 2000 6000 2000 200 100 0 0 200 3000 9000 3000 200 0 0 50
100 400 100 50 0 0 0 0 0 0 0]
DỰ ÁN
1. Phát triển một chương trình tạo ra các ảnh số của các vết nhiễu Gauss trên nền
đã có mức xám định. Kể cả khả năng xác định vị trí và chiều x và chiều y (độ
lệch tiêu chuẩn) của vết và biên độc của nhiễu trắng phân bố không đồng đều.
Tạo một ảnh 200 mức xám cao, vết 15 20 với nhiễu có biên độ đỉnh là mức
xám 10.
2. Phát triển một chương trình tạo ra các tóm tắt từ diện tích và chu vi của vết đã
miêu tả trong dự án 1 và tính đạo hàm bậc nhất và bậc hai của tóm tắt này.
Định nghĩa SNR như biên độ vết chia cho biên độ nhiễu RMS. Với các vết tròn
bán kính 5, 10 và 20 điểm ảnh, với các SNR là 40, 20, 10 và 5, tạo ra các tóm
tắt từ diện tích và xác định vị trí điểm có độ dốc cực đại. Xác định theo kinh
nghiệm, đối với từng kích thước của vết, SNR tối thiểu cần thiết là bao nhiêu
để xác định vị trí điểm uốn với sai số không quá một điểm ảnh.
3. Phát triển một chương trình hiệu chỉnh hàm Gauss hai chiều thành vết nhiễu
Gauss trên một nền có mức xám 0 (xem phần 19.5.5). Sử dụng chương trình để
xác định vị trí, kích thước và biên độ của vết nhiễu trong một ảnh được tạo bởi
chương trình được miêu tả trong dự án 1 hay có được bằng cách số hoá ảnh
một đối tượng tròn.
4. Phát triển một chương trình phân ngưỡng thích nghi mà có thể thiết lập ngưỡng
cho từng đối tượng trong một cảnh sử dụng một trong những kỹ thuật chọn
ngưỡng đã miêu tả trong chương này và kiểm tra chương trình trên một ảnh
chứa 5 đối tượng có độ tương phản khác nhau trên một nền không đều. Sử
dụng một ảnh số khác hay một ảnh được tạo bởi một chương trình như đã miêu
tả trong dự án 1.

File đính kèm:

bai_giang_xu_ly_anh_chuong_18_nhan_dang_mau_phan_doan_anh.pdf