Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác

Trong bài báo này, chúng tôi đề xuất các phương pháp trích xuất đặc trưng thị giác của hình ảnh và

thực hiện tra cứu ảnh tương tự theo nội dung dựa trên chỉ mục nhị phân, chỉ mục này được gọi là chữ ký

nhị phân của hình ảnh. Có ba đặc trưng của hình ảnh được trích xuất nhằm xây dựng phương pháp tra cứu

ảnh bao gồm: dải màu của một tập ảnh cho trước, đặc trưng SIFT (Scale Invariant Features Transform)

và đối tượng đặc trưng. Để xây dựng phương pháp tra cứu ảnh tương tự theo nội dung, chúng tôi lần lượt

đề xuất các thuật toán bao gồm: thuật toán trích xuất dải màu bằng cách cải tiến thuật toán K-means, thuật

toán trích xuất đặc trưng SIFT dựa trên phương pháp Harris-Laplace, thuật toán trích xuất đối tượng đặc

trưng dựa trên không gian màu CIE-L*a*b* và phép biến đổi DWT (Discrete Wavelet Frames). Từ các

đặc trưng hình ảnh đã được trích xuất, chúng tôi xây dựng chữ ký nhị phân và độ đo tương tự để làm cơ

sở xây dựng phương pháp tìm kiếm ảnh tương tự. Từ đó, hệ tra cứu ảnh tương tự theo nội dung được xây

dựng. Nhằm minh chứng cơ sở lý thuyết đã đề xuất, chúng tôi xây dựng 6 ứng dụng khác nhau nhằm

đánh giá kết quả về độ chính xác và thời gian tra cứu ảnh trên bộ dữ liệu COREL. Kết quả thực nghiệm

được so sánh với các phương pháp tra cứu ảnh đã có nhằm đánh giá tính hiệu quả của phương pháp đề

xuất.

pdf 15 trang yennguyen 4400
Bạn đang xem tài liệu "Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác

Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác
Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH n n h ệp Th ph m T h nh -2017) 
184 
TRA CỨU ẢNH THEO NỘI DUNG 
DỰA TRÊN CHỈ MỤC MÔ TẢ ĐẶC TRƢNG THỊ GIÁC 
Văn Thế Thành1, *, Lê Mạnh Thạnh2 
1 Trườn Đạ họ n n h ệp Th ph m Thành phố h nh 
2
 Trườn Đạ họ Khoa họ , Đạ ọ uế 
*
Email: thanhvt@cntp.edu.vn 
Ngày nhận bài: 25/08/2017; Ngày chấp nhận đăng: 30/08/2017 
TÓM TẮT 
Trong bài báo này, chúng tôi đề xuất các phương pháp trích xuất đặc trưng thị giác của hình ảnh và 
thực hiện tra cứu ảnh tương tự theo nội dung dựa trên chỉ mục nhị phân, chỉ mục này được gọi là chữ ký 
nhị phân của hình ảnh. Có ba đặc trưng của hình ảnh được trích xuất nhằm xây dựng phương pháp tra cứu 
ảnh bao gồm: dải màu của một tập ảnh cho trước, đặc trưng SIFT (Scale Invariant Features Transform) 
và đối tượng đặc trưng. Để xây dựng phương pháp tra cứu ảnh tương tự theo nội dung, chúng tôi lần lượt 
đề xuất các thuật toán bao gồm: thuật toán trích xuất dải màu bằng cách cải tiến thuật toán K-means, thuật 
toán trích xuất đặc trưng SIFT dựa trên phương pháp Harris-Laplace, thuật toán trích xuất đối tượng đặc 
trưng dựa trên không gian màu CIE-L*a*b* và phép biến đổi DWT (Discrete Wavelet Frames). Từ các 
đặc trưng hình ảnh đã được trích xuất, chúng tôi xây dựng chữ ký nhị phân và độ đo tương tự để làm cơ 
sở xây dựng phương pháp tìm kiếm ảnh tương tự. Từ đó, hệ tra cứu ảnh tương tự theo nội dung được xây 
dựng. Nhằm minh chứng cơ sở lý thuyết đã đề xuất, chúng tôi xây dựng 6 ứng dụng khác nhau nhằm 
đánh giá kết quả về độ chính xác và thời gian tra cứu ảnh trên bộ dữ liệu COREL. Kết quả thực nghiệm 
được so sánh với các phương pháp tra cứu ảnh đã có nhằm đánh giá tính hiệu quả của phương pháp đề 
xuất. 
Từ khóa: đặc trưng thị giác, chữ ký nhị phân, độ đo tương tự, tra cứu ảnh, ảnh tương tự. 
1. MỞ ĐẦU 
Dữ liệu đa phương tiện, đặc biệt là ảnh số đã trở nên thân thuộc với cuộc sống hàng ngày và được sử 
dụng trên nhiều thiết bị khác nhau như camera, mobile, smartphone, tablet, Theo báo cáo của IDC 
(International Data Corporation) năm 2015, thế giới đã tạo và chia sẻ hơn 1,6 nghìn tỷ hình ảnh, trong đó 
70% hình ảnh được tạo ra từ thiết bị mobile [1]. Theo tập đoàn dữ liệu thế giới IDC, dung lượng dữ liệu 
gia tăng trong năm 2012 là 2.800 exabyte và ước tính dung lượng gia tăng của năm 2020 là 40 zettabyte 
[2]. Việc số hóa dữ liệu đa phương tiện đã tạo ra các cơ sở dữ liệu khổng lồ làm cho bài toán tìm kiếm đối 
tượng trở nên phức tạp và có nhiều thách thức như: phân lớp tự động và truy xuất theo nội dung đối 
tượng, tạo chỉ mục và tìm kiếm nhanh các đối tượng liên quan,... 
Tìm kiếm hình ảnh tương tự từ các tập dữ liệu ảnh lớn là một bài toán quan trọng trong lĩnh vực thị 
giác máy tính [3]. Các kết quả khảo sát và dự báo của các nghiên cứu gần đây cho thấy việc tìm kiếm các 
hình ảnh liên quan với yêu cầu người dùng là bài toán phù hợp với nhu cầu xã hội hiện đại [4]. 
Việc thiết kế chỉ mục, xây dựng cấu trúc dữ liệu và đưa ra thuật toán tìm kiếm là trọng tâm của bài 
toán tìm kiếm dữ liệu ảnh [5]. Vấn đề đặt ra là xây dựng phương pháp tìm kiếm ảnh hiệu quả, nghĩa là tìm 
kiếm nhanh các hình ảnh tương tự trong một tập dữ liệu ảnh lớn với độ chính xác cao. Hơn nữa, hình ảnh 
là dạng dữ liệu không có cấu trúc vì nội dung của các đối tượng này có tính chất trực quan [2] nên bài 
toán khai phá dữ liệu ảnh có nhiều thách thức và là động lực để truy tìm các thông tin hữu ích từ các tập 
dữ liệu ảnh lớn. 
Mục tiêu chính của bài báo là xây dựng hệ truy vấn ảnh theo nội dung dựa trên chỉ mục nhị phân mô 
 ăn Thế Thành, ạnh Thạnh 
188 
tả đặc trưng thị giác nhằm tăng tốc độ tìm kiếm và đảm bảo được độ chính xác cao. Đóng góp của bài báo 
này gồm: (1) Đề xuất các thuật toán trích xuất đặc trưng thị giác bao gồm: thuật toán trích xuất dải màu, 
thuật toán trích xuất đặc trưng SIFT, thuật toán trích xuất đối tương đặc trưng; (2) Tạo chữ ký nhị phân và 
độ đo tương tự giữa hai hình ảnh; (3) Đề xuất phương pháp tìm kiếm ảnh theo nội dung dựa trên chữ ký 
nhị phân; (5) Xây dựng các hệ truy vấn ảnh và đánh giá thực nghiệm. 
Phần tiếp theo của bài báo này như sau: Phần 2, đề cập đến các công trình liên quan nhằm phân tích, 
đánh giá các công trình đã công bố để từ đó cho thấy tính khả dĩ của phương pháp tiếp cận trong bài báo; 
Phần 3, trình bày chi tiết về các phương pháp và thuật toán trích xuất đặc trưng hình ảnh; Phần 4, đưa ra 
các tạo chữ ký nhị phân và độ đo tương tự giữa hai hình ảnh; Phần 5, xây dựng phương pháp tra cứu ảnh 
và đánh giá thực nghiệm; Kết luận và hướng phát triển được trình bày trong Phần 6. 
2. CÁC CÔNG TRÌNH LIÊN QUAN 
Phương pháp tìm kiếm ảnh dựa trên văn bản được giới thiệu vào thập niên 1970, tìm kiếm ảnh dựa 
trên nội dung được giới thiệu vào khoảng thập niên 1980 [6]. Đã có nhiều công trình liên quan đến tìm 
kiếm ảnh dựa trên nội dung đã công bố như: trích xuất các đối tượng trên hình ảnh dựa trên sự biến đổi 
giá trị của lược đồ màu [7], tìm kiếm ảnh dựa trên đối sánh vùng đặc trưng [8], tìm kiếm ảnh dựa trên 
vùng đặc trưng bằng phương pháp Harris-Laplace [9], tìm kiếm ảnh dựa trên mặt phẳng bit và không gian 
màu [10], chuyển đổi không gian màu và xây dựng hàm băm nhằm tìm kiếm ảnh màu [11], tìm kiếm ảnh 
dựa trên hình dạng, màu sắc, kết cấu và đối tượng đặc trưng [12], 
Vào năm 2000, Vishal Chitkara và cộng sự đã công bố tài liệu kỹ thuật về tìm kiếm ảnh theo nội 
dung sử dụng chữ ký nhị phân tại Đại học Alberta, Canada. Công trình đã đề xuất phương pháp tạo chữ 
ký nhị phân cho ảnh màu và đưa ra độ đo tương tự giữa các chữ ký nhị phân nhằm phục vụ cho bài toán 
tìm kiếm ảnh. Công trình đã đánh giá độ chính xác về thực nghiệm trên các tập dữ liệu ảnh lớn để minh 
chứng tính khả thi của phương pháp [13]. Essam A. El-Kwae và cộng sự đã đưa ra phương pháp tìm kiếm 
ảnh dựa trên chữ ký nhị phân và cấu trúc tập tin chữ ký đa cấp. Nhằm minh chứng tính hiệu quả của 
phương pháp, trong công trình này tác giả đã phân tích cơ sở lý thuyết đồng thời mô tả thực nghiệm tìm 
kiếm trên cơ sở dữ liệu ảnh lớn [14]. Václav Snášel đã ứng dụng chữ ký mờ và cấu trúc cây S-Tree cho 
bài toán tìm kiếm ảnh tương tự. Thực nghiệm đã so sánh với các phương pháp khác cho thấy tính hiệu 
quả của phương pháp đề xuất [15]. Essam A. El-Kwae đã ứng dụng chữ ký nhị phân và tập tin chỉ mục 
phân cấp nhằm tăng hiệu quả cho bài toán tìm kiếm ảnh [16]. 
Vào năm 2003, Yannis Manolopoulos đã mô tả chữ ký nhị phân của hình ảnh và thực hiện gom cụm 
hình ảnh dựa trên cây S-Tree. Thực nghiệm đã cho thấy tính hiệu quả khi áp dụng chữ ký nhị phân đối 
với dữ liệu hình ảnh [17]. Imran Ahmad và William I. Grosky sử dụng chữ ký nhị phân để làm chỉ mục 
hình ảnh và ứng dụng cho bài toán tìm kiếm ảnh [18]. Nascimento và Chitkara đã tiếp cận kỹ thuật tìm 
kiếm ảnh dựa trên chữ ký nhị phân. Thực nghiệm đã cho thấy tính hiệu quả khi tìm kiếm trên các tập dữ 
liệu ảnh lớn [19]. 
Năm 2010, Abdelhamid Abdesselam và cộng sự đã xây dựng hệ truy vấn ảnh theo nội dung dựa trên 
chuỗi bit nhị phân. Công trình này đã đề xuất độ đo tương tự dựa trên chuỗi bit. Thực nghiệm của công 
trình cũng đã đánh giá tính hiệu quả của hiệu suất tìm kiếm và thời gian tìm kiếm [20]. 
Năm 2013, Timothy Chappell và Shlomo Geva tiếp cận tìm kiếm ảnh tương tự dựa trên chữ ký nhị 
phân, công trình đã đưa ra tính hiệu quả và gia tăng tốc độ tìm kiếm hình ảnh khi ứng dụng độ đo 
Hamming để đánh giá độ tương tự giữa các chữ ký nhị phân [21]. 
Năm 2014, Guangxin Ren và cộng sự đã đề xuất phương pháp tìm kiếm ảnh tương tự dựa trên chuỗi 
nhị phân mô tả đặc trưng SIFT để tạo chỉ mục cho hình ảnh. Thực nghiệm đã chứng minh được tính hiệu 
quả của phương pháp trên các tập dữ liệu ảnh khác nhau [22]. Junjie Cai và cộng sự đã sử dụng chuỗi nhị 
phân để tạo chỉ mục cho đặc trưng thị giác của hình ảnh. Phương pháp này đã tăng tốc độ tìm kiếm ảnh 
tương tự [23]. 
Năm 2015, Li Liu và cộng sự đã sử dụng phương pháp chữ ký ảnh dựa trên chuỗi nhị phân và dùng 
độ đo EMD để đối sánh hình ảnh. Công trình này đã chứng minh tính hiệu quả ứng với chữ ký ảnh có 
kích thước thay đổi và thực nghiệm với nhiều dạng hình ảnh khác nhau [24]. 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
189 
Vào các năm 2012, 2013, 2014, 2015, 2016 Wengang Zhou và cộng sự đã công bố công trình tìm 
kiếm ảnh tương tự dựa trên chữ ký nhị phân mô tả đặc trưng SIFT của hình ảnh. Trong thực nghiệm đã 
chứng minh tính hiệu quả trên các tập dữ liệu ảnh lớn [25], 
Từ các công trình đã công bố cho thấy hệ tra cứu ảnh tương tự có sự quan tâm rất nhiều của các 
nhóm tác giả trên toàn thế giới. Hơn nữa, việc áp dụng chữ ký nhị phân để thực hiện tìm kiếm ảnh tương 
tự theo nội dung là một hướng tiếp cận có cơ sở khoa học và có tính thực tiễn cao và có nhiều thách thức. 
Do đó, chúng tôi tiến hành xây dựng hệ tra cứu ảnh tương tự dựa trên chữ ký nhị phân mô tả các đặc 
trưng thị giác nhằm nâng cao hiệu suất tìm kiếm ảnh. 
3. TRÍCH XUẤT ĐẶC TRƢNG THỊ GIÁC 
3.1. Phƣơng pháp trích xuất dải màu 
Màu sắc là đặc trưng quan trọng khi thực hiện đối sánh hoặc trích xuất các đặc trưng khác của hình 
ảnh. Trong phần này, chúng tôi xây dựng dải màu để tạo chỉ mục nhị phân nhằm ứng dụng cho bài toán 
tìm kiếm ảnh tương tự theo nội dung. Christian Wengert và cộng sự đã tiếp cận tạo chữ ký ảnh và chữ ký 
nhị phân dựa trên màu sắc. Phương pháp này tạo ra một dải màu trên không gian màu * * *CIE-L a b và sử 
dụng gom cụm K-mean để tạo ra chữ ký màu sắc [26]. Ayaka Kojima đã tạo dải màu bằng cách gom cụm 
các thành phần màu 
*L , *a , *b và được xem như là một bước tiền xử lý nhằm rút ngắn thời gian tạo dải 
màu [27],... Nếu tạo dải màu bằng phương pháp K-mean thì phải chọn k-tâm ngẫu nhiên ban đầu. Tuy 
nhiên, nếu chọn k-tâm ngẫu nhiên thì sẽ hội tụ về các màu ngẫu nhiên, điều này dẫn đến dải màu được tạo 
ra có tính ngẫu nhiên và có thể không đạt được hiệu suất tìm kiếm. Do đó, chúng tôi đề xuất phương pháp 
tạo dải màu trong trường hợp này như sau: 
(1) Chọn hai tâm xa nhất trong không gian * * *CIE-L a b từ bộ sưu tập ảnh; 
(2) Chọn 2k tâm có khoảng cách trung bình đến các tâm hiện tại xa nhất; 
(3) Gom cụm các điểm màu bằng thuật toán K-mean. 
Trên cơ sở phương pháp đã đề xuất, chúng tôi thực hiện phương pháp gom cụm các điểm ảnh trong 
không gian * * *CIE-L a b theo khoảng cách Euclide từ tập 36.986 ảnh nhằm xây dựng các dải màu để làm 
tiền đề tạo chữ ký nhị phân. Thực nghiệm tạo các dải màu gồm: 32 màu, 64 màu, 128 màu và 256 màu. 
Thuật toán tạo dải màu cơ sở được đề xuất như sau: 
Thuật toán 1. Tạo dải màu cơ sở 
Đầu vào: Tập các hình ảnh , số tâm cụm k. 
Đầu ra: Dải màu CP. 
Function CreateColorPalette(, k) 
Begin 
ColorList = ; 
 For (với mỗi ảnh I ) do 
 Chuẩn hóa kích thước ảnh I ; 
 Chia khối ảnh I thành b b khối; 
 Tạo danh mục màu đặc trưng CL của các khối trên ảnh I; 
 ColorList = ColorList  CL; 
 EndFor; 
 Gom cụm tập màu ColorList ứng với k tâm theo phương pháp đề xuất; 
 Cập nhật danh sách các tâm cụm tạo thành dải màu CP; 
 Return CP; 
End. 
Kết quả của Thuật toán 1 là tạo ra một dải màu từ một bộ sưu tập hình ảnh . Kết quả thuật toán này 
là một dải màu CP trên không gian màu * * *CIE-L a b . Chúng tôi thực nghiệm Thuật toán 1 với lần lượt số 
cụm 32, 64, 128, 256k k k k . Trong Bảng 1 mô tả một kết quả thực nghiệm ( 32k màu) về gom 
cụm tập ảnh màu có 36,986 ảnh và tạo một dải 32 màu trên không gian màu * * *CIE-L a b . Mỗi màu tương 
ứng với một tâm cụm và được mô tả bằng ba giá trị gồm 
*L , *a , *b . Các giá trị này chuyển đổi sang 
không gian màu RGB trở thành các giá trị màu đỏ (R), màu xanh lá cây (G) và màu xanh dương (B). Các 
dải màu được lưu trữ dưới dạng một tập tin văn bản lưu trữ các giá trị trong không gian màu * * *CIE-L a b 
 ăn Thế Thành, ạnh Thạnh 
190 
và RGB. Các dải màu được thể hiện dưới dạng màu sắc tại Hình 1 gồm 4 dải màu: 32 màu, 64 màu, 128 
màu, 256 màu. Mỗi kết quả được mô tả bằng một bộ gồm: ảnh gốc, dải màu và ảnh đã được lượng tử hóa. 
 ình 1: Kết quả lượng tử hoá trên các dải màu gồm 32 màu, 64 màu, 128 màu, 256 màu 
Bảng 1. Một kết quả gom cụm dải màu (có 32 màu) trên không gian 
* * *CIE-L a b và RGB 
STT L* a* b* R G B 
1 72,19492 -4,69223 -20,3096 145 171 214 
2 70,37985 -13,3894 31,12119 168 174 115 
3 70,35474 -12,7615 53,74955 179 175 69 
4 14,93575 -8,60442 10,64513 31 40 22 
5 23,48051 0,198203 2,709504 58 53 52 
6 31,37799 17,24048 -40,6783 55 54 138 
7 56,88317 13,15939 34,72717 176 124 76 
8 46,19568 -1,90574 1,539955 107 106 107 
9 48,05418 2,197528 14,78766 127 109 89 
10 54,37212 -16,7845 25,44363 117 135 85 
11 43,21434 54,28091 34,4791 188 48 48 
12 71,95325 -5,29114 8,874816 173 173 160 
13 40,17137 -16,3006 29,93271 84 100 44 
14 15,20833 1,940357 -8,09322 35 35 49 
15 69,20362 -0,1795 -3,90542 165 162 176 
16 97,8454 -0,169 -0,06138 248 239 249 
17 79,46245 -17,0604 -4,28864 155 198 204 
18 89,17648 -0,86974 3,916848 226 216 217 
19 31,97869 -5,572 15,67204 76 75 50 
20 27,67682 23,20025 20,42102 104 48 35 
21 85,18985 -1,49638 -7,52549 203 204 227 
22 30,46564 -10,9266 0,703536 52 74 70 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
191 
23 34,95284 0,841394 -0,93 83 78 84 
24 44,49578 -1,27763 -16,6607 86 100 133 
25 64,13496 2,723528 11,48975 169 148 135 
26 79,81418 1,582995 2,250819 203 189 194 
27 13,67965 9,23454 7,684098 50 28 25 
28 81,41517 1,504243 22,13617 221 194 161 
29 57,32503 -0,17733 -30,2882 100 129 190 
30 48,27583 26,38335 3,846635 158 92 109 
31 57,43957 -0,60949 -2,13779 135 132 142 
32 3,540629 0,266378 0,211196 14 12 12 
3.2. Phƣơng pháp trích xuất đặc trƣng SIFT 
Có nhiều phương pháp dò tìm đặc trưng thông dụng đã được giới thiệu [28], gồm phương pháp dò 
góc và cạnh được giới thiệu vào năm 1998 bởi Harris và M.Stephens, phương pháp dò tìm đặc trưng 
SIFT (Scale Invariant Features Transform) dựa trên phép lọc của mặt nạ tích chập giữa hình ảnh và đạo 
hàm riêng DoG (Difference of Gaussian) nhằm xấp xỉ toán tử Laplace của hàm Gauss được giới thiệu 
năm 2003 bởi D.Lowe, phương pháp dò tìm đặc trưng SURF (Speeded Up Robust Feature) được giới 
thiệu vào năm 2006 bởi Bay và cộng sự, phương pháp dò điểm đặc trưng Harris-Laplace dựa trên toán tử 
Laplace của hàm Gauss được giới thiệu năm 2001 bởi Mikolajczyk và C.Schmid, 
Phương pháp dò điểm đặc trưng Harris-Laplace có thể áp dụng cho ảnh màu và bất biến đối với sự 
biến đổi cường độ ảnh cũng như bất biến đối với các phép biến đổi tỉ lệ, phép quay, phép biến đổi affine. 
Vì vậy, chúng tôi thực hiện dò điểm đặc trưng dựa trên phương pháp Harris-Laplace và áp dụng cho ảnh 
màu. Chữ ký nhị phân được tạo ra từ vùng đặc trưng tương ứng với các điểm đặc trưng đã có. Thuật toán 
trích xuất đặc trưng SIFT được đề xuất như sau: 
Thuật toán 2. Trích xuất vùng đặc trưng 
Đầu vào: Ảnh I , ngưỡng  , hệ số tỉ lệ ,
I D
  . 
Đầu ra: Tập các vùng đặc trưng 
1 2{ , ,..., }N
I I I I
O o o o . 
Function InterestRegion( I ,  , ,
I D
  ) 
Begin 
Bước 1. Với mỗi điểm ảnh p I chuyển sang không gian màu YCbCr ; 
Bước 2. Thực hiện phép biến đổi Gauss; 
Bước 3. Tính cường độ đặc trưng 
0
( , )I x y cho ảnh ... nhị phân của hình ảnh được định nghĩa như sau: 
1 2 1 2
( ) ... ...O O O O O C C C
I I N M
Sig I Sig Sig b b b b b b  (1) 
Công thức (1) mô tả chỉ mục nhị phân của hình ảnh gồm hai phần: phần thứ nhất là một dãy -bitN 
mô tả chỉ mục nhị phân của đối tượng, phần thứ hai là một dãy -bitM mô tả chỉ mục nhị phân của màu 
sắc. Dựa trên cấu trúc chữ ký nhị phân này, độ đo tương tự giữa hai hình ảnh là sự kết hợp giữa độ đo 
tương tự của màu sắc và độ đo tương tự của đối tượng đặc trưng. 
4.2. Độ đo tƣơng tự giữa hai hình ảnh 
4.2.1. Độ đo tươn t d a tr n khoản á h amm n 
Gọi 
Isig và 
Jsig lần lượt là hai chữ ký nhị phân của hai hình ảnh I và J . Độ trùng khớp 
i
d được 
đối sánh trên mỗi phần tử của hai chữ ký và được định nghĩa như sau: 
1 ( )
0 ( )
I J
i i
i I J
i i
if sig sig
d
if sig sig
 (2) 
Độ đo tương tự của hai chỉ mục nhị phân được định nghĩa là: 
1
1 n
i
i
d
n

  (3) 
Dễ dàng chứng minh  thõa các tính chất của một metric, gồm: 
(1) Không âm: ( , ) 0I Jsig sig , Nếu ( , ) 0I J I Jsig sig sig sig 
(2) Đối xứng: ( , ) ( , )
I J J I
sig sig sig sig  
(3) Bất đẳng thức tam giác: ( , ) ( , ) ( , )
I J J K I K
sig sig sig sig sig sig   
4.2.2. Độ đo tươn t d a tr n khoản á h E D 
Độ đo EMD dùng để tìm lời giải tối ưu trong bài toán vận tải. Giả sử có tập nhà cung cấp 
1 2
{ , ,..., }
m
P w w w và tập các nơi tiêu thụ 
1 2
{ , ,..., }
n
Q u u u . Gọi { }ijF f là tập các luồng mô tả chi phí 
di chuyển từ nhà cung cấp thứ i đến nhà tiêu thụ thứ j . Gọi ( )ijD d là ma trận khoảng cách giữa thành 
phần 
i
w và ju với các ràng buộc như sau: 
1
1
1 1 1 1
0 1 , 1
1
1
min( , )
ij
n
ij i
j
m
ij j
i
m n m n
ij i j
i j i j
f i m j n
f w i m
f u j n
f w u


  
 (4) 
Để tính độ tương tự giữa ảnh J và ảnh I , ta cần cực tiểu hóa chi phí chuyển đổi phân bố màu sắc 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
195 
1 1
n n
ij ij
i j
d f
 , với ijF f là ma trận phân phối luồng màu sắc từ màu 
i
I
c đến màu j
J
c và ijD d là ma 
trận khoảng cách Euclide trong không gian màu RGB từ màu 
i
I
c đến màu 
j
J
c . Khi đó, độ tương tự giữa 
hai hình ảnh I và J dựa trên độ đo EMD là: 
1 1
1 1
( , )
n n
ij ij
i j
n n
ij
i j
d f
EMD I J
f


 (5) 
với 
1 1 1 1
min( , )
n n n n
i j
ij I J
i j i j
f w w
    
5. THỰC HIỆN TÌM KIẾM ẢNH TƢƠNG TỰ THEO NỘI DUNG 
5.1. Mô hình thực nghiệm 
Sau khi trích xuất đặc trưng thị giác của hình ảnh như đã trình bày ở Phần 3, chúng tôi tạo chỉ mục 
nhị phân mô tả màu sắc và mô tả đối tượng để từ đó tạo thành chữ ký nhị phân cho hình ảnh. Từ đó, 
chúng tôi đánh giá độ tương tự giữa hai hình ảnh qua chữ ký nhị phân. Độ đo tương tự này đã được đề 
xuất tại phần 4 trên cơ sở độ đo Hamming và độ đo EMD. Trên cơ sở này, hệ truy vấn ảnh được xây dựng 
và mô tả như Hình 4. 
 ình 4. Mô hình được đề xuất cho bài toán truy vấn ảnh 
Theo như Hình 4 cho thấy, quá trình tìm kiếm hình ảnh được chia làm hai giai đoạn gồm: Giai đoạn 
tiền xử lý gồm các bước: (1) Phân đoạn hình ảnh ứng; (2) Tạo chỉ mục nhị phân để tạo thành tập chữ ký 
ảnh. Giai đoạn truy vấn ảnh thực hiện: (1) Phân đoạn ảnh truy vấn; (2) Tạo chữ ký nhị phân cho ảnh truy 
vấn; (3) Thực hiện truy vấn ảnh để tìm các hình ảnh tương tự. 
Giai đoạn tiền xử lý được thực nghiệm trên máy tính có bộ xử lý Intel(R) Xeon(R) X3440 @ 2,53 
GHz x 2, hệ điều hành Windows Server 2008 R2 Enterprise 64-bit, RAM 8.00GB. Giai đoạn tìm kiếm 
ảnh được thực thi trên máy tính có bộ xử lý Intel(R) CoreTM i7-2620M, CPU 2,70GHz, RAM 4GB và hệ 
điều hành Windows 7 Professional. Tất cả các ứng dụng thực nghiệm được xây dựng trên nền tảng 
dotNET Framework 3.5, ngôn ngữ lập trình C#. 
5.2. Kết quả thực nghiệm 
Trên cơ sở mô hình đã đề xuất, chúng tôi xây dựng 6 hệ truy vấn ảnh và thực nghiệm trên tập dữ liệu 
ảnh COREL. Dựa trên vùng đặc trưng và màu sắc đã được trích xuất (như Phần 3) kết hợp với việc tạo 
chữ ký nhị phân và độ đo tương tự, chúng tôi thực hiện tạo chữ ký nhị phân cho tập dữ liệu ảnh COREL 
và sau đó quá trình tìm kiếm ảnh được thực hiện. Trên cơ sở này, chúng tôi xây dựng 6 ứng dụng được 
phân loại theo chuẩn màu, vùng đặc trưng và độ đo. Bốn hệ truy vấn đầu tiên trong Bảng 2 được thực 
nghiệm trên cùng một chuẩn màu MPEG7 nhưng khác nhau về độ đo và bốn hệ truy vấn ảnh sau cùng 
trong Bảng 2 thực hiện trên cùng một độ đo EMD nhưng khác chuẩn màu. Kết quả của thực nghiệm được 
đánh giá qua các tiêu chí gồm: độ chính xác (precision), độ phủ (recall), độ đo F-measure và thời gian tìm 
kiếm. Kết quả về độ chính xác và độ phủ được đánh giá trên từng chủ đề ảnh từ Hình 6 đến Hình 12. Thời 
gian tìm kiếm của 6 phương pháp được so sánh tại Hình 13; các tiêu chí khác được mô tả như sau: 
 ăn Thế Thành, ạnh Thạnh 
196 
Độ phủ = (số ảnh truy vấn liên quan)/(Tổng số ảnh liên quan trong tập dữ liệu ảnh) 
Độ chính xác = (số ảnh truy vấn liên quan)/(Ngưỡng xác định số ảnh truy vấn) 
F-measure = 2 (Độ phủ x Độ chính xác)/(Độ phủ + Độ chính xác) 
Bảng 2. Mô tả các hệ truy vấn ảnh 
Số TT Tên hệ truy vấn ảnh Chuẩn màu Độ đo Vùng đặc trưng 
1 H-MPEG7 MPEG7 Hamming Toàn cục 
2 HR-MPEG7 MPEG7 Hamming Vùng cục bộ 
3 E-MPEG7 MPEG7 EMD Toàn cục 
4 ER-MPEG7 MPEG7 EMD Vùng cục bộ 
5 EP-64 64 màu EMD Toàn cục 
6 EP-256 256 màu EMD Toàn cục 
 ình 5. Một kết quả tìm kếm ảnh dựa trên vùng đặc trưng, dải màu MPEG7 và độ đo Hamming 
 ình 6. Đánh giá hiệu suất của hệ H-MPEG7 trên tập ảnh COREL 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
197 
 ình 7. Đánh giá hiệu suất của hệ HR-MPEG7 trên tập ảnh COREL 
 ình 8. Đánh giá hiệu suất của hệ E-MPEG7 trên tập ảnh COREL 
 ình 9. Đánh giá hiệu suất của hệ ER-MPEG7 trên tập ảnh COREL 
 ình 10. Đánh giá hiệu suất của hệ EP-64 trên tập ảnh COREL 
 ăn Thế Thành, ạnh Thạnh 
198 
 ình 11. Đánh giá hiệu suất của hệ EP-256 trên tập ảnh COREL 
 ình 12. So sánh độ chính xác của các phương pháp đề xuất trên tập ảnh COREL 
 ình 13. So sánh thời gian truy vấn của các phương pháp đề xuất trên tập ảnh COREL 
Các kết quả thực nghiệm của 6 ứng dụng được tổng hợp tại Bảng 3 để từ đó minh chứng tính hiệu 
quả về thời gian và độ chính xác. Bảng 4 so sánh về thời gian tìm kiếm và độ chính xác trên cùng bộ dữ 
liệu COREL giữa phương pháp đề xuất với các kết quả của nhiều nhóm nghiên cứu gần đây. Từ đó cho 
thấy phương pháp của chúng tôi là một phương pháp tìm kiếm ảnh hiệu quả. 
Bảng 3. Đánh giá hiệu suất giữa các phương pháp trên tập dữ liệu ảnh COREL 
Phương pháp Độ chính xác TB Độ phủ TB F-measure TB T/g truy vấn TB (msec) 
H-MPEG7 0,727945007 0,728254451 0,728099696 4,470049638 
HR-MPEG7 0,73675841 0,737549361 0,737153673 4,86606208 
E-MPEG7 0,717266436 0,717538139 0,717402262 3,805543253 
ER-MPEG7 0,739472843 0,739783073 0,739627926 4,535472364 
EP-64 0,687480469 0,687487535 0,687484002 8,257046875 
EP-256 0,843602941 0,843331798 0,843467348 26,81254688 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
199 
Bảng 4. So sánh hiệu suất truy vấn giữa các phương pháp trên tập dữ liệu ảnh COREL 
Phương pháp Độ chính xác Độ phủ F-measure T/g truy vấn 
KD-Tree 0,876031667 N/A N/A 93; 63; 46 (msec) 
S-Tree 0,42 0,55 0,476289 186,25 I/Os 
QBIC N/A N/A N/A 2-40 sec 
Fuzzy Signatures N/A N/A N/A 20-50 I/Os 
Color histogram 0,29125 0,06400 0,104940 4,43750 sec 
Bit-planes 0,52938 0,12125 0,197308 4,18516 sec 
Interest point 0,65688 0,70500 0,68009 4,70938 sec 
Fuzzy histogram 0,50688 0,61625 0,55624 4,41863 sec 
Interest region 0,85200 0,78375 0,81645 4,78516 sec 
EP-64 0,687480469 0,687487535 0,687484002 8,257 msec 
EP-256 0,843602941 0,843331798 0,843467348 26,813 msec 
6. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 
Trong nghiên cứu này, chứng tôi đã xây dựng hệ tra cứu ảnh dựa trên chỉ mục nhị phân mô tả đặc 
trưng thị giác của hình ảnh. Để thực hiện vấn đề này, chúng tôi đã đề xuất cơ sở lý thuyết và thực nghiệm 
trên bộ dữ liệu mẫu thông dụng COREL. Theo kết quả thực nghiệm cho thấy, phương pháp EP-256 của 
chúng tôi đề xuất có độ chính xác trung bình trên 84% và thời gian tìm kiếm ảnh trung bình là 26,8 milli 
giây. Tất cả 6 phương pháp của chúng tôi đề xuất cũng đã được đánh giá trên bộ dữ liệu mẫu COREL và 
so sánh kết quả này với các phương pháp khác trên cùng một bộ dữ liệu mẫu. Từ đó cho thấy phương 
pháp tra cứu ảnh dựa trên chữ ký nhị phân là một phương pháp hiệu quả và có thể áp dụng để xây dựng 
một công cụ tìm kiếm trong các hệ thống đa phương tiện kết hợp với các hệ thống xử lý song song và 
phân tán. Hướng phát triển tiếp theo của chúng tôi sẽ xây dựng một hệ truy vấn ảnh theo ngữ nghĩa thông 
qua ngôn ngữ tự nhiên để định danh hình ảnh nhằm xác định thông tin của đối tượng trên ảnh, mô tả ngữ 
nghĩa hình ảnh một cách tự động. 
TÀI LIỆU THAM KHẢO 
1. C. Chute - Worldwide Digital Image 2015–2019 Forecast: The Image Capture and Share Bible, 
International Data Corporation. (2015) p.13. 
2. IDC. https://www.idc.com (2016). 
3. L. Deligiannidis, H.R. Arabnia - Emerging Trends in Image Processing, Computer Vision, and 
Pattern Recognition, Morgan Kaufmann (2015) pp.609. 
4. ACI.  (2015). 
5. Priya, Shanmugam - A comprehensive review of significant researches on content based indexing 
and retrieval of visual information. Front. Comp. Sci., 7(5) (2013) pp.782-799. 
6. Alzu’bi, A. Amira, N. Ramzan - Semantic content-based image retrieval: A comprehensive study 
Jour.l of Visual Comm. and Image Representation, 32 (2015) pp.20-54. 
7. X.-Y. Wang, J.-F. Wu, H.-Y. Yang - Robust Image Retrieval Based on Color Histogram of Local 
Feature Regions, Springer Science, Multimed Tools Appl, 49 (2010) pp.323-345. 
8. Bartolini, P. Ciaccia, M. Patella - Query processing issues in region-based image databases, 
Springer-Verlag, Knowl Inf Syst, 25 (2010) pp.389-420. 
 ăn Thế Thành, ạnh Thạnh 
200 
9. G.Rafiee et al., - Region-of-interest extraction in low depth of field images using ensemble 
clustering and difference of Gaussian approaches, Patt. Rec,, 46 (2013) pp.2685-2699. 
10. X.-Y. Wang, H.-Y. Yang, Y.-W. Li, F.-Y. Yang - Robust color image retrieval using visual interest 
point feature of significant bit-planes, Digital Signal Processing, 23(4), (2013) pp.1136-1153. 
11. Z. Tang, X. Zhang, X. Dai, J. Yang, T. Wu - Robust Image Hash Function Using Local Color 
Features, Inter. Journal of Electronics and Communications, 67 (2013) pp.717-722. 
12. C. Huang, Y. Han, Y. Zhang - A Method for Object-based Color Image Retrieval, Inter. 
Conference on Fuzzy Systems and Knowledge Discovery, IEEE, (2012) pp.1659-1663. 
13. V. Chitkara, M. A. Nascimento, C. Mastaller - Content-Based Image Retrieval Using Binary 
Signatures, University of Alberta, Canada, (2000), 18 pages. 
14. E. A. El-Kwae, Signature-Based Indexing for Retrieval by Spatial Content in Large 2D-String 
Image Databases, 12th Inter Symp, Springer, LNCS, Charlotte, (2000) pp.97-108. 
15. V. Snášel - Fuzzy Signatures for Multimedia Databases, Advances in Information Systems, ADVIS 
2000, Springer Berlin Heidelberg, 1909, Izmir, Turkey (2000) pp.257-264. 
16. E. A. El-Kwae, M. R. Kabuka - Efficient Content-Based Indexing of Large Image Databases, ACM 
Trans. on Infor. Systems, 18(2) (2000) pp.171-210. 
17. Y. Manolopoulos, A. Nanopoulos, E. Tousidou - Advanced Signature Indexing for Multimedia and 
Web Applications, Kluwer Academic Publishers, (2003) 197 pages. 
18. Ahmad, W. I. Grosky - Indexing and retrieval of images by spatial constraints, J. Vis. Commun. 
Image R., 14 (2003) pp.291-320. 
19. M. A. Nascimento, V. Chitkara - Color-Based Image Retrieval Using Binary Signatures, SAC 
2002, ACM, Madrid, Spain (2002) pp.687-692. 
20. Abdesselam, H. H. Wang, N. Kulathuramaiyer - Spiral Bit-string Representation of Color for 
Image Retrieval, The Inter. Arab Jour. of Infor. Tech., 7(3) (2010) pp.223-230. 
21. T. Chappell, S. Geva - Efficient Top-K Retrieval with Signatures, ADCS ’13, ACM, Brisbane, 
QLD, Australia (2013) 10-17. 
22. G. Ren, J. Cai, S. Li, N. Yu, Q. Tian - Scalable Image Search with Reliable Binary Code, Proc. of 
the 22nd ACM Inter. Conf. on Mult., ACM, Orlando, Florida (2014) 769-772. 
23. J. Cai, Q. Liu, F. Chen, D. Joshi, Q. Tian - Scalable Image Search with Multiple Index Tables, 
Proceedings of Inter. Conf. on Multimedia Retrieval, ACM, (2014) 4-7. 
24. L. Liu, Y. Lu, C. Y. Suen - Variable-Length Signature for Near-Duplicate Image Matching, IEEE 
Transactions on Image Processing, 24(4) (2015) 1282-1296. 
25. W. Zhou, H. Li, Y. Lu - Visual word expansion and BSIFT verification for large-scale image 
search, Multimedia Systems, 21(3) (2015) 245-254. 
26. C. Wengert, M. Douze, H. Jégou - Bag-of-colors for Improved Image Search, Proceedings of the 
19th ACM inter. Conf. on Mult., ACM, Scottsdale, Arizona (2011) 1437-1440. 
27. Kojima, T. Ozeki - Color Palette Generation for Image Classification by Bag-of-Colors, 21st Joint 
Workshop on Front. of Comp. Vision, IEEE, Mokpo (2015) 1-5. 
28. P. Muneesawang, N. Zhang, L. Guan - Multimedia Database Retrieval: Technology and 
Applications, Springer New York Dordrecht London (2014) 356 pages. 
29. V. Mezaris, I. Kompatsiaris, M. G. Strintzis - Still Image Segmentation Tools for Object-based 
Multimedia Applications, Int. Jour. of Pattern Recog. & AI, 18(4) (2004) 701-725. 
30. Thanh The Van, Thanh Manh Le - Content-Based Image Retrieval Using A Signature Graph and A 
Self-Organizing Map, Int. Jour. of AMCS, 26(2), (2016) 423-438. 
Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 
201 
ABSTRACT 
CONTENT-BASED IMAGE RETRIEVAL USING INDEXES OF VISUAL FEATURES 
Van The Thanh
1,*
, Le Manh Thanh
2
1
Faculty of Information Technology, HCMC University of Food Industry, Vietnam 
2
Faculty of Information Technology, College of Science, Hue University 
*
Email: thanhvt@cntp.edu.vn 
In this paper, we propose a serveral methods of extracting the visual features of the image and 
performing image retrieval by content based on binary index, which is called the binary signature of 
image. There are three features of image to develop the image retrieval method including the color palette 
of image set, the SIFT features and the interest objects. In order to develop the image retrieval method, 
we propose algorithms including the algorithm of extracting color palette by improving the K-means 
algorithm, the algorithm of extraction SIFT features based on the Harris-Laplace method, the object 
extraction algorithm is based on CIE-L*a*b* color space and DWT (Discrete Wavelet Frames). On the 
base of extracted features, we build binary signature and similarity measure to form the similar image 
retrieval method. From that, the content-based image retrieval system is built. To illustrate the proposed 
theoretical, we give six different applications for evaluating the accuracy and speed of image retrieval on 
COREL data set. The experimental results are compared with the other methods to evaluate the 
effectiveness of the proposed methods. 
Keywords: visual feature, binary signature, similarity measure, image retrieval, similar image. 

File đính kèm:

  • pdftra_cuu_anh_theo_noi_dung_dua_tren_chi_muc_mo_ta_dac_trung_t.pdf