Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác
Trong bài báo này, chúng tôi đề xuất các phương pháp trích xuất đặc trưng thị giác của hình ảnh và
thực hiện tra cứu ảnh tương tự theo nội dung dựa trên chỉ mục nhị phân, chỉ mục này được gọi là chữ ký
nhị phân của hình ảnh. Có ba đặc trưng của hình ảnh được trích xuất nhằm xây dựng phương pháp tra cứu
ảnh bao gồm: dải màu của một tập ảnh cho trước, đặc trưng SIFT (Scale Invariant Features Transform)
và đối tượng đặc trưng. Để xây dựng phương pháp tra cứu ảnh tương tự theo nội dung, chúng tôi lần lượt
đề xuất các thuật toán bao gồm: thuật toán trích xuất dải màu bằng cách cải tiến thuật toán K-means, thuật
toán trích xuất đặc trưng SIFT dựa trên phương pháp Harris-Laplace, thuật toán trích xuất đối tượng đặc
trưng dựa trên không gian màu CIE-L*a*b* và phép biến đổi DWT (Discrete Wavelet Frames). Từ các
đặc trưng hình ảnh đã được trích xuất, chúng tôi xây dựng chữ ký nhị phân và độ đo tương tự để làm cơ
sở xây dựng phương pháp tìm kiếm ảnh tương tự. Từ đó, hệ tra cứu ảnh tương tự theo nội dung được xây
dựng. Nhằm minh chứng cơ sở lý thuyết đã đề xuất, chúng tôi xây dựng 6 ứng dụng khác nhau nhằm
đánh giá kết quả về độ chính xác và thời gian tra cứu ảnh trên bộ dữ liệu COREL. Kết quả thực nghiệm
được so sánh với các phương pháp tra cứu ảnh đã có nhằm đánh giá tính hiệu quả của phương pháp đề
xuất.
Tóm tắt nội dung tài liệu: Tra cứu ảnh theo nội dung dựa trên chỉ mục mô tả đặc trưng thị giác
Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH n n h ệp Th ph m T h nh -2017) 184 TRA CỨU ẢNH THEO NỘI DUNG DỰA TRÊN CHỈ MỤC MÔ TẢ ĐẶC TRƢNG THỊ GIÁC Văn Thế Thành1, *, Lê Mạnh Thạnh2 1 Trườn Đạ họ n n h ệp Th ph m Thành phố h nh 2 Trườn Đạ họ Khoa họ , Đạ ọ uế * Email: thanhvt@cntp.edu.vn Ngày nhận bài: 25/08/2017; Ngày chấp nhận đăng: 30/08/2017 TÓM TẮT Trong bài báo này, chúng tôi đề xuất các phương pháp trích xuất đặc trưng thị giác của hình ảnh và thực hiện tra cứu ảnh tương tự theo nội dung dựa trên chỉ mục nhị phân, chỉ mục này được gọi là chữ ký nhị phân của hình ảnh. Có ba đặc trưng của hình ảnh được trích xuất nhằm xây dựng phương pháp tra cứu ảnh bao gồm: dải màu của một tập ảnh cho trước, đặc trưng SIFT (Scale Invariant Features Transform) và đối tượng đặc trưng. Để xây dựng phương pháp tra cứu ảnh tương tự theo nội dung, chúng tôi lần lượt đề xuất các thuật toán bao gồm: thuật toán trích xuất dải màu bằng cách cải tiến thuật toán K-means, thuật toán trích xuất đặc trưng SIFT dựa trên phương pháp Harris-Laplace, thuật toán trích xuất đối tượng đặc trưng dựa trên không gian màu CIE-L*a*b* và phép biến đổi DWT (Discrete Wavelet Frames). Từ các đặc trưng hình ảnh đã được trích xuất, chúng tôi xây dựng chữ ký nhị phân và độ đo tương tự để làm cơ sở xây dựng phương pháp tìm kiếm ảnh tương tự. Từ đó, hệ tra cứu ảnh tương tự theo nội dung được xây dựng. Nhằm minh chứng cơ sở lý thuyết đã đề xuất, chúng tôi xây dựng 6 ứng dụng khác nhau nhằm đánh giá kết quả về độ chính xác và thời gian tra cứu ảnh trên bộ dữ liệu COREL. Kết quả thực nghiệm được so sánh với các phương pháp tra cứu ảnh đã có nhằm đánh giá tính hiệu quả của phương pháp đề xuất. Từ khóa: đặc trưng thị giác, chữ ký nhị phân, độ đo tương tự, tra cứu ảnh, ảnh tương tự. 1. MỞ ĐẦU Dữ liệu đa phương tiện, đặc biệt là ảnh số đã trở nên thân thuộc với cuộc sống hàng ngày và được sử dụng trên nhiều thiết bị khác nhau như camera, mobile, smartphone, tablet, Theo báo cáo của IDC (International Data Corporation) năm 2015, thế giới đã tạo và chia sẻ hơn 1,6 nghìn tỷ hình ảnh, trong đó 70% hình ảnh được tạo ra từ thiết bị mobile [1]. Theo tập đoàn dữ liệu thế giới IDC, dung lượng dữ liệu gia tăng trong năm 2012 là 2.800 exabyte và ước tính dung lượng gia tăng của năm 2020 là 40 zettabyte [2]. Việc số hóa dữ liệu đa phương tiện đã tạo ra các cơ sở dữ liệu khổng lồ làm cho bài toán tìm kiếm đối tượng trở nên phức tạp và có nhiều thách thức như: phân lớp tự động và truy xuất theo nội dung đối tượng, tạo chỉ mục và tìm kiếm nhanh các đối tượng liên quan,... Tìm kiếm hình ảnh tương tự từ các tập dữ liệu ảnh lớn là một bài toán quan trọng trong lĩnh vực thị giác máy tính [3]. Các kết quả khảo sát và dự báo của các nghiên cứu gần đây cho thấy việc tìm kiếm các hình ảnh liên quan với yêu cầu người dùng là bài toán phù hợp với nhu cầu xã hội hiện đại [4]. Việc thiết kế chỉ mục, xây dựng cấu trúc dữ liệu và đưa ra thuật toán tìm kiếm là trọng tâm của bài toán tìm kiếm dữ liệu ảnh [5]. Vấn đề đặt ra là xây dựng phương pháp tìm kiếm ảnh hiệu quả, nghĩa là tìm kiếm nhanh các hình ảnh tương tự trong một tập dữ liệu ảnh lớn với độ chính xác cao. Hơn nữa, hình ảnh là dạng dữ liệu không có cấu trúc vì nội dung của các đối tượng này có tính chất trực quan [2] nên bài toán khai phá dữ liệu ảnh có nhiều thách thức và là động lực để truy tìm các thông tin hữu ích từ các tập dữ liệu ảnh lớn. Mục tiêu chính của bài báo là xây dựng hệ truy vấn ảnh theo nội dung dựa trên chỉ mục nhị phân mô ăn Thế Thành, ạnh Thạnh 188 tả đặc trưng thị giác nhằm tăng tốc độ tìm kiếm và đảm bảo được độ chính xác cao. Đóng góp của bài báo này gồm: (1) Đề xuất các thuật toán trích xuất đặc trưng thị giác bao gồm: thuật toán trích xuất dải màu, thuật toán trích xuất đặc trưng SIFT, thuật toán trích xuất đối tương đặc trưng; (2) Tạo chữ ký nhị phân và độ đo tương tự giữa hai hình ảnh; (3) Đề xuất phương pháp tìm kiếm ảnh theo nội dung dựa trên chữ ký nhị phân; (5) Xây dựng các hệ truy vấn ảnh và đánh giá thực nghiệm. Phần tiếp theo của bài báo này như sau: Phần 2, đề cập đến các công trình liên quan nhằm phân tích, đánh giá các công trình đã công bố để từ đó cho thấy tính khả dĩ của phương pháp tiếp cận trong bài báo; Phần 3, trình bày chi tiết về các phương pháp và thuật toán trích xuất đặc trưng hình ảnh; Phần 4, đưa ra các tạo chữ ký nhị phân và độ đo tương tự giữa hai hình ảnh; Phần 5, xây dựng phương pháp tra cứu ảnh và đánh giá thực nghiệm; Kết luận và hướng phát triển được trình bày trong Phần 6. 2. CÁC CÔNG TRÌNH LIÊN QUAN Phương pháp tìm kiếm ảnh dựa trên văn bản được giới thiệu vào thập niên 1970, tìm kiếm ảnh dựa trên nội dung được giới thiệu vào khoảng thập niên 1980 [6]. Đã có nhiều công trình liên quan đến tìm kiếm ảnh dựa trên nội dung đã công bố như: trích xuất các đối tượng trên hình ảnh dựa trên sự biến đổi giá trị của lược đồ màu [7], tìm kiếm ảnh dựa trên đối sánh vùng đặc trưng [8], tìm kiếm ảnh dựa trên vùng đặc trưng bằng phương pháp Harris-Laplace [9], tìm kiếm ảnh dựa trên mặt phẳng bit và không gian màu [10], chuyển đổi không gian màu và xây dựng hàm băm nhằm tìm kiếm ảnh màu [11], tìm kiếm ảnh dựa trên hình dạng, màu sắc, kết cấu và đối tượng đặc trưng [12], Vào năm 2000, Vishal Chitkara và cộng sự đã công bố tài liệu kỹ thuật về tìm kiếm ảnh theo nội dung sử dụng chữ ký nhị phân tại Đại học Alberta, Canada. Công trình đã đề xuất phương pháp tạo chữ ký nhị phân cho ảnh màu và đưa ra độ đo tương tự giữa các chữ ký nhị phân nhằm phục vụ cho bài toán tìm kiếm ảnh. Công trình đã đánh giá độ chính xác về thực nghiệm trên các tập dữ liệu ảnh lớn để minh chứng tính khả thi của phương pháp [13]. Essam A. El-Kwae và cộng sự đã đưa ra phương pháp tìm kiếm ảnh dựa trên chữ ký nhị phân và cấu trúc tập tin chữ ký đa cấp. Nhằm minh chứng tính hiệu quả của phương pháp, trong công trình này tác giả đã phân tích cơ sở lý thuyết đồng thời mô tả thực nghiệm tìm kiếm trên cơ sở dữ liệu ảnh lớn [14]. Václav Snášel đã ứng dụng chữ ký mờ và cấu trúc cây S-Tree cho bài toán tìm kiếm ảnh tương tự. Thực nghiệm đã so sánh với các phương pháp khác cho thấy tính hiệu quả của phương pháp đề xuất [15]. Essam A. El-Kwae đã ứng dụng chữ ký nhị phân và tập tin chỉ mục phân cấp nhằm tăng hiệu quả cho bài toán tìm kiếm ảnh [16]. Vào năm 2003, Yannis Manolopoulos đã mô tả chữ ký nhị phân của hình ảnh và thực hiện gom cụm hình ảnh dựa trên cây S-Tree. Thực nghiệm đã cho thấy tính hiệu quả khi áp dụng chữ ký nhị phân đối với dữ liệu hình ảnh [17]. Imran Ahmad và William I. Grosky sử dụng chữ ký nhị phân để làm chỉ mục hình ảnh và ứng dụng cho bài toán tìm kiếm ảnh [18]. Nascimento và Chitkara đã tiếp cận kỹ thuật tìm kiếm ảnh dựa trên chữ ký nhị phân. Thực nghiệm đã cho thấy tính hiệu quả khi tìm kiếm trên các tập dữ liệu ảnh lớn [19]. Năm 2010, Abdelhamid Abdesselam và cộng sự đã xây dựng hệ truy vấn ảnh theo nội dung dựa trên chuỗi bit nhị phân. Công trình này đã đề xuất độ đo tương tự dựa trên chuỗi bit. Thực nghiệm của công trình cũng đã đánh giá tính hiệu quả của hiệu suất tìm kiếm và thời gian tìm kiếm [20]. Năm 2013, Timothy Chappell và Shlomo Geva tiếp cận tìm kiếm ảnh tương tự dựa trên chữ ký nhị phân, công trình đã đưa ra tính hiệu quả và gia tăng tốc độ tìm kiếm hình ảnh khi ứng dụng độ đo Hamming để đánh giá độ tương tự giữa các chữ ký nhị phân [21]. Năm 2014, Guangxin Ren và cộng sự đã đề xuất phương pháp tìm kiếm ảnh tương tự dựa trên chuỗi nhị phân mô tả đặc trưng SIFT để tạo chỉ mục cho hình ảnh. Thực nghiệm đã chứng minh được tính hiệu quả của phương pháp trên các tập dữ liệu ảnh khác nhau [22]. Junjie Cai và cộng sự đã sử dụng chuỗi nhị phân để tạo chỉ mục cho đặc trưng thị giác của hình ảnh. Phương pháp này đã tăng tốc độ tìm kiếm ảnh tương tự [23]. Năm 2015, Li Liu và cộng sự đã sử dụng phương pháp chữ ký ảnh dựa trên chuỗi nhị phân và dùng độ đo EMD để đối sánh hình ảnh. Công trình này đã chứng minh tính hiệu quả ứng với chữ ký ảnh có kích thước thay đổi và thực nghiệm với nhiều dạng hình ảnh khác nhau [24]. Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 189 Vào các năm 2012, 2013, 2014, 2015, 2016 Wengang Zhou và cộng sự đã công bố công trình tìm kiếm ảnh tương tự dựa trên chữ ký nhị phân mô tả đặc trưng SIFT của hình ảnh. Trong thực nghiệm đã chứng minh tính hiệu quả trên các tập dữ liệu ảnh lớn [25], Từ các công trình đã công bố cho thấy hệ tra cứu ảnh tương tự có sự quan tâm rất nhiều của các nhóm tác giả trên toàn thế giới. Hơn nữa, việc áp dụng chữ ký nhị phân để thực hiện tìm kiếm ảnh tương tự theo nội dung là một hướng tiếp cận có cơ sở khoa học và có tính thực tiễn cao và có nhiều thách thức. Do đó, chúng tôi tiến hành xây dựng hệ tra cứu ảnh tương tự dựa trên chữ ký nhị phân mô tả các đặc trưng thị giác nhằm nâng cao hiệu suất tìm kiếm ảnh. 3. TRÍCH XUẤT ĐẶC TRƢNG THỊ GIÁC 3.1. Phƣơng pháp trích xuất dải màu Màu sắc là đặc trưng quan trọng khi thực hiện đối sánh hoặc trích xuất các đặc trưng khác của hình ảnh. Trong phần này, chúng tôi xây dựng dải màu để tạo chỉ mục nhị phân nhằm ứng dụng cho bài toán tìm kiếm ảnh tương tự theo nội dung. Christian Wengert và cộng sự đã tiếp cận tạo chữ ký ảnh và chữ ký nhị phân dựa trên màu sắc. Phương pháp này tạo ra một dải màu trên không gian màu * * *CIE-L a b và sử dụng gom cụm K-mean để tạo ra chữ ký màu sắc [26]. Ayaka Kojima đã tạo dải màu bằng cách gom cụm các thành phần màu *L , *a , *b và được xem như là một bước tiền xử lý nhằm rút ngắn thời gian tạo dải màu [27],... Nếu tạo dải màu bằng phương pháp K-mean thì phải chọn k-tâm ngẫu nhiên ban đầu. Tuy nhiên, nếu chọn k-tâm ngẫu nhiên thì sẽ hội tụ về các màu ngẫu nhiên, điều này dẫn đến dải màu được tạo ra có tính ngẫu nhiên và có thể không đạt được hiệu suất tìm kiếm. Do đó, chúng tôi đề xuất phương pháp tạo dải màu trong trường hợp này như sau: (1) Chọn hai tâm xa nhất trong không gian * * *CIE-L a b từ bộ sưu tập ảnh; (2) Chọn 2k tâm có khoảng cách trung bình đến các tâm hiện tại xa nhất; (3) Gom cụm các điểm màu bằng thuật toán K-mean. Trên cơ sở phương pháp đã đề xuất, chúng tôi thực hiện phương pháp gom cụm các điểm ảnh trong không gian * * *CIE-L a b theo khoảng cách Euclide từ tập 36.986 ảnh nhằm xây dựng các dải màu để làm tiền đề tạo chữ ký nhị phân. Thực nghiệm tạo các dải màu gồm: 32 màu, 64 màu, 128 màu và 256 màu. Thuật toán tạo dải màu cơ sở được đề xuất như sau: Thuật toán 1. Tạo dải màu cơ sở Đầu vào: Tập các hình ảnh , số tâm cụm k. Đầu ra: Dải màu CP. Function CreateColorPalette(, k) Begin ColorList = ; For (với mỗi ảnh I ) do Chuẩn hóa kích thước ảnh I ; Chia khối ảnh I thành b b khối; Tạo danh mục màu đặc trưng CL của các khối trên ảnh I; ColorList = ColorList CL; EndFor; Gom cụm tập màu ColorList ứng với k tâm theo phương pháp đề xuất; Cập nhật danh sách các tâm cụm tạo thành dải màu CP; Return CP; End. Kết quả của Thuật toán 1 là tạo ra một dải màu từ một bộ sưu tập hình ảnh . Kết quả thuật toán này là một dải màu CP trên không gian màu * * *CIE-L a b . Chúng tôi thực nghiệm Thuật toán 1 với lần lượt số cụm 32, 64, 128, 256k k k k . Trong Bảng 1 mô tả một kết quả thực nghiệm ( 32k màu) về gom cụm tập ảnh màu có 36,986 ảnh và tạo một dải 32 màu trên không gian màu * * *CIE-L a b . Mỗi màu tương ứng với một tâm cụm và được mô tả bằng ba giá trị gồm *L , *a , *b . Các giá trị này chuyển đổi sang không gian màu RGB trở thành các giá trị màu đỏ (R), màu xanh lá cây (G) và màu xanh dương (B). Các dải màu được lưu trữ dưới dạng một tập tin văn bản lưu trữ các giá trị trong không gian màu * * *CIE-L a b ăn Thế Thành, ạnh Thạnh 190 và RGB. Các dải màu được thể hiện dưới dạng màu sắc tại Hình 1 gồm 4 dải màu: 32 màu, 64 màu, 128 màu, 256 màu. Mỗi kết quả được mô tả bằng một bộ gồm: ảnh gốc, dải màu và ảnh đã được lượng tử hóa. ình 1: Kết quả lượng tử hoá trên các dải màu gồm 32 màu, 64 màu, 128 màu, 256 màu Bảng 1. Một kết quả gom cụm dải màu (có 32 màu) trên không gian * * *CIE-L a b và RGB STT L* a* b* R G B 1 72,19492 -4,69223 -20,3096 145 171 214 2 70,37985 -13,3894 31,12119 168 174 115 3 70,35474 -12,7615 53,74955 179 175 69 4 14,93575 -8,60442 10,64513 31 40 22 5 23,48051 0,198203 2,709504 58 53 52 6 31,37799 17,24048 -40,6783 55 54 138 7 56,88317 13,15939 34,72717 176 124 76 8 46,19568 -1,90574 1,539955 107 106 107 9 48,05418 2,197528 14,78766 127 109 89 10 54,37212 -16,7845 25,44363 117 135 85 11 43,21434 54,28091 34,4791 188 48 48 12 71,95325 -5,29114 8,874816 173 173 160 13 40,17137 -16,3006 29,93271 84 100 44 14 15,20833 1,940357 -8,09322 35 35 49 15 69,20362 -0,1795 -3,90542 165 162 176 16 97,8454 -0,169 -0,06138 248 239 249 17 79,46245 -17,0604 -4,28864 155 198 204 18 89,17648 -0,86974 3,916848 226 216 217 19 31,97869 -5,572 15,67204 76 75 50 20 27,67682 23,20025 20,42102 104 48 35 21 85,18985 -1,49638 -7,52549 203 204 227 22 30,46564 -10,9266 0,703536 52 74 70 Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 191 23 34,95284 0,841394 -0,93 83 78 84 24 44,49578 -1,27763 -16,6607 86 100 133 25 64,13496 2,723528 11,48975 169 148 135 26 79,81418 1,582995 2,250819 203 189 194 27 13,67965 9,23454 7,684098 50 28 25 28 81,41517 1,504243 22,13617 221 194 161 29 57,32503 -0,17733 -30,2882 100 129 190 30 48,27583 26,38335 3,846635 158 92 109 31 57,43957 -0,60949 -2,13779 135 132 142 32 3,540629 0,266378 0,211196 14 12 12 3.2. Phƣơng pháp trích xuất đặc trƣng SIFT Có nhiều phương pháp dò tìm đặc trưng thông dụng đã được giới thiệu [28], gồm phương pháp dò góc và cạnh được giới thiệu vào năm 1998 bởi Harris và M.Stephens, phương pháp dò tìm đặc trưng SIFT (Scale Invariant Features Transform) dựa trên phép lọc của mặt nạ tích chập giữa hình ảnh và đạo hàm riêng DoG (Difference of Gaussian) nhằm xấp xỉ toán tử Laplace của hàm Gauss được giới thiệu năm 2003 bởi D.Lowe, phương pháp dò tìm đặc trưng SURF (Speeded Up Robust Feature) được giới thiệu vào năm 2006 bởi Bay và cộng sự, phương pháp dò điểm đặc trưng Harris-Laplace dựa trên toán tử Laplace của hàm Gauss được giới thiệu năm 2001 bởi Mikolajczyk và C.Schmid, Phương pháp dò điểm đặc trưng Harris-Laplace có thể áp dụng cho ảnh màu và bất biến đối với sự biến đổi cường độ ảnh cũng như bất biến đối với các phép biến đổi tỉ lệ, phép quay, phép biến đổi affine. Vì vậy, chúng tôi thực hiện dò điểm đặc trưng dựa trên phương pháp Harris-Laplace và áp dụng cho ảnh màu. Chữ ký nhị phân được tạo ra từ vùng đặc trưng tương ứng với các điểm đặc trưng đã có. Thuật toán trích xuất đặc trưng SIFT được đề xuất như sau: Thuật toán 2. Trích xuất vùng đặc trưng Đầu vào: Ảnh I , ngưỡng , hệ số tỉ lệ , I D . Đầu ra: Tập các vùng đặc trưng 1 2{ , ,..., }N I I I I O o o o . Function InterestRegion( I , , , I D ) Begin Bước 1. Với mỗi điểm ảnh p I chuyển sang không gian màu YCbCr ; Bước 2. Thực hiện phép biến đổi Gauss; Bước 3. Tính cường độ đặc trưng 0 ( , )I x y cho ảnh ... nhị phân của hình ảnh được định nghĩa như sau: 1 2 1 2 ( ) ... ...O O O O O C C C I I N M Sig I Sig Sig b b b b b b (1) Công thức (1) mô tả chỉ mục nhị phân của hình ảnh gồm hai phần: phần thứ nhất là một dãy -bitN mô tả chỉ mục nhị phân của đối tượng, phần thứ hai là một dãy -bitM mô tả chỉ mục nhị phân của màu sắc. Dựa trên cấu trúc chữ ký nhị phân này, độ đo tương tự giữa hai hình ảnh là sự kết hợp giữa độ đo tương tự của màu sắc và độ đo tương tự của đối tượng đặc trưng. 4.2. Độ đo tƣơng tự giữa hai hình ảnh 4.2.1. Độ đo tươn t d a tr n khoản á h amm n Gọi Isig và Jsig lần lượt là hai chữ ký nhị phân của hai hình ảnh I và J . Độ trùng khớp i d được đối sánh trên mỗi phần tử của hai chữ ký và được định nghĩa như sau: 1 ( ) 0 ( ) I J i i i I J i i if sig sig d if sig sig (2) Độ đo tương tự của hai chỉ mục nhị phân được định nghĩa là: 1 1 n i i d n (3) Dễ dàng chứng minh thõa các tính chất của một metric, gồm: (1) Không âm: ( , ) 0I Jsig sig , Nếu ( , ) 0I J I Jsig sig sig sig (2) Đối xứng: ( , ) ( , ) I J J I sig sig sig sig (3) Bất đẳng thức tam giác: ( , ) ( , ) ( , ) I J J K I K sig sig sig sig sig sig 4.2.2. Độ đo tươn t d a tr n khoản á h E D Độ đo EMD dùng để tìm lời giải tối ưu trong bài toán vận tải. Giả sử có tập nhà cung cấp 1 2 { , ,..., } m P w w w và tập các nơi tiêu thụ 1 2 { , ,..., } n Q u u u . Gọi { }ijF f là tập các luồng mô tả chi phí di chuyển từ nhà cung cấp thứ i đến nhà tiêu thụ thứ j . Gọi ( )ijD d là ma trận khoảng cách giữa thành phần i w và ju với các ràng buộc như sau: 1 1 1 1 1 1 0 1 , 1 1 1 min( , ) ij n ij i j m ij j i m n m n ij i j i j i j f i m j n f w i m f u j n f w u (4) Để tính độ tương tự giữa ảnh J và ảnh I , ta cần cực tiểu hóa chi phí chuyển đổi phân bố màu sắc Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 195 1 1 n n ij ij i j d f , với ijF f là ma trận phân phối luồng màu sắc từ màu i I c đến màu j J c và ijD d là ma trận khoảng cách Euclide trong không gian màu RGB từ màu i I c đến màu j J c . Khi đó, độ tương tự giữa hai hình ảnh I và J dựa trên độ đo EMD là: 1 1 1 1 ( , ) n n ij ij i j n n ij i j d f EMD I J f (5) với 1 1 1 1 min( , ) n n n n i j ij I J i j i j f w w 5. THỰC HIỆN TÌM KIẾM ẢNH TƢƠNG TỰ THEO NỘI DUNG 5.1. Mô hình thực nghiệm Sau khi trích xuất đặc trưng thị giác của hình ảnh như đã trình bày ở Phần 3, chúng tôi tạo chỉ mục nhị phân mô tả màu sắc và mô tả đối tượng để từ đó tạo thành chữ ký nhị phân cho hình ảnh. Từ đó, chúng tôi đánh giá độ tương tự giữa hai hình ảnh qua chữ ký nhị phân. Độ đo tương tự này đã được đề xuất tại phần 4 trên cơ sở độ đo Hamming và độ đo EMD. Trên cơ sở này, hệ truy vấn ảnh được xây dựng và mô tả như Hình 4. ình 4. Mô hình được đề xuất cho bài toán truy vấn ảnh Theo như Hình 4 cho thấy, quá trình tìm kiếm hình ảnh được chia làm hai giai đoạn gồm: Giai đoạn tiền xử lý gồm các bước: (1) Phân đoạn hình ảnh ứng; (2) Tạo chỉ mục nhị phân để tạo thành tập chữ ký ảnh. Giai đoạn truy vấn ảnh thực hiện: (1) Phân đoạn ảnh truy vấn; (2) Tạo chữ ký nhị phân cho ảnh truy vấn; (3) Thực hiện truy vấn ảnh để tìm các hình ảnh tương tự. Giai đoạn tiền xử lý được thực nghiệm trên máy tính có bộ xử lý Intel(R) Xeon(R) X3440 @ 2,53 GHz x 2, hệ điều hành Windows Server 2008 R2 Enterprise 64-bit, RAM 8.00GB. Giai đoạn tìm kiếm ảnh được thực thi trên máy tính có bộ xử lý Intel(R) CoreTM i7-2620M, CPU 2,70GHz, RAM 4GB và hệ điều hành Windows 7 Professional. Tất cả các ứng dụng thực nghiệm được xây dựng trên nền tảng dotNET Framework 3.5, ngôn ngữ lập trình C#. 5.2. Kết quả thực nghiệm Trên cơ sở mô hình đã đề xuất, chúng tôi xây dựng 6 hệ truy vấn ảnh và thực nghiệm trên tập dữ liệu ảnh COREL. Dựa trên vùng đặc trưng và màu sắc đã được trích xuất (như Phần 3) kết hợp với việc tạo chữ ký nhị phân và độ đo tương tự, chúng tôi thực hiện tạo chữ ký nhị phân cho tập dữ liệu ảnh COREL và sau đó quá trình tìm kiếm ảnh được thực hiện. Trên cơ sở này, chúng tôi xây dựng 6 ứng dụng được phân loại theo chuẩn màu, vùng đặc trưng và độ đo. Bốn hệ truy vấn đầu tiên trong Bảng 2 được thực nghiệm trên cùng một chuẩn màu MPEG7 nhưng khác nhau về độ đo và bốn hệ truy vấn ảnh sau cùng trong Bảng 2 thực hiện trên cùng một độ đo EMD nhưng khác chuẩn màu. Kết quả của thực nghiệm được đánh giá qua các tiêu chí gồm: độ chính xác (precision), độ phủ (recall), độ đo F-measure và thời gian tìm kiếm. Kết quả về độ chính xác và độ phủ được đánh giá trên từng chủ đề ảnh từ Hình 6 đến Hình 12. Thời gian tìm kiếm của 6 phương pháp được so sánh tại Hình 13; các tiêu chí khác được mô tả như sau: ăn Thế Thành, ạnh Thạnh 196 Độ phủ = (số ảnh truy vấn liên quan)/(Tổng số ảnh liên quan trong tập dữ liệu ảnh) Độ chính xác = (số ảnh truy vấn liên quan)/(Ngưỡng xác định số ảnh truy vấn) F-measure = 2 (Độ phủ x Độ chính xác)/(Độ phủ + Độ chính xác) Bảng 2. Mô tả các hệ truy vấn ảnh Số TT Tên hệ truy vấn ảnh Chuẩn màu Độ đo Vùng đặc trưng 1 H-MPEG7 MPEG7 Hamming Toàn cục 2 HR-MPEG7 MPEG7 Hamming Vùng cục bộ 3 E-MPEG7 MPEG7 EMD Toàn cục 4 ER-MPEG7 MPEG7 EMD Vùng cục bộ 5 EP-64 64 màu EMD Toàn cục 6 EP-256 256 màu EMD Toàn cục ình 5. Một kết quả tìm kếm ảnh dựa trên vùng đặc trưng, dải màu MPEG7 và độ đo Hamming ình 6. Đánh giá hiệu suất của hệ H-MPEG7 trên tập ảnh COREL Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 197 ình 7. Đánh giá hiệu suất của hệ HR-MPEG7 trên tập ảnh COREL ình 8. Đánh giá hiệu suất của hệ E-MPEG7 trên tập ảnh COREL ình 9. Đánh giá hiệu suất của hệ ER-MPEG7 trên tập ảnh COREL ình 10. Đánh giá hiệu suất của hệ EP-64 trên tập ảnh COREL ăn Thế Thành, ạnh Thạnh 198 ình 11. Đánh giá hiệu suất của hệ EP-256 trên tập ảnh COREL ình 12. So sánh độ chính xác của các phương pháp đề xuất trên tập ảnh COREL ình 13. So sánh thời gian truy vấn của các phương pháp đề xuất trên tập ảnh COREL Các kết quả thực nghiệm của 6 ứng dụng được tổng hợp tại Bảng 3 để từ đó minh chứng tính hiệu quả về thời gian và độ chính xác. Bảng 4 so sánh về thời gian tìm kiếm và độ chính xác trên cùng bộ dữ liệu COREL giữa phương pháp đề xuất với các kết quả của nhiều nhóm nghiên cứu gần đây. Từ đó cho thấy phương pháp của chúng tôi là một phương pháp tìm kiếm ảnh hiệu quả. Bảng 3. Đánh giá hiệu suất giữa các phương pháp trên tập dữ liệu ảnh COREL Phương pháp Độ chính xác TB Độ phủ TB F-measure TB T/g truy vấn TB (msec) H-MPEG7 0,727945007 0,728254451 0,728099696 4,470049638 HR-MPEG7 0,73675841 0,737549361 0,737153673 4,86606208 E-MPEG7 0,717266436 0,717538139 0,717402262 3,805543253 ER-MPEG7 0,739472843 0,739783073 0,739627926 4,535472364 EP-64 0,687480469 0,687487535 0,687484002 8,257046875 EP-256 0,843602941 0,843331798 0,843467348 26,81254688 Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 199 Bảng 4. So sánh hiệu suất truy vấn giữa các phương pháp trên tập dữ liệu ảnh COREL Phương pháp Độ chính xác Độ phủ F-measure T/g truy vấn KD-Tree 0,876031667 N/A N/A 93; 63; 46 (msec) S-Tree 0,42 0,55 0,476289 186,25 I/Os QBIC N/A N/A N/A 2-40 sec Fuzzy Signatures N/A N/A N/A 20-50 I/Os Color histogram 0,29125 0,06400 0,104940 4,43750 sec Bit-planes 0,52938 0,12125 0,197308 4,18516 sec Interest point 0,65688 0,70500 0,68009 4,70938 sec Fuzzy histogram 0,50688 0,61625 0,55624 4,41863 sec Interest region 0,85200 0,78375 0,81645 4,78516 sec EP-64 0,687480469 0,687487535 0,687484002 8,257 msec EP-256 0,843602941 0,843331798 0,843467348 26,813 msec 6. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong nghiên cứu này, chứng tôi đã xây dựng hệ tra cứu ảnh dựa trên chỉ mục nhị phân mô tả đặc trưng thị giác của hình ảnh. Để thực hiện vấn đề này, chúng tôi đã đề xuất cơ sở lý thuyết và thực nghiệm trên bộ dữ liệu mẫu thông dụng COREL. Theo kết quả thực nghiệm cho thấy, phương pháp EP-256 của chúng tôi đề xuất có độ chính xác trung bình trên 84% và thời gian tìm kiếm ảnh trung bình là 26,8 milli giây. Tất cả 6 phương pháp của chúng tôi đề xuất cũng đã được đánh giá trên bộ dữ liệu mẫu COREL và so sánh kết quả này với các phương pháp khác trên cùng một bộ dữ liệu mẫu. Từ đó cho thấy phương pháp tra cứu ảnh dựa trên chữ ký nhị phân là một phương pháp hiệu quả và có thể áp dụng để xây dựng một công cụ tìm kiếm trong các hệ thống đa phương tiện kết hợp với các hệ thống xử lý song song và phân tán. Hướng phát triển tiếp theo của chúng tôi sẽ xây dựng một hệ truy vấn ảnh theo ngữ nghĩa thông qua ngôn ngữ tự nhiên để định danh hình ảnh nhằm xác định thông tin của đối tượng trên ảnh, mô tả ngữ nghĩa hình ảnh một cách tự động. TÀI LIỆU THAM KHẢO 1. C. Chute - Worldwide Digital Image 2015–2019 Forecast: The Image Capture and Share Bible, International Data Corporation. (2015) p.13. 2. IDC. https://www.idc.com (2016). 3. L. Deligiannidis, H.R. Arabnia - Emerging Trends in Image Processing, Computer Vision, and Pattern Recognition, Morgan Kaufmann (2015) pp.609. 4. ACI. (2015). 5. Priya, Shanmugam - A comprehensive review of significant researches on content based indexing and retrieval of visual information. Front. Comp. Sci., 7(5) (2013) pp.782-799. 6. Alzu’bi, A. Amira, N. Ramzan - Semantic content-based image retrieval: A comprehensive study Jour.l of Visual Comm. and Image Representation, 32 (2015) pp.20-54. 7. X.-Y. Wang, J.-F. Wu, H.-Y. Yang - Robust Image Retrieval Based on Color Histogram of Local Feature Regions, Springer Science, Multimed Tools Appl, 49 (2010) pp.323-345. 8. Bartolini, P. Ciaccia, M. Patella - Query processing issues in region-based image databases, Springer-Verlag, Knowl Inf Syst, 25 (2010) pp.389-420. ăn Thế Thành, ạnh Thạnh 200 9. G.Rafiee et al., - Region-of-interest extraction in low depth of field images using ensemble clustering and difference of Gaussian approaches, Patt. Rec,, 46 (2013) pp.2685-2699. 10. X.-Y. Wang, H.-Y. Yang, Y.-W. Li, F.-Y. Yang - Robust color image retrieval using visual interest point feature of significant bit-planes, Digital Signal Processing, 23(4), (2013) pp.1136-1153. 11. Z. Tang, X. Zhang, X. Dai, J. Yang, T. Wu - Robust Image Hash Function Using Local Color Features, Inter. Journal of Electronics and Communications, 67 (2013) pp.717-722. 12. C. Huang, Y. Han, Y. Zhang - A Method for Object-based Color Image Retrieval, Inter. Conference on Fuzzy Systems and Knowledge Discovery, IEEE, (2012) pp.1659-1663. 13. V. Chitkara, M. A. Nascimento, C. Mastaller - Content-Based Image Retrieval Using Binary Signatures, University of Alberta, Canada, (2000), 18 pages. 14. E. A. El-Kwae, Signature-Based Indexing for Retrieval by Spatial Content in Large 2D-String Image Databases, 12th Inter Symp, Springer, LNCS, Charlotte, (2000) pp.97-108. 15. V. Snášel - Fuzzy Signatures for Multimedia Databases, Advances in Information Systems, ADVIS 2000, Springer Berlin Heidelberg, 1909, Izmir, Turkey (2000) pp.257-264. 16. E. A. El-Kwae, M. R. Kabuka - Efficient Content-Based Indexing of Large Image Databases, ACM Trans. on Infor. Systems, 18(2) (2000) pp.171-210. 17. Y. Manolopoulos, A. Nanopoulos, E. Tousidou - Advanced Signature Indexing for Multimedia and Web Applications, Kluwer Academic Publishers, (2003) 197 pages. 18. Ahmad, W. I. Grosky - Indexing and retrieval of images by spatial constraints, J. Vis. Commun. Image R., 14 (2003) pp.291-320. 19. M. A. Nascimento, V. Chitkara - Color-Based Image Retrieval Using Binary Signatures, SAC 2002, ACM, Madrid, Spain (2002) pp.687-692. 20. Abdesselam, H. H. Wang, N. Kulathuramaiyer - Spiral Bit-string Representation of Color for Image Retrieval, The Inter. Arab Jour. of Infor. Tech., 7(3) (2010) pp.223-230. 21. T. Chappell, S. Geva - Efficient Top-K Retrieval with Signatures, ADCS ’13, ACM, Brisbane, QLD, Australia (2013) 10-17. 22. G. Ren, J. Cai, S. Li, N. Yu, Q. Tian - Scalable Image Search with Reliable Binary Code, Proc. of the 22nd ACM Inter. Conf. on Mult., ACM, Orlando, Florida (2014) 769-772. 23. J. Cai, Q. Liu, F. Chen, D. Joshi, Q. Tian - Scalable Image Search with Multiple Index Tables, Proceedings of Inter. Conf. on Multimedia Retrieval, ACM, (2014) 4-7. 24. L. Liu, Y. Lu, C. Y. Suen - Variable-Length Signature for Near-Duplicate Image Matching, IEEE Transactions on Image Processing, 24(4) (2015) 1282-1296. 25. W. Zhou, H. Li, Y. Lu - Visual word expansion and BSIFT verification for large-scale image search, Multimedia Systems, 21(3) (2015) 245-254. 26. C. Wengert, M. Douze, H. Jégou - Bag-of-colors for Improved Image Search, Proceedings of the 19th ACM inter. Conf. on Mult., ACM, Scottsdale, Arizona (2011) 1437-1440. 27. Kojima, T. Ozeki - Color Palette Generation for Image Classification by Bag-of-Colors, 21st Joint Workshop on Front. of Comp. Vision, IEEE, Mokpo (2015) 1-5. 28. P. Muneesawang, N. Zhang, L. Guan - Multimedia Database Retrieval: Technology and Applications, Springer New York Dordrecht London (2014) 356 pages. 29. V. Mezaris, I. Kompatsiaris, M. G. Strintzis - Still Image Segmentation Tools for Object-based Multimedia Applications, Int. Jour. of Pattern Recog. & AI, 18(4) (2004) 701-725. 30. Thanh The Van, Thanh Manh Le - Content-Based Image Retrieval Using A Signature Graph and A Self-Organizing Map, Int. Jour. of AMCS, 26(2), (2016) 423-438. Tra cứu ảnh theo nội dung d a tr n hỉ mụ m tả đặ trưn thị á 201 ABSTRACT CONTENT-BASED IMAGE RETRIEVAL USING INDEXES OF VISUAL FEATURES Van The Thanh 1,* , Le Manh Thanh 2 1 Faculty of Information Technology, HCMC University of Food Industry, Vietnam 2 Faculty of Information Technology, College of Science, Hue University * Email: thanhvt@cntp.edu.vn In this paper, we propose a serveral methods of extracting the visual features of the image and performing image retrieval by content based on binary index, which is called the binary signature of image. There are three features of image to develop the image retrieval method including the color palette of image set, the SIFT features and the interest objects. In order to develop the image retrieval method, we propose algorithms including the algorithm of extracting color palette by improving the K-means algorithm, the algorithm of extraction SIFT features based on the Harris-Laplace method, the object extraction algorithm is based on CIE-L*a*b* color space and DWT (Discrete Wavelet Frames). On the base of extracted features, we build binary signature and similarity measure to form the similar image retrieval method. From that, the content-based image retrieval system is built. To illustrate the proposed theoretical, we give six different applications for evaluating the accuracy and speed of image retrieval on COREL data set. The experimental results are compared with the other methods to evaluate the effectiveness of the proposed methods. Keywords: visual feature, binary signature, similarity measure, image retrieval, similar image.
File đính kèm:
- tra_cuu_anh_theo_noi_dung_dua_tren_chi_muc_mo_ta_dac_trung_t.pdf