Xử lý dữ liệu thiếu trong khai phá dữ liệu

TÓM TẮT

Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên

cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong

nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu

đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng.

Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự

mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra:

- Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu.

- Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu.

- Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu.

Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri

thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của

dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là

thảo luận về kết quả, so sánh và đƣa ra kết luận.

pdf 6 trang yennguyen 360
Bạn đang xem tài liệu "Xử lý dữ liệu thiếu trong khai phá dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xử lý dữ liệu thiếu trong khai phá dữ liệu

Xử lý dữ liệu thiếu trong khai phá dữ liệu
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55  
XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU 
Phùng Thị Thu Hiền1*, Phùng Trung Nghĩa2 ,Đoàn Xuân Ngọc3 
1Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên 
 2Japan Advanced Institute of Science and Technology, 3Cục Thuế tỉnh Thái Nguyên 
TÓM TẮT 
Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên 
cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong 
nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu 
đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng. 
Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự 
mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra: 
- Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu. 
- Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu. 
- Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu. 
Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri 
thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của 
dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là 
thảo luận về kết quả, so sánh và đƣa ra kết luận. 
Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data). 
 ĐẶT VẤN ĐỀ 
Sự gia tăng của kích thƣớc dữ liệu và số 
lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả 
năng của con ngƣời để phân tích dữ liệu, do 
vậy vấn đề quan trọng là cần rút ra tri thức từ 
các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa 
lƣợng thông tin lớn về bệnh nhân và điều kiện 
Y tế của họ. Những mối quan hệ và những mô 
hình bên trong dữ liệu này đã có thể cung cấp 
tri thức y học mới. Phân tích dữ liệu y tế 
thƣờng liên quan đến cách xử lý của tri thức 
không đầy đủ, với việc quản lý các phần 
thông tin trái ngƣợc nhau và với các mức độ 
khác nhau của dữ liệu. Các kỹ thuật để phân 
tích dữ liệu chính hiện nay dựa trên các giả 
định khá mạnh (một vài tri thức về sự phụ 
thuộc, xác suất phân loại, các cuộc thử 
nghiệm), không thể thu đƣợc các kết luận từ 
tri thức không đầy đủ, hoặc không thể quản lý 
các mẩu thông tin trái ngƣợc nhau. Hầu hết 
các kỹ thuật thông minh sử dụng trong các 
phép phân tích dữ liệu y tế là sử dụng mạng 
neura, phân lớp Bayessian, các thuật toán di 
truyền, cây quyết định, lý thuyết mờ. Nghiên 
 Tel: 0986 060545, Email: pthientng@gmail.com 
cứu về khai phá dữ liệu giúp phân tích dữ liệu 
và khám phá tri thức mới. Mục tiêu là tạo ra 
một mô hình đơn giản. Các kiến thức khám 
phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế 
trong y học, thiên văn học, thị trƣờng chứng 
khoán và nhiều lĩnh vực khác. Các dữ liệu thu 
đƣợc cho thấy thực tế không kiểm soát đƣợc 
mọi thứ, do sự chồng lấp và nhiều phần giống 
nhau cùng tồn tại. Các mô hình có độ bất 
định: Nếu A thì B với độ bất định C. Có nhiều 
phƣơng pháp để thu đƣợc các mô hình nhƣ đã 
đề xuất, bao gồm Gaines và Shaw trong [2], 
Quinlan trong [3], Clark và Niblet trong [4], 
Pawlak trong [6]. 
Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý 
giá trị thiếu, phân tích, so sánh ƣu nhƣợc 
điểm của các phƣơng pháp. 
PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU 
GIÁ TRỊ 
Một vấn đề phổ biến, thách thức trong khai 
phá dữ liệu và nghiên cứu khám phá tri thức 
là độ nhiễu của dữ liệu [5]. Trong một cơ sở 
dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có 
thể không chính xác hoặc có lỗi. Điều này có 
thể do lỗi dụng cụ đo không chuẩn hoặc do 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 56  
con ngƣời khi nhập dữ liệu. Có hai dạng cơ 
bản đƣợc mô tả dƣới đây: 
Các giá trị không chính xác 
Đôi khi một vài giá trị trong quá trình huấn 
luyện bị thay đổi. Điều này có thể do một 
hoặc nhiều bộ dữ liệu mâu thuẫn với các luật 
đã đƣợc thiết lập. Hệ thống này có thể liên 
quan đến các giá trị nhiễu và bỏ qua chúng. 
Vấn đề là không bao giờ biết đƣợc các giá trị 
nhiễu là chính xác hay không và thách thức là 
làm thế nào để xử lý các giá trị không bình 
thƣờng một cách tốt nhất. 
Các giá trị bị thiếu 
Một hoặc nhiều giá trị có thể bị thiếu trong 
quá trình huấn luyện và phân lớp. Dữ liệu 
thiếu có thể xảy ra do không thể lƣu lại khi 
mà dữ liệu đã đƣợc tập hợp, hoặc bị bỏ qua 
do ngƣời sử dụng. Nếu các thuộc tính bị thiếu 
trong quá trình huấn luyện, hệ thống cũng có 
thể bỏ qua đối tƣợng hoàn toàn, cố gắng đƣa 
nó vào quá trình tính toán, ví dụ tìm những 
thuộc tính thiếu nhiều nhất, hoặc sử dụng giá 
trị thiếu “missing”, chƣa biết “unknown”, 
hoặc “null” nhƣ là một giá trị riêng cho thuộc 
tính này. Giải pháp đơn giản nhất là loại bỏ đi 
các giá trị dữ liệu bị thiếu. Một giải pháp khó 
hơn là cố gắng xác định các giá trị thiếu này. 
CÁC PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU 
- Bỏ qua bộ dữ liệu: cách này thƣờng đƣợc 
thực hiện khi thiếu nhãn lớp hoặc bộ dữ liệu 
chứa nhiều thuộc tính có các giá trị thiếu. 
- Sử dụng một hằng số chung: Thay thế tất cả 
các giá trị thiếu bởi một hằng nhƣ là 
“missing”, “unknown”, “_”, “?” 
- Sử dụng thuộc tính trung bình: Sử dụng 
thuộc tính trung bình cho tất cả các mẫu trong 
lớp giống nhau: ví dụ, nếu phân loại khách 
hàng theo credit_risk (bảo hiểm tín dụng), 
thay thế các giá trị thiếu bằng giá trị trung 
bình của các khách hàng trong cùng một loại 
credit risk. 
- Sử dụng các giá trị có tần xuất xuất hiện 
nhiều nhất: kỹ thuật này thích hợp khi các giá 
trị thiếu ít. Khó khăn xuất hiện nếu bộ dữ liệu 
chứa nhiều hơn một giá trị thuộc tính thiếu. 
CÁC THUẬT TOÁN XỬ LÝ 
Trƣớc tiên ta cần loại bỏ nhiễu ở dữ liệu gốc, 
loại bỏ tất cả các bộ dữ liệu có cùng các thuộc 
tính điều kiện và khác nhau về thuộc tính 
phân lớp. Điều này giúp nâng cao hiệu quả, 
giúp loại bỏ tất cả các trƣờng hợp nghi ngờ. 
Tiến hành thiết kế các cuộc thử nghiệm để 
kiểm tra lại mô hình nào tốt nhất để thay thế 
các giá trị thiếu, tạo ra phạm vi hoạt động cao 
nhất của bộ dữ liệu. Coverage mô tả tỷ lệ 
phân lớp đối tƣợng. Sử dụng nhiều luật phân 
lớp sẽ tốn thời gian, cho nên cần giảm số 
lƣợng luật phân lớp. Một số thử nghiệm của 
hệ thống sử dụng hệ thống RSES – Rough Set 
Exploration System. HSV và tập dữ liệu heart 
disease đƣợc lấy từ kho dữ liệu UCI. Cả hai 
tập dữ liệu không chứa dữ liệu thiếu. Tập dữ 
liệu HSV chứa 122 bộ dữ liệu trong khi tập 
dữ liệu heart disease có 270 bộ dữ liệu. Để tạo 
dữ liệu thiếu, ta xóa một vài giá trị từ tập dữ 
liệu gốc. Tập dữ liệu HSV mới có 63 bộ dữ 
liệu với các giá trị thiếu biến đổi từ 1 tới 9 giá 
trị thiếu. Tập dữ liệu heart disease mới chứa 
81 bộ dữ liệu thiếu với các giá trị biến đổi 
giữa 1 và 2 giá trị thiếu. Bốn tập dữ liệu khác 
đƣợc ra từ mỗi tập dữ liệu gốc. Mỗi tập dữ 
liệu đƣợc mô tả nhƣ sau: 
DS1: Thay thế các giá trị thiếu bằng hằng 
“Missing” . Quá trình thay thế đƣợc thực hiện 
qua mô hình 1 đƣợc mô tả bằng thuật toán 1. 
Hằng chung “missing” miêu tả các giá trị 
chƣa biết trong tập dữ liệu. 
Thuật toán 1 
Dự đoán các giá trị thiếu 
Thừa nhận bảng quyết định T = (U,C,D,V). 
Với mỗi thuộc tính chứa dữ liệu thiếu thực 
hiện thay thế dữ liệu thiếu bằng giá trị 
“Missing” 
Kết thúc. 
T là tập dữ liệu không có các giá trị thiếu 
Độ phức tạp của thuật toán là O(n) nên đây là 
thuật toán đơn giản. 
DS2: Thay thế các giá trị thiếu bằng các giá 
trị trung bình trong tập dữ liệu. Quá trình thay 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 57  
thế đƣợc thực hiện qua mô hình 2,3 với thuật 
toán 2, 3 
Thuật toán 2 
Dự đoán các giá trị thiếu 
Thừa nhận bảng quyết định T=(U,C,D,V) 
Với mỗi thuộc tính có chứa dữ liệu thiếu thực 
hiện 
Tìm giá trị trung bình X 
Thay thế dữ liệu thiếu bằng giá trị trung bình 
Kết thúc 
T là tập dữ liệu không chứa giá trị thiếu 
Độ phức tạp của thuật toán là O(n) nên nó 
cũng là thuật toán đơn giản. 
Thuật toán 3 
Dự đoán các giá trị thiếu 
Chấp nhận bảng quyết định T=(U,C,D,V). 
Chia bảng quyết định theo chiều ngang thành 
các tập con: T1=(U1,C,D1,V), 
T2=(U2,C,D2,V), , Tn=(Un,C,Dn,V) với 
U=(U1,U2,,Un) và D=(D1,D2, , và Dn). 
Với mỗi tập con thực hiện 
Với mỗi thuộc tính có chứa dữ liệu thiếu 
Thực hiện 
Tìm giá trị trung bình X 
Thay thế giá trị thiếu bằng giá trị trung bình 
Kết thúc 1 
Kết thúc 2 
T1, T2, , Tn là tập con không chứa giá trị 
thiếu. 
Độ phức tạp của thuật toán là O(n2) nên nó 
tốn thời gian hơn để hoàn thành. 
Hình 1. Mô hình 3 
Hình 2. Mô hình dự đoán giá trị thiếu và kiểm tra 
bằng việc sử dụng các nhân tố khác. DS là viết tắt 
của Data Set và M viết tắt của Model 
Bảng 1. Số lƣợng luật, số lƣợng reducts, và độ che 
phủ của tập dữ liệu HSV, N mô tả số lƣợng mẫu 
ban đầu. 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 58  
Tên tập 
dữ liệu 
Tỷ lệ 
bao phủ 
(%) 
Số 
lượng 
luật 
Số 
lượng 
reducts 
HSV1 73 1070 78 
HSV2 93.4 1400 57 
HSV3 95.1 1332 41 
HSV4 93.7 707 39 
Bảng 2. Số lƣợng luật, số lƣợng reduct và độ che 
phủ của tập dữ liệu Heart Disease, N miêu tả số 
lƣợng mẫu ban đầu 
Tên tập dữ 
liệu 
Tỷ lệ 
bao phủ 
(%) 
Số 
lượng 
luật 
Số 
lượng 
reducts 
Heart_Disease1 93 4803 109 
Heart_Disease2 97 5189 89 
Heart_Disease3 96.7 5009 91 
Heart_Disease4 98.4 3173 86 
DS4:Mô tả tập dữ liệu mà bỏ đi tất cả các 
mẫu chứa các giá trị thiếu. Quá trình loại bỏ 
đƣợc thực hiện qua mô hình 4 với thuật toán 4 
Thuật toán 4 
Dự đoán các giá trị thiếu 
Thừa nhận bảng quyết định T=(U,C,D,V) 
Lặp : Với mỗi bộ dữ liệu thiếu xóa bộ dữ liệu 
đó 
Kết thúc. 
T là tập dữ liệu không có giá trị thiếu. 
Độ phức tạp của thuật toán là O(n) nên nó là 
thuật toán đơn giản. 
Sau khi thay thế, kiểm tra lại độ mâu thuẫn một 
lần nữa. Các giá trị mới thay thế có thể là 
nguyên nhân gây mâu thuẫn do nó không phải 
là một quá trình hoàn chỉnh. Bỏ qua tất cả các 
bộ dữ liệu có thuộc tính dự đoán giống nhau và 
các thuộc tính dự đoán khác nhau. Điều này có 
thể làm giảm quá trình huấn luyện mẫu dữ liệu 
nhƣng độ chính xác kết quả huấn luyện sẽ tăng 
lên. Sự thật là quá trình huấn luyện tập dữ liệu 
đã giảm thiểu sai sót sẽ cho kết quả tốt hơn 
trƣờng hợp tập dữ liệu có nhiều sai sót. Điều 
này đƣợc mô tả trong hình 2, nó mô tả tất cả các 
bƣớc dự đoán, bỏ đi giá trị lỗi. Việc kiểm tra mô 
hình thực hiện bằng 3 nhân tố trong hình 2. 
ĐÁNH GIÁ 
Bàng 1 và 2 tóm tắt lại số lƣợng các luật, sự 
thay đổi và tỷ lệ che phủ. Đƣợc tạo ra từ một 
trong bốn mô hình đã đƣợc thiết kế trƣớc đó. 
So sánh đầu tiên là thực hiện theo thứ tự để 
xác định mô hình nào là tốt nhất, cho độ che 
phủ cao nhất. Với tập dữ liệu HSV, tỷ lệ che 
phủ là cao nhƣ trong mô hình 3, 95.1%. mô 
hình 4 đƣa ra kết quả tiếp theo, 93.7 %. Ở vị 
trí thứ 3, mô hình 2 cho tỷ lệ che phủ là 
93.4%. Mô hình kém nhất là mô hình 1, cho 
tỷ lệ che phủ là 73%. 
Khi sử dụng tập dữ liệu heat disease, tỷ lệ che 
phủ của mô hình 1, 2, 3 ,4 là 93, 97, 96.7, 
98.4%. Tỷ lệ che phủ tốt nhất là tại mô hình 
4, mô hình bỏ đi tất cả các bộ dữ liệu thiếu. 
Mô hình tồi nhất là mô hình sử dụng hằng 
toàn cục “missing”. Mô hình 3 đứng thứ 3, 
mô hình 2 đứng vị trí thứ 2. Kết luận cuối 
cùng là mô hình 1 có độ che phủ kém nhất 
trong cả hai tập dữ liệu: HSV và heat disease. 
Các mô hình khác cho kết quả không ổn định 
và các kết quả là gần giống nhau. Điều này có 
thể kết luận rằng không có mô hình nào là tốt 
nhất để giải quyết vấn đề các giá trị thiếu đối 
với mọi tập dữ liệu. Việc chọn lựa một mô 
hình thích hợp cho tập dữ liệu phụ thuộc vào 
tập dữ liệu mà chúng ta muốn nghiên cứu. 
Với tập dữ liệu HSV nên dùng mô hình thứ 3 
để phân lớp. Với tập dữ liệu heart disease nên 
dùng mô hình thứ 4. 
Trong hai thí nghiệm và 4 mô hình, mô hình 4 
cho số lƣợng luật phân loại nhỏ nhất (707). 
Tức là mô hình này là tốt nhất trong 4 mô 
hình. Mô hình tốt thứ 2 là mô hình 1, tạo ra 
1070 luật. Mô hình 3 đứng thứ 3 với 1332 
luật. Cuối cùng là mô hình 2 với 1400 luật. 
So sánh thứ 3 tập trung vào số lƣợng reduct 
mà mỗi mô hình tạo ra. Có hai điểm khác 
nhau. Thứ nhất, một lƣợng lớn reduct đƣợc 
tạo ra là đƣợc ƣa thích nhất bởi vì một 
lƣợng lớn reduct sẽ cho một miền reduct 
rộng để sử dụng. Sự khác nhau của các 
reducts giúp ngƣời sử dụng chọn lựa reduct 
tốt nhất. Nếu đây là trƣờng hợp, mô hình 1 
là mô hình tốt nhất trong cả hai lần thí 
nghiệm và nó tạo ra 78 reduct từ tập dữ liệu 
HSV và 109 từ tập dữ liệu heat disease. Mô 
hình 3 là sự lựa chọn tốt thứ 2 cho tập dữ 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 59  
liệu heat disease và tạo ra 91 reduct. Mô 
hình 2 là sự lựa chọn tốt thứ 2 cho tập dữ 
liệu HSV và tạo ra 57 reduct. Vị trí thứ 3 
trong tập dữ liệu heat disease là sử dụng mô 
hình thứ 2, tạo ra 89 reducts. Vị trí thứ 3 
với tập HSV là mô hình 3, tạo ra 41 reduct. 
Lựa chọn cuối cùng của cả hai tập dữ liệu là 
mô hình 4, tạo ra 39 reducts từ tập dữ liệu 
HSV và 86 reduct từ tập dữ liệu heart 
disease. Mô hình 4 đƣợc ƣu tiên cuối cùng 
vì lý do kích cỡ mới của tập dữ liệu này. 
Sau khi xóa đi tất cả các mẫu có chứa giá trị 
thiếu, tập dữ liệu sẽ có kích cỡ nhỏ hơn và 
điều này có thể ảnh hƣởng đến nhiều mối 
quan hệ trong tập dữ liệu đặc biệt là nếu 
nhiều mẫu liên quan bị xóa. 
Điểm thứ hai cần xem xét là mô hình tốt nhất 
là mô hình tạo ra số lƣợng reduct nhỏ hơn. 
Với quan điểm xem xét rằng thời gian là một 
yếu tố quan trọng. Thời gian tính toán của 
việc tạo ra reduct đƣợc giảm thiểu. Nói cách 
khác, số lƣợng tính toán và so sánh trong tập 
dữ liệu đƣợc giảm thiểu. 
Hình 3. Mối quan hệ của bốn loại của tập dữ liệu 
và tỷ lệ che phủ 
Hình 4. Mối quan hệ giữa bốn loại của tập dữ liệu 
và số lƣợng luật đƣợc tạo ra 
Hình 5. Mối quan hệ giữa bốn loại của tập dữ liệu 
và số lƣợng reduct đƣợc tạo ra 
Kết quả của điều này ngƣợc với điểm đã xem 
xét đầu tiên. Mô hình 4 là tốt nhất trong cả hai 
tập dữ liệu, tiếp theo là mô hình 2 của tập dữ 
liệu heart disease và mô hình 3 của tập dữ liệu 
HSV. Đứng thứ 3 là mô hình thứ 3 của tập dữ 
liệu heart disease, và là mô hình 2 với tập dữ 
liệu HSV. Lựa chọn cuối cùng là mô hình thứ 
nhất với cả hai tập dữ liệu HSV và heart 
disease. Mối quan hệ giữa các tập dữ liệu 
khác nhau và sự ƣớc lƣợng các nhân tố đƣợc 
thể hiện trong hình 3 – 5. Hình 3 thể hiện mối 
quan hệ giữa các tập dữ liệu và tỷ lệ phần 
trăm che phủ. Hình 4 thể hiện mối quan hệ 
giữa các tập dữ liệu khác nhau và số lƣợng 
các luật đƣợc tạo ra từ mỗi tập. Hình 5 thể 
hiện mối quan hệ giữa bốn loại khác nhau 
của tập dữ liệu và số lƣợng các reduct. 
Đƣờng nằm trên mô tả tập dữ liệu heart 
disease trong khi đƣờng nằm dƣới mô tả tập 
dữ liệu HSV. Khoảng cách giữa các đƣờng 
hoặc khoảng cách giữa các điểm tƣơng ứng 
trên đƣờng mô tả sự khác nhau của các giá 
trị đo đƣợc giữa các nhân tố khác nhau, tỷ lệ 
che phủ ở hình 3, số lƣợng luật ở hình 4, số 
lƣợng reduct ở hình 5. 
KẾT LUẬN 
Bài báo nghiên cứu về bốn mô hình khác nhau 
của xử lý giá trị thiếu. Khi áp dụng khai phá dữ 
liệu vào thế giới thực, việc nghiên cứu từ một 
tập dữ liệu không đầy đủ là một điều không thể 
tránh đƣợc. Cần có các giải pháp để xử lý các 
giá trị thiếu. Tuy nhiên các kỹ thuật để dự đoán 
các giá trị thiếu cần phải không chứa nhiễu. Hai 
thí nghiệm đƣợc đƣa ra để kiểm tra hiệu quả của 
Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 60  
các chiến lƣợc thay thế dữ liệu khác nhau bằng tỷ 
lệ che phủ, số lƣợng luật, số lƣợng reduct đƣợc tạo 
ra từ mỗi tập dữ liệu. Tỷ lệ phần trăm che phủ là 
tốt nhất với mô hình 3 với tập dữ liệu HSV. Nó là 
tốt nhất ở mô hình 4 với tập dữ liệu heart disease. 
Điều này cho thấy các tập dữ liệu khác nhau có thể 
cần sử dụng các mô hình khác nhau để thu đƣợc 
kết quả tốt nhất. Điền đầy các giá trị thiếu là một 
điều phức tạp và cần nghiên cứu cẩn thận. Kết quả 
thí nghiệm cho thấy mô hình tốt nhất tạo ra số 
lƣợng lớp luật nhỏ nhất là mô hình bỏ đi các mẫu 
chứa giá trị thiếu mà không chú ý tới kích thƣớc 
tập dữ liệu. 
Nếu ƣu tiên số lƣợng reduct nhỏ nhất thì mô hình 
tốt nhất cũng là mô hình bỏ đi các mẫu chứa giá trị 
thiếu. Và nếu ƣu tiên dựa vào số lƣợng lớn nhất các 
reduct, thì thay thế các giá trị thiếu bằng hằng toàn 
cục “missing” là lựa chọn tốt nhất. Nghiên cứu này 
kết luận rằng mô hình tốt nhất để xử lý các giá trị 
thiếu là phụ thuộc vào nhiệm vụ thực hiện nhƣ hai 
trƣờng hợp nghiên cứu trong bài báo này. 
TÀI LIỆU THAM KHẢO 
[1]. Đoàn Xuân Ngọc (2000) Luận văn cao học, Xử lý 
giá trị thiếu, , Đại học Thái Nguyên T11. 
[2]. Gaines, B.R. and M.L.G. Shaw, (1986) 
Introduction of inference rules for expert systems. 
Fuzzy Setand Syustems, 18: 315-328. 
[3]. Quinlan, J.R., (1987) Generating production 
rules from decision trees. Proc. Tenth Intl. Joint 
Conf. Artificial Intelligence, pp: 304 –307, Menlo 
Park, Calif. 
[4]. Clark, P. and T. Niblett, (1989). The CN2 induction 
algorithm. Machine Learning, 3: 261-283. 
[5]. Al-shalabi, L., R. Mahmod., A. Abdulghani and 
M. Yazid, (1999). Data mining: An overview. 
World Engineering Congress (WEC’99), Kuala 
Lumpur, Malaysia. 
[6]. Pawlak, Z., (1982). Rough Sets. Intl J. Computer 
and Information Sci., 11: 341-356. 
SUMMARY 
TREATMENT OF MISSING DATA IN DATA MINING 
Phung Thi Thu Hien
1 
, Phung Trung Nghia
2 
, Doan Xuan Ngoc
3 
1 College of Technology - TNU 
 2Japan Advanced Institute of Science and Technology, 3Thai Nguyen Tax Department 
Information is very important in our life. Development in many research fields depend on the ability of 
discovering knowledge in big databases. Scientists from different research areas have developed methods to 
analyze data and to extract useful information. These methods depending on the data and on user requirements. 
Effect of missing data: missing data effect of the quality of classification rules generated by a data mining 
system, the quatity of classification rules achieved by the data mining system, take to the difficulty of 
extracting useful information from that data set. Treatment of missing data is very important in data mining. This 
paper presents four techniques to deal missing value. 
Key words: Data mining, missing data 
 Tel: 0986 060545, Email: pthientng@gmail.com 

File đính kèm:

  • pdfxu_ly_du_lieu_thieu_trong_khai_pha_du_lieu.pdf