Bài giảng Khai phá dữ liệu - Chương mở đầu - Võ Thị Ngọc Châu

‡ Chương 1: Tổng quan về khai phá dữ liệu

‡ Chương 2: Các vấn đề tiền xử lý dữ liệu

‡ Chương 3: Hồi qui dữ liệu

‡ Chương 4: Phân loại dữ liệu

‡ Chương 5: Gom cụm dữ liệu

‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở

dữ liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu trong khai phá

dữ liệu

‡ Chương 10: Ôn tậ

pdf 21 trang yennguyen 2900
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Khai phá dữ liệu - Chương mở đầu - Võ Thị Ngọc Châu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Khai phá dữ liệu - Chương mở đầu - Võ Thị Ngọc Châu

Bài giảng Khai phá dữ liệu - Chương mở đầu - Võ Thị Ngọc Châu
11
Khai phá dữ liệu
(Data mining)
Cao Học Ngành Khoa Học Máy Tính
Giáo trình điện tử
Biên soạn bởi: TS. Võ Thị Ngọc Châu
(chauvtn@cse.hcmut.edu.vn)
Học kỳ 1 – 2011-2012
Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
22
Khai phá dữ liệu???
D
a
t
a
D
a
t
a
M
i
n
i
n
g
M
i
n
i
n
g
I
n
f
o
r
m
a
t
i
o
n
/
I
n
f
o
r
m
a
t
i
o
n
/
K
n
o
w
l
e
d
g
e
K
n
o
w
l
e
d
g
e
33
Tài liệu tham khảo
‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and 
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data 
Mining”, MIT Press, 2001.
‡ [3] David L. Olson, Dursun Delen, “Advanced Data Mining 
Techniques”, Springer-Verlag, 2008.
‡ [4] Graham J. Williams, Simeon J. Simoff, “Data Mining: Theory, 
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
‡ [5] Hillol Kargupta, Jiawei Han, Philip S. Yu, Rajeev Motwani, and 
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis 
Group, LLC, 2009.
‡ [6] Daniel T. Larose, “Data mining methods and models”, John Wiley 
& Sons, Inc, 2006.
‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine 
learning tools and techniques”, Second Edition, Elsevier Inc, 2005. 
‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire, 
“Successes and new directions in data mining”, IGI Global, 2008.
‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge 
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
44
Nội dung
‡ Chương 1: Tổng quan về khai phá dữ liệu
‡ Chương 2: Các vấn đề tiền xử lý dữ liệu
‡ Chương 3: Hồi qui dữ liệu
‡ Chương 4: Phân loại dữ liệu
‡ Chương 5: Gom cụm dữ liệu
‡ Chương 6: Luật kết hợp
‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu
‡ Chương 8: Ứng dụng khai phá dữ liệu
‡ Chương 9: Các đề tài nghiên cứu trong khai phá
dữ liệu
‡ Chương 10: Ôn tập
55
Nội dung – Tài liệu tham khảo
‡ Chương 1: Tổng quan về khai phá dữ liệu [1, 2, 7, 9]
‡ Chương 2: Các vấn đề tiền xử lý dữ liệu [1, 9]
‡ Chương 3: Hồi qui dữ liệu [1-7]
‡ Chương 4: Phân loại dữ liệu [1-7, 9]
‡ Chương 5: Gom cụm dữ liệu [1-7, 9]
‡ Chương 6: Luật kết hợp [1-7, 9]
‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ
liệu [1, 2]
‡ Chương 8: Ứng dụng khai phá dữ liệu [3, 5, 9]
‡ Chương 9: Các đề tài nghiên cứu trong khai phá dữ
liệu [5, 8, 9]
‡ Chương 10: Ôn tập [1-9]
66
Nội dung - Lịch học
‡ Chương 1: Tổng quan về khai phá dữ liệu (T.1)
‡ Chương 2: Các vấn đề tiền xử lý dữ liệu (T.2-3)
‡ Chương 3: Hồi qui dữ liệu (T.4-5)
‡ Chương 4: Phân loại dữ liệu (T.6-7)
‡ Chương 5: Gom cụm dữ liệu (T.8-9)
‡ Chương 6: Luật kết hợp (T.10-11)
‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở
dữ liệu (T.12)
‡ Chương 8: Ứng dụng khai phá dữ liệu (T.13)
‡ Chương 9: Các đề tài nghiên cứu trong khai phá
dữ liệu (T.14)
‡ Chương 10: Ôn tập (T.15)
77
KPDL – Lĩnh vực liên ngành
‡ Phân tích - thiết kế giải thuật (algorithm design 
and analysis)
‡Quản lý dữ liệu (data management) 
‡Truy hồi thông tin (information retrieval)
‡Máy học (machine learning)
‡Thống kê (statistics)
‡Trực quan hóa (visualization)
‡ ...
88
Hiểu biết - Kỹ năng đạt được
‡ Hiểu các bước trong quá trình khám phá tri thức
‡ Mô tả được các khái niệm, công nghệ, và ứng dụng
của khai phá dữ liệu
‡ Giải thích được các tác vụ khai phá dữ liệu phổ biến
như hồi qui, phân loại, gom cụm, và khai phá luật
kết hợp
‡ Nhận dạng được các vấn đề về dữ liệu trong giai
đoạn tiền xử lý cho các tác vụ khai phá dữ liệu
‡ Hiểu cách sử dụng khai phá dữ liệu để có được các
quyết định tốt hơn
‡ Sử dụng được các giải thuật và công cụ khai phá dữ
liệu để phát triển ứng dụng khai phá dữ liệu
‡ Được chuẩn bị về kiến thức để có thể nghiên cứu
trong lĩnh vực khai phá dữ liệu
99
Đánh giá kết quả học tập
‡ Tiểu luận: 30%
‡ Kiểm tra: 20%
‡ Thi cuối kỳ: 50%
Æ Đạt: 30%*Tiểu luận + 20%*Kiểm tra + 
50%*Thi cuối kỳ >= 5.0
10
10
Hình thức đánh giá kết quả học tập
‡ Tiểu luận: 30%
„ Nội dung báo cáo: 15%
„ Nội dung trình bày: +5%
„ Nội dung sản phẩm: 15%
‡ Kiểm tra: 20%
„ 2 bài kiểm tra vào tuần 6, 13 
„ 10%/bài, 10 câu trắc nghiệm/bài/20 phút, 1đ/câu
‡ Thi cuối kỳ: 50%
„ 45 câu trắc nghiệm/90 phút, 0.25 điểm/câu
11
11
Tiểu luận
‡ 1 đề tài/sinh viên
‡ Sinh viên chọn đề tài và bắt đầu thực hiện
tiểu luận từ tuần thứ 1.
‡ Sinh viên nộp bài làm tiểu luận vào tuần
thứ 15.
„ Nộp bài trễ: -2 điểm
‡ Bài nộp cho tiểu luận gồm:
„ Báo cáo: .doc, .docx, .pdf
„ Trình bày (+): .ppt, .pptx, .pps
„ Sản phẩm (để kiểm tra kết quả đạt được của
tiểu luận)
12
12
Hướng đề tài của Tiểu luận
‡ Data mining research
„ Tìm hiểu và thi công một công trình tiên tiến
(reviewed advanced work) trong lĩnh vực khai
phá dữ liệu (danh sách ở slides 16-17) 
‡ Applied data mining
„ Phát triển một đề án thực tế có áp dụng khai
phá dữ liệu
‡ Data mining technology
„ Tìm hiểu và thử nghiệm một công cụ khai phá
dữ liệu
13
13
Yêu cầu đối với sinh viên
‡ Sinh viên nên có mặt tại lớp hơn 75%.
‡ Sinh viên phải có mặt tại lớp vào tuần 6, 13.
‡ Sinh viên nên đọc trước tài liệu tham khảo
cho mỗi chương.
‡ Sinh viên nên làm các bài tập của mỗi
chương trong các tài liệu [1, 6].
‡ Sinh viên nên tham khảo thêm các tài liệu
học tập khác, đặc biệt từ nguồn Internet.
‡ Sinh viên nên thực hành các công cụ liên
quan.
14
14
Thực hành
‡ Oracle 10g/11g DBMS và Oracle 10g/11g 
Data Mining
„ www.oracle.com
‡ MS SQL Server 2005/2008 DBMS và
Business Intelligence Development Studio
„ www.microsoft.com
‡WEKA (the University of Waikato, New 
Zealand)
„ www.cs.waikato.ac.nz/ml/weka
‡ Other open source data mining/statistical 
systems
15
15
A Brief History of Data Mining Society
‡ 1989 IJCAI Workshop on Knowledge Discovery in Databases 
(Piatetsky-Shapiro)
„ Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 
1991)
‡ 1991-1994 Workshops on Knowledge Discovery in Databases
„ Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. 
Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)
‡ 1995-1998 International Conferences on Knowledge Discovery 
in Databases and Data Mining (KDD’95-98)
„ Journal of Data Mining and Knowledge Discovery (1997)
‡ 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and 
SIGKDD Explorations
‡ More conferences on data mining
„ PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc.
16
16
Where to Find References?
‡ Data mining and KDD (SIGKDD member CDROM):
„ Conference proceedings: KDD, and others, such as PKDD, PAKDD, etc.
„ Journal: Data Mining and Knowledge Discovery
‡ Database field (SIGMOD member CD ROM):
„ Conference proceedings: ACM-SIGMOD, ACM-PODS, VLDB, ICDE, 
EDBT, DASFAA
„ Journals: ACM-TODS, J. ACM, IEEE-TKDE, JIIS, etc.
‡ AI and Machine Learning:
„ Conference proceedings: Machine learning, AAAI, IJCAI, etc.
„ Journals: Machine Learning, Artificial Intelligence, etc.
‡ Statistics:
„ Conference proceedings: Joint Stat. Meeting, etc.
„ Journals: Annals of statistics, etc.
‡ Visualization:
„ Conference proceedings: CHI, etc.
„ Journals: IEEE Trans. visualization and computer graphics, etc.
17
17
Where to Find References?
‡Publishers of Interest
„ ACM
„ IEEE
„ Springer
„ Elsevier
18
18
19
19
20
20
21
21
Hỏi & Đáp 

File đính kèm:

  • pdfbai_giang_khai_pha_du_lieu_chuong_mo_dau_vo_thi_ngoc_chau.pdf