Bài giảng Cơ sở dữ liệu - Bài 3: Phụ thuộc hàm & chuẩn hóa dữ liệu - Thiều Quang Trung
• Khái niệm phụ thuộc hàm
• Hệ tiên đề Amstrong
• Bao đóng của tập phụ thuộc hàm
• Bao đóng của tập thuộc tính
• Tìm khóa
• Định nghĩa chuẩn hóa
• Các dạng chuẩn hóa
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Cơ sở dữ liệu - Bài 3: Phụ thuộc hàm & chuẩn hóa dữ liệu - Thiều Quang Trung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Cơ sở dữ liệu - Bài 3: Phụ thuộc hàm & chuẩn hóa dữ liệu - Thiều Quang Trung
BÀI 3 PHỤ THUỘC HÀM & CHUẨN HÓA DỮ LIỆU GV Th.S. Thiều Quang Trung Trường Cao đẳng Kinh tế đối ngoại Nội dung • Khái niệm phụ thuộc hàm • Hệ tiên đề Amstrong • Bao đóng của tập phụ thuộc hàm • Bao đóng của tập thuộc tính • Tìm khóa • Định nghĩa chuẩn hóa • Các dạng chuẩn hóa 2 GV Thiều Quang Trung Dư thừa dữ liệu (Data redundancy) • Mục đích của thiết kế CSDL là gom các thuộc tính thành các quan hệ sao cho giảm thiểu dư thừa dữ liệu • Hậu quả của dư thừa dữ liệu: – Lãng phí không gian đĩa – Các bất thường khi cập nhật • Ba loại bất thường: – Bất thường khi thêm vào – Bất thường khi xóa bỏ – Bất thường khi sửa đổi 3 GV Thiều Quang Trung Phụ thuộc hàm là gì ? (Functional Dependency) • Phụ thuộc hàm mô tả mối liên hệ giữa các thuộc tính • Dựa vào phụ thuộc hàm để thiết kế lại CSDL, loại bỏ các dư thừa dữ liệu 4 GV Thiều Quang Trung Phụ thuộc hàm (Functional Dependency) • Cho lược đồ quan hệ R(U), r là 1 quan hệ bất kỳ trên R, X và Y là 2 tập thuộc tính con. • Định nghĩa: Phụ thuộc hàm (FD) f: X Y trên lược đồ quan hệ R nếu và chỉ nếu với mỗi giá trị X trong quan hệ r có quan hệ chính xác với một giá trị Y trong r. Nghĩa là bất kể khi nào 2 bộ của r có cùng giá trị X thì cũng có cùng giá trị Y 5 GV Thiều Quang Trung Phụ thuộc hàm (Functional Dependency) 6 • Xét lược đồ quan hệ gồm n thuộc tính – R(U), U={A1, A2,, An} • Phụ thuộc hàm (FD) giữa hai tập thuộc tính X, Y U – Ký hiệu: X Y. r R, t1, t2 r nếu t1[X] = t2[X] thì t1[Y] = t2[Y]. – X là vế trái (determinant) và Y là vế phải (dependent) của FD. 7 3 5 1 4 1 B A r(R) r không thỏa A B, nhưng thỏa B A GV Thiều Quang Trung Phụ thuộc hàm (Functional Dependency -FD) • Phụ thuộc hàm là một đặc điểm ngữ nghĩa của các thuộc tính, được xem là 1 ràng buộc giữa các thuộc tính. • Ví dụ: Một nhân viên chỉ có 1 tiền lương nhưng nhiều nhân viên có thể có cùng 1 mức lương Emp_ID Salary Salary -/-> Emp_ID 7 GV Thiều Quang Trung Phụ thuộc hàm (Functional Dependency -FD) • Nếu X là một khóa dự tuyển (candidate key) thì tất cả các thuộc tính Y của lược đồ R sẽ phải phụ thuộc hàm vào X • Ví dụ: trong lược đồ PROFESSOR có ProfId là primary key nên: ProfId Name, Qualification • Có một số FD trong lược đồ sẽ gây ra dư thừa dữ liệu. 8 GV Thiều Quang Trung Ví dụ FD và dư thừa dữ liệu • Xét lược đồ: PERSON(SSN, Name, Address,Hobby) với quy tắc là 1 người có thể có nhiều sở thích – SSN,Hobby SSN, Name, Address,Hobby • Bất thường xảy ra khi một người có nhiều sở thích thay đổi địa chỉ 9 GV Thiều Quang Trung Giải thuật kiểm tra phụ thuộc hàm • Bài toán: cho quan hệ r và 1 phụ thuộc hàm f:X Y. Kiểm tra xem r thỏa mãn f hay không? • Function Satisfies(r,f:X Y) – Sắp thứ tự các bộ trong r theo các thuộc tính của X – If mỗi tập các bộ có cùng giá trị X thì có cùng giá trị Y then • Satisfies = true – Else • Satisfies = false 10 GV Thiều Quang Trung Tập phụ thuộc hàm • Gọi F là 1 tập phụ thuộc hàm trên R nếu với mọi phụ thuộc hàm trong F đều là phụ thuộc hàm trên R • Phụ thuộc hàm tầm thường ( trivial FD) hay phụ thuộc hàm hiển nhiên X Y nếu Y X • Số tập con có thể có của R = {A1,A2,...,An} là 2n. Ứng với mỗi tập con sẽ có tối đa 2n. Số FD tối đa có thể có trong 1 lược đồ là 22n. 11 GV Thiều Quang Trung Tập phụ thuộc hàm • FD được dùng để thể hiện các ràng buộc bảo toàn (integrity constraint), vì vậy DBMS cần phải quản lý các FD. • Với 1 tập S chứa toàn bộ các FD của 1 lược đồ, có cách nào tìm ra 1 tập T S sao cho mọi FD của S đều ngầm suy từ các FD của T. Khi đó, DBMS chỉ quản lý các FD của T, các FD trong S sẽ được quản lý một cách tự động. 12 GV Thiều Quang Trung Hệ tiên đề Amstrong • Phụ thuộc hàm X Y được suy diễn luận lý từ F nếu với mọi quan hệ thỏa mãn mọi phụ thuộc hàm trong F thì cũng thỏa mãn X Y – Ký hiệu F|=X Y – F bao hàm (implies) X Y – X Y được suy diễn theo quan hệ từ F 13 GV Thiều Quang Trung Hệ tiên đề Amstrong • Quy tắc suy diễn (inference rule): nếu 1 quan hệ thỏa mãn 1 số phụ thuộc hàm nào đó thì quan hệ này cũng thỏa mãn 1 số phụ thuộc hàm khác 14 GV Thiều Quang Trung Hệ tiên đề Amstrong • Các tiên đề suy diễn: – F1. Phản xạ (reflexivity): YX X Y – F2. Gia tăng (augmentation): X Y XZ YZ – F3. Bắc cầu (transitivity): X Y và Y Z X Z 15 GV Thiều Quang Trung Hệ tiên đề Amstrong • F4. Hợp (additivity): X Y và X Z X YZ • F5. Chiếu (projectivity): X YZ X Y • F6. Bắc cầu giả (pseudotransitivity): X Y và YZ W XZ W 16 GV Thiều Quang Trung Bao đóng của tập phụ thuộc hàm • Bao đóng (closure) của tập phụ thuộc hàm F là 1 tập phụ thuộc hàm nhỏ nhất chứa F sao cho không thể áp dụng hệ tiên đề Amstrong trên tập này để tạo ra 1 phụ thuộc hàm khác không có trong tập hợp này • Ký hiệu F+, gồm: – F và – Tất cả các phục thuộc hàm được suy diễn từ F. • F gọi là đầy đủ nếu F = F+. 17 GV Thiều Quang Trung Các tính chất của bao đóng của tập phụ thuộc hàm 1. Tính phản xạ: với mọi tập phụ thuộc hàm F+ ta luôn có F F+ 2. Tính đơn điệu: nếu F G thì F+ G+ 3. Tính lũy đẳng: với mọi tập phụ thuộc hàm F ta luôn có (F+)+ = F+. 18 GV Thiều Quang Trung Hệ tiên đề Amstrong • Hệ tiên đề Amstrong là đúng đắn (sound) các phụ thuộc hàm suy diễn từ F (tập phụ thuộc hàm trên r) theo hệ tiên đề Amstrong cũng là một phụ thuộc hàm trên r • Hệ tiên đề Amstrong là toàn vẹn (completeness) bảo đảm rằng f F+ nếu và chỉ nếu f là 1 FD được suy diễn 19 GV Thiều Quang Trung Phụ thuộc hàm tương đương • Nếu F và G là 2 tập FD. F suy diễn G ( F entails G) nếu F suy diễn được tất cả các FD có trong G. • F và G là tương đương nhau nếu F suy diễn G và G suy diễn F 20 GV Thiều Quang Trung Kiểm tra các tập FD tương đương • Input: F,G – các tập FD • Output: true nếu F tương đương G, false nếu ngược lại For each f F do if G does not entail f then return false For each g G do if G does not entail f then return false Return true 21 GV Thiều Quang Trung Ví dụ kiểm tra tập F tương đương • Hãy khảo sát 2 tập FD sau: – F={ AC B, A C, D A} – G={A B, A C, D A, D B} F và G có tương đương nhau không??? Từ A C + Tiên đề F2 A AC (1) Từ (1)+ AC B + tiên đề F3 A B Từ D A + A B + tiên đề F3 D B F suy diễn G Tương tự khi xét G suy diễn F 22 GV Thiều Quang Trung Bao đóng của tập thuộc tính 23 • Làm thế nào để biết một FD X Y được suy diễn từ tập F cho trước ? • Bao đóng của tập thuộc tính X đối với F, ký hiệu X+, là – Tập các thuộc tính phụ thuộc hàm vào X. – X+ = {A U | X A F+} • Nhận xét – X Y F+ Y X+. – Nếu K là khóa của R thì K+ = U. GV Thiều Quang Trung Thuật toán tìm X+ 24 • Nhập: U, F và X U • Xuất: X+ • Thuật toán: – Bước 1: X+ = X; – Bước 2: Nếu tồn tại Y Z F và Y X+ thì X+ := X+ Z; và tiếp tục bước 2. Ngược lại qua bước 3. – Bước 3: Xuất X+. GV Thiều Quang Trung Ví dụ thuật toán tìm X+ 25 • Ví dụ 1, cho: – F = {AB C, BC D, D EG}. X = BD. • Tính X+: – X+ = BD. – Lặp 1: • Tìm các FD có vế trái là tập con của X+ = BD – D EG, thêm EG vào X+ ta được X+ = BDEG. – Lặp 2: • Tìm các FD có vế trái là tập con của X+ = BDEG – Không có FD nào. – Vậy X+ = BDEG. GV Thiều Quang Trung Kiểm tra phụ thuộc hàm suy diễn 26 • Dựa vào tính chất: X Y F+ Y X+. • Ví dụ: – Cho F = {AB C, A D, D E, AC B} – Hai phụ thuộc hàm AB E và D C có được suy diễn từ F hay không? DE D ABCDE AB XF + X Được suy diễn từ F GV Thiều Quang Trung Giải thuật tìm khóa của lược đồ quan hệ • Nhập: R(U) và tập phụ thuộc hàm F • Xuất: tập hợp K bao gồm tất cả khóa của R • Tập thuộc tính nguồn (TN) chứa tất cả các thuộc tính xuất hiện ở vế trái và không xuất hiện ở vế phải của các phụ thuộc hàm và các thuộc tính không xuất hiện ở cả vế trái lẫn vế phải của các phụ thuộc hàm TN=U- f F right(f) 27 GV Thiều Quang Trung • Tập thuộc tính đích (TD) chứa tất cả các thuộc tính có xuất hiện ở vế phải và không xuất hiện ở vế trái của các phụ thuộc hàm TD= f F right(f) - f F left(f) • Tập thuộc tính trung gian (TG) chứa tất cả các thuộc tính xuất hiện ở cả vế trái lẫn vế phải của các phụ thuộc hàm Giải thuật tìm khóa của lược đồ quan hệ 28 GV Thiều Quang Trung Thuật toán tìm tất cả khóa • Bước 1: tạo tập thuộc tính nguồn TN. Tập thuộc tính trung gian TG • Bước 2: if TG = then lược đồ quan hệ chỉ có 1 khóa K K=TN Kết thúc Ngược lại qua bước 3 • Bước 3: tìm tất cả các tập con Xi của tập trung gian TG 29 GV Thiều Quang Trung Thuật toán tìm tất cả khóa (tt) • Bước 4: tìm các siêu khóa Si bằng cách Xi if (TN Xi)+ = Q+ then Si = TN Xi • Bước 5: tìm khóa bằng cách loại bỏ các siêu khóa không tối thiểu Si, Sj S if Si Sj then Loại Sj ra khỏi tập siêu khóa S S còn lại chính là tập khóa cần tìm 30 GV Thiều Quang Trung Ví dụ tìm khóa • Cho R(A,B,C,D,E,F) và F={D B, A C, AD E, C F}. Tìm tất cả các khóa của R • B1: TN={AD}, TG={C} • Xi là các tập con của TG Xi Xi TN (Xi TN)+ Siêu khóa Khóa AD ADBCEF=R+ AD AD C ADC ADBCEF=R+ ADC 31 GV Thiều Quang Trung Ví dụ tìm khóa • Cho R(A,B,C,D,E,F) và F={A D, C AF, AB EC}. Tìm khóa của R? • TN={B} , TG={AC} • Khóa của R là {AB} và {BC} Xi Xi TN (Xi TN)+ Siêu khóa Khóa B B C CB ABCDEF=R+ BC BC A AB ABCDEF=R+ AB AB AC ABC ABCDEF=R+ ABC 32 GV Thiều Quang Trung Chuẩn hóa dữ liệu là gì ? • Chuẩn hoá là quá trình tách bảng (phân rã) thành các bảng nhỏ hơn dựa vào các phụ thuộc hàm. Các dạng chuẩn là các chỉ dẫn để thiết kế các bảng trong CSDL. • Mục đích của chuẩn hoá là loại bỏ các dư thừa dữ liệu và các lỗi khi thao tác dư thừa và các lỗi khi thao tác dữ liệu (Insert, Delete, Update). Nhưng chuẩn hoá làm tăng thời gian truy vấn. GV Thiều Quang Trung 33 Các dạng chuẩn hóa • Quá trình chuẩn hóa được thực hiện qua nhiều bước. Mỗi bước tương ứng một dạng chuẩn • Các dạng chuẩn: – Dạng chuẩn 1(1NF – first normal form) – Dạng chuẩn 2(2NF- second normal form) – Dạng chuẩn 3(3NF – third normal form) – Dạng chuẩn BCNF – Boyce Codd 34 GV Thiều Quang Trung Các dạng chuẩn hóa GV Thiều Quang Trung 35 Bảng chưa chuẩn hóa • Bảng chưa chuẩn hóa là bảng chứa thuộc tính đa trị (thuộc tính có nhiều giá trị khác nhau) cho mỗi dòng – Dẫn đến lỗi khi thao tác dữ liệu • Để loại bỏ thuộc tính đa trị -> đưa bảng chưa chuẩn hóa về dạng chuẩn đầu tiên (1NF – first normal form) 36 GV Thiều Quang Trung Bảng chưa chuẩn hóa Emp_ID Name Dept_Name Salary Course_ Title Date_ Completed 100 M.Simpson Marketing 48000 SPSS Surveys 6/19/2001 12/12/2002 140 A.Beeton Acounting 52000 Tax Acc 12/8/2003 110 C.Lureco Info System 43000 SPSS C++ 1/12/2003 2/6/2004 190 L.Davis Finance 55000 150 S.Martin Marketing 42000 SPSS Java 6/16/2002 5/7/2004 Ví dụ bảng Employee_Course có 2 thuộc tính đa trị 37 GV Thiều Quang Trung Dạng chuẩn 1 (1NF – first normal form) • Bảng ở dạng chuẩn 1 nếu – Có khóa chính – Không có thuộc tính đa trị, tức mọi thuộc tính đều là thuộc tính đơn trị (thuộc tính chứa giá trị nguyên tố) 38 GV Thiều Quang Trung Biến đổi về dạng chuẩn 1NF • Quá trình chuẩn hóa 2 bước: – Chia tách thuộc tính đa trị thành đơn trị cho mỗi dòng dữ liệu – Xác định lại khóa chính có bố sung thuộc tính 39 GV Thiều Quang Trung Biến đổi về dạng chuẩn 1NF Dạng chuẩn 1 Khóa là EmpID + CourseTitle 40 GV Thiều Quang Trung Emp_ID Name Dept_Name Salary Course_ Title Date_ Completed 100 M.Simpson Marketing 48000 SPSS 6/19/2001 100 M.Simpson Marketing 48000 Surveys 12/12/2002 140 A.Beeton Acounting 52000 Tax Acc 12/8/2003 110 C.Lureco Info System 43000 SPSS 1/12/2003 110 C.Lureco Info System 43000 C++ 2/6/2004 190 L.Davis Finance 55000 150 S.Martin Marketing 42000 SPSS 6/16/2002 150 S.Martin Marketing 42000 Java 5/7/2004 Nhận xét về dạng chuẩn 1NF • Dạng chuẩn 1NF vẫn có thể có các bất thường khi cập nhật. • Ví dụ bảng Employee_Course đạt dạng chuẩn 1 sẽ có các bất thường sau: – Thêm 1 nhân viên mới chưa tham gia khóa học nào vi phạm quy luật bảo toàn thực thể – Thay đổi tên phòng phải thay đổi hàng loạt thông tin này cho tất cả các nhân viên của phòng đó – Xóa 1 course mà chỉ có 1 nhân viên học, thông tin course sẽ bị xóa theo 41 GV Thiều Quang Trung Dạng chuẩn 2 (2NF – second Normal Form) • Quan hệ R ở dạng 2NF đối với tập phụ thuộc hàm F nếu: – Là 1NF – Các thuộc tính không khoá phải phụ thuộc hàm đầy đủ vào khoá chính 42 GV Thiều Quang Trung Khái niệm phụ thuộc hàm đầy đủ • Phụ thuộc bộ phận: Xét X A, nếu tồn tại Y X sao cho Y A Ta nói A phụ thuộc bộ phận vào X • Phụ thuộc đầy đủ: Xét X A, nếu không tồn tại Y X để cho Y A Ta nói A phụ thuộc đầy đủ vào X 43 GV Thiều Quang Trung Ví dụ về phụ thuộc hàm đầy đủ • Ví dụ 1: Cho quan hệ R = (ABCD) , khoá là AB và tập phụ thuộc hàm F = {AB C, AB D}. Ta thấy R đạt chuẩn 2NF. • Ví dụ 2: Cho quan hệ R = (ABCD) , khoá là AB và tập phụ thuộc hàm F = {AB C, AB D, B DC}. Ta thấy R không đạt chuẩn 2NF vì có B DC là phụ thuộc hàm bộ phận (phụ thuộc hàm không đầy đủ) vào khoá. GV Thiều Quang Trung 44 Nhận xét dạng chuẩn 2NF • Một quan hệ ở dạng chuẩn 2NF nếu thoả mãn 1 trong các đièu kiện sau: – Khoá chính chỉ gồm một thuộc tính – Bảng không có các thuộc tính không khoá – Tất cả các thuộc tính không khoá phụ thuộc hoàn toàn vào tập các thuộc tính khoá chính GV Thiều Quang Trung 45 Biến đổi thành dạng chuẩn 2NF • Loại bỏ các phụ thuộc hàm bộ phận và tạo thêm các quan hệ mới tương ứng với các phụ thuộc hàm bộ phận 46 GV Thiều Quang Trung Dạng chuẩn 3 (3NF – third normal form) • Quan hệ R ở dạng chuẩn 3NF đối với tập phụ thuộc hàm F nếu: – R ở dạng 2NF – Các thuộc tính không khoá phải phụ thuộc trực tiếp vào khoá chính (tức các thuộc tính không khóa đều không phụ thuộc bắc cầu vào khóa chính) 47 GV Thiều Quang Trung Dạng chuẩn 3NF • Quan hệ R ở dạng chuẩn 3NF đối với tập phụ thuộc hàm F nếu: – R ở dạng chuẩn 1NF – Mọi phụ thuộc hàm X A với A X thì • X là 1 siêu khoá của R, hoặc • A là 1 thuộc tính khoá GV Thiều Quang Trung 48 Khái niệm phụ thuộc bắc cầu • X A được gọi là phụ thuộc bắc cầu nếu tồn tại Y để cho: X Y, Y A, với Y-/->X và A XY • Nguyên nhân gây ra các bất thường khi cập nhật bảng 2NF là do có các thuộc tính không khóa phụ thuộc bắc cầu vào khóa của quan hệ 49 GV Thiều Quang Trung Ví dụ phụ thuộc hàm bắc cầu • Ví dụ 1: Cho quan hệ R = (ABCDGH), khoá là AB và tập phụ thuộc hàm F = {AB C, AB D, AB GH} là quan hệ đạt chuẩn 3NF. • Ví dụ 2: Cho quan hệ R = (ABCDGH) , khoá là AB và tập phụ thuộc hàm F = {AB C, AB D, AB GH, G DH} là quan hệ không đạt chuẩn 3NF, vì có phụ thuộc hàm G DH là phụ thuộc hàm gián tiếp vào khoá. GV Thiều Quang Trung 50 Biến đổi về dạng chuẩn 3NF • Loại bỏ các phụ thuộc bắc cầu trong quan hệ và tạo ra các quan hệ mới tương ứng với các phụ thuộc bắc cầu GV Thiều Quang Trung 51 Dạng chuẩn Boyce-Codd (BCNF) • Một quan hệ ở dạng chuẩn BCNF nếu quan hệ đó: – Là dạng chuẩn 3NF – Không có thuộc tính khoá mà phụ thuộc hàm vào thuộc tính không khoá GV Thiều Quang Trung 52 Ví dụ về dạng chuẩn BCNF • Ví dụ 1: Cho quan hệ R = (ABCDGH), khoá là AB và tập phụ thuộc hàm F = {AB C, AB D, AB GH} là quan hệ đạt chuẩn BCNF. • Ví dụ 2: Cho quan hệ R = (ABCDGH) , khoá là AB và tập phụ thuộc hàm F = {AB C, AB D, AB GH, H B} là quan hệ không đạt chuẩn BCNF vì có thuộc tính khoá B phụ thuộc hàm vào thuộc tính không khoá H. GV Thiều Quang Trung 53 Nhận xét dạng chuẩn BCNF • Quan hệ R ở dạng BCNF nếu có mọi vế trái của tập phụ thuộc hàm F đều là khóa dự tuyển của R • Quan hệ R ở dạng BCNF nếu với mọi phụ thuộc hàm dạng X Y trong tập F, thỏa 1 trong 2 điều kiện sau: – Y X, hoặc – X là siêu khóa của R 54 GV Thiều Quang Trung Chuyển đổi thành BCNF • Có thể biến đổi trực tiếp quan hệ từ dạng chuẩn 1NF thành BCNF, mà không cần phải qua các bước chuẩn hóa 2NF, 3NF – Loại bỏ các vế trái không phải là siêu khoá – Tạo các quan hệ mới tương ứng với các vế trái sao cho vế trái trở thành siêu khoá của quan hệ mới 55 GV Thiều Quang Trung Chuyển đổi thành BCNF • Ví dụ: xét R={ABCD}, F ={AB CD, AC BD} có 2 khóa: AB và AC • Vì 2 phụ thuộc hàm này đều có vế trái là khóa, nên lược đồ ở dạng BCNF 56 GV Thiều Quang Trung 57 GV Thiều Quang Trung
File đính kèm:
- bai_giang_co_so_du_lieu_bai_3_phu_thuoc_ham_chuan_hoa_du_lie.pdf