Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu
MỤC TIÊU
• Hiểu và áp dụng được các phương pháp biến đổi
dữ liệu phù hợp với yêu cầu nghiên cứu.
• Hiểu và áp dụng được các phương pháp xử lý lỗi
phát sinh trong quá trình nhập liệu.
• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi
khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu
Bạn đang xem tài liệu "Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu
1PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS TIN HỌC ỨNG DỤNG BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MỤC TIÊU • Hiểu và áp dụng được các phương pháp biến đổi dữ liệu phù hợp với yêu cầu nghiên cứu. • Hiểu và áp dụng được các phương pháp xử lý lỗi phát sinh trong quá trình nhập liệu. • Tổ chức và làm việc nhóm xây dựng bảng câu hỏi khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu. 2namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số NỘI DUNG • Xử lý dữ liệu trên biến – Mã hóa biến với công cụ Recode – Chuyển định dạng của biến – Tính toán giá trị của biến với công cụ Compute – Xử lý câu hỏi có nhiều lựa chọn trả lời • Làm sạch dữ liệu – Dữ liệu lỗi và các biện pháp khắc phục – Các phương pháp làm sạch dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CÁC PHÉP BIẾN ĐỔI DỮ LIỆU • Mục đích – Xử lý sai sót trong quá trình mã hóa, nhập liệu – Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến • Phân loại – Xử lý dữ liệu trên biến – Làm sạch dữ liệu 3namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số XỬ LÝ DỮ LIỆU TRÊN BIẾN • Mã hóa biến với công cụ Recode • Chuyển định dạng của biến • Tính toán giá trị của biến với công cụ Compute • Xử lý câu hỏi có nhiều lựa chọn trả lời namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE • Mục đích – Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng •Điều kiện áp dụng – Giảm số biểu hiện của một biến định tính xuống chỉ còn hai hoặc ba loại biểu hiện cơ bản – Chuyển biến định lượng thành biến định tính 4namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE • Quy trình thực hiện – Gọi thực hiện chức năng Transform -> Recode -> Into Different Variables (giữ nguyên biến gốc, tạo biến mới) – Chọn biến muốn mã hóa lại – Đặt tên và nhãn cho biến mới, nhấn nút Change để xác nhận – Nhấn nút Old and New Values để xác định sự chuyển đổi giá trị giữa biến cũ và biến mới – Gán các nhãn giá trị cho biến vừa tạo namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE 5namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN • Mục đích – Chuyển biến dạng phân loại Category nhiều trị số thành biến phân loại Dichotomy có hai trị số • Ví dụ – BankAccount là biến phân loại, cho biết tên ngân hàng quản lý tài khoản lương của người được hỏi – SalaryThrBank là biến phân loại, cho biết người được hỏi có nhận lương qua ngân hàng VCB hay không namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN • Quy trình thực hiện – Gọi thực hiện chức năng Transform -> Count – Khai báo tên và nhãn của biến Dichotomy – Cung cấp (các) biến Category có liên quan tới biến Dichotomy – Cung cấp trị số mã hóa của (các) biến Category có liên quan tới biến Dichotomy – Gán nhãn các giá trị của biến Dichotomy 6namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Dữ liệu lỗi và các biện pháp khắc phục • Các phương pháp làm sạch dữ liệu 7namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số DỮ LIỆU LỖI • Lỗi mã hóa dữ liệu • Lỗi nhập dữ liệu • Lỗi về tính nhất quán của dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI MÃ HÓA DỮ LIỆU • Mô tả – Dữ liệu nhập không phản ánh đúng ý nghĩa của thông tin do người được hỏi cung cấp • Nguyên nhân – Mã hóa sai thông tin do người được hỏi cung cấp 8namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI NHẬP DỮ LIỆU • Mô tả – Dữ liệu nhập không đúng với bảng mã theo thông tin do người được hỏi cung cấp • Nguyên nhân – Mã đọc sai – Mã đọc đúng nhưng lỗi do đánh máy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI NHẤT QUÁN DỮ LIỆU • Mô tả – Không nhất quán giữa các câu trả lời của cùng một đối tượng được hỏi • Nguyên nhân – Lỗi mã hóa dữ liệu – Lỗi nhập dữ liệu – Lỗi do đối tượng được hỏi cung cấp sai thông tin 9namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU • Nhập toàn bộ số liệu hai lần bởi hai người độc lập • Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ số liệu (chọn ngẫu nhiên) bởi hai người độc lập namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Sự cần thiết – Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu, nhập dữ liệu – Đảm bảo tính nhất quán của dữ liệu • Các biện pháp ngăn ngừa – Thiết kế bảng câu hỏi rõ ràng, dễ trả lời – Chọn lọc và huấn luyện điều tra viên – Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập 10 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Kết hợp sử dụng MS Excel và SPSS để phát hiện, xử lý lỗi và làm sạch dữ liệu – Sử dụng Excel (Max, Min, Auto Filter, Scatter) – Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots) • Quy trình thực hiện – Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến – Tìm bản ghi chứa giá trị “lạ” – Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Ví dụ – Sử dụng hàm MIN, MAX đối với biến Age – Sử dụng công cụ AutoFilter đối với biến Gender – Sử dụng đồ thị Scatter đối với biến Childrens 11 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng hàm MIN, MAX đối với biến Age – Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18 đến 60 – Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng công cụ AutoFilter đối với biến Gender – Biến Gender chỉ có hai giá trị Male và Female, những giá trị khác (hoặc để trống) là lỗi nhập liệu 12 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng đồ thị Scatter đối với biến Age namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng đồ thị Scatter đối với biến Age 13 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Ví dụ – Sử dụng công cụ Frequencies đối với biến Gender – Sử dụng công cụ Charts đối với biến Literacy – Sử dụng công cụ Histogram đối với biến Age namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Frequencies đối với biến Gender 14 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Frequencies đối với biến Gender namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Charts đối với biến Literacy 15 namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Charts đối với biến Literacy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Histogram đối với biến Age
File đính kèm:
- bai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf