Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

MỤC TIÊU

• Hiểu và áp dụng được các phương pháp biến đổi

dữ liệu phù hợp với yêu cầu nghiên cứu.

• Hiểu và áp dụng được các phương pháp xử lý lỗi

phát sinh trong quá trình nhập liệu.

• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi

khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu

pdf 15 trang yennguyen 4480
Bạn đang xem tài liệu "Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu
1PHÂN TÍCH DỮ LIỆU NGHIÊN 
CỨU VỚI SPSS
TIN HỌC ỨNG DỤNG
BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỤC TIÊU
• Hiểu và áp dụng được các phương pháp biến đổi
dữ liệu phù hợp với yêu cầu nghiên cứu.
• Hiểu và áp dụng được các phương pháp xử lý lỗi
phát sinh trong quá trình nhập liệu.
• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi
khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.
2namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
NỘI DUNG
• Xử lý dữ liệu trên biến
– Mã hóa biến với công cụ Recode
– Chuyển định dạng của biến
– Tính toán giá trị của biến với công cụ Compute
– Xử lý câu hỏi có nhiều lựa chọn trả lời
• Làm sạch dữ liệu
– Dữ liệu lỗi và các biện pháp khắc phục
– Các phương pháp làm sạch dữ liệu
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CÁC PHÉP BIẾN ĐỔI DỮ LIỆU
• Mục đích
– Xử lý sai sót trong quá trình mã hóa, nhập liệu
– Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến
• Phân loại
– Xử lý dữ liệu trên biến
– Làm sạch dữ liệu
3namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
XỬ LÝ DỮ LIỆU TRÊN BIẾN
• Mã hóa biến với công cụ Recode
• Chuyển định dạng của biến
• Tính toán giá trị của biến với công cụ Compute
• Xử lý câu hỏi có nhiều lựa chọn trả lời
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
• Mục đích
– Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng
•Điều kiện áp dụng
– Giảm số biểu hiện của một biến định tính xuống chỉ còn
hai hoặc ba loại biểu hiện cơ bản
– Chuyển biến định lượng thành biến định tính
4namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
• Quy trình thực hiện
– Gọi thực hiện chức năng Transform -> Recode -> Into
Different Variables (giữ nguyên biến gốc, tạo biến mới)
– Chọn biến muốn mã hóa lại
– Đặt tên và nhãn cho biến mới, nhấn nút Change để xác
nhận
– Nhấn nút Old and New Values để xác định sự chuyển
đổi giá trị giữa biến cũ và biến mới
– Gán các nhãn giá trị cho biến vừa tạo
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MÃ HÓA BIẾN VỚI RECODE
5namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Mục đích
– Chuyển biến dạng phân loại Category nhiều trị số thành
biến phân loại Dichotomy có hai trị số
• Ví dụ
– BankAccount là biến phân loại, cho biết tên ngân hàng
quản lý tài khoản lương của người được hỏi
– SalaryThrBank là biến phân loại, cho biết người được
hỏi có nhận lương qua ngân hàng VCB hay không
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
• Quy trình thực hiện
– Gọi thực hiện chức năng Transform -> Count
– Khai báo tên và nhãn của biến Dichotomy
– Cung cấp (các) biến Category có liên quan tới biến
Dichotomy
– Cung cấp trị số mã hóa của (các) biến Category có liên
quan tới biến Dichotomy
– Gán nhãn các giá trị của biến Dichotomy
6namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
CHUYỂN ĐỊNH DẠNG CỦA BIẾN
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Dữ liệu lỗi và các biện pháp khắc phục
• Các phương pháp làm sạch dữ liệu
7namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
DỮ LIỆU LỖI
• Lỗi mã hóa dữ liệu
• Lỗi nhập dữ liệu
• Lỗi về tính nhất quán của dữ liệu
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI MÃ HÓA DỮ LIỆU
• Mô tả
– Dữ liệu nhập không phản ánh đúng ý nghĩa của thông
tin do người được hỏi cung cấp
• Nguyên nhân
– Mã hóa sai thông tin do người được hỏi cung cấp
8namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI NHẬP DỮ LIỆU
• Mô tả
– Dữ liệu nhập không đúng với bảng mã theo thông tin do
người được hỏi cung cấp
• Nguyên nhân
– Mã đọc sai
– Mã đọc đúng nhưng lỗi do đánh máy
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỖI NHẤT QUÁN DỮ LIỆU
• Mô tả
– Không nhất quán giữa các câu trả lời của cùng một đối
tượng được hỏi
• Nguyên nhân
– Lỗi mã hóa dữ liệu
– Lỗi nhập dữ liệu
– Lỗi do đối tượng được hỏi cung cấp sai thông tin
9namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU
• Nhập toàn bộ số liệu hai lần bởi hai người độc lập
• Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ
số liệu (chọn ngẫu nhiên) bởi hai người độc lập
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Sự cần thiết
– Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu,
nhập dữ liệu
– Đảm bảo tính nhất quán của dữ liệu
• Các biện pháp ngăn ngừa
– Thiết kế bảng câu hỏi rõ ràng, dễ trả lời
– Chọn lọc và huấn luyện điều tra viên
– Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập
10
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU
• Kết hợp sử dụng MS Excel và SPSS để phát hiện,
xử lý lỗi và làm sạch dữ liệu
– Sử dụng Excel (Max, Min, Auto Filter, Scatter)
– Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots)
• Quy trình thực hiện
– Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến
– Tìm bản ghi chứa giá trị “lạ”
– Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Ví dụ
– Sử dụng hàm MIN, MAX đối với biến Age
– Sử dụng công cụ AutoFilter đối với biến Gender
– Sử dụng đồ thị Scatter đối với biến Childrens
11
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng hàm MIN, MAX đối với biến Age
– Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18
đến 60
– Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng công cụ AutoFilter đối với biến Gender
– Biến Gender chỉ có hai giá trị Male và Female, những
giá trị khác (hoặc để trống) là lỗi nhập liệu
12
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI MS EXCEL
• Sử dụng đồ thị Scatter đối với biến Age
13
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Ví dụ
– Sử dụng công cụ Frequencies đối với biến Gender
– Sử dụng công cụ Charts đối với biến Literacy
– Sử dụng công cụ Histogram đối với biến Age
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
14
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Frequencies đối với biến Gender
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
15
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Charts đối với biến Literacy
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
B
iế
n
đ
ổ
i 
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LÀM SẠCH DỮ LIỆU VỚI SPSS
• Sử dụng công cụ Histogram đối với biến Age

File đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf