Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu

NỘI DUNG

• Kiểm định mối liên hệ giữa hai biến định tính

• Kiểm định trung bình tổng thể

• Phân tích phương sai

• Tương quan tuyến tính

• Hồi quy tuyến tính

pdf 38 trang yennguyen 5940
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu

Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu
1PHÂN TÍCH DỮ LIỆU NGHIÊN 
CỨU VỚI SPSS
TIN HỌC ỨNG DỤNG
BÀI 6: PHÂN TÍCH DỮ LIỆU
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỤC TIÊU
• Hiểu và áp dụng được các phương pháp phân tích
dữ liệu phù hợp với yêu cầu nghiên cứu.
• Tổ chức và làm việc nhóm phân tích dữ liệu
nghiên cứu; làm báo cáo và trình bày kết quả
nghiên cứu.
2namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
NỘI DUNG
• Kiểm định mối liên hệ giữa hai biến định tính
• Kiểm định trung bình tổng thể
• Phân tích phương sai
• Tương quan tuyến tính
• Hồi quy tuyến tính
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH
• Kiểm định mối liên hệ giữa hai biến định danh hoặc
định danh – thứ bậc
• Kiểm định mối liên hệ giữa hai biến thứ bậc
3namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH
• Kiểm định mối liên hệ giữa hai biến định danh hoặc
định danh – thứ bậc
– Giả thuyết
• Ho: Không tồn tại mối liên hệ giữa hai biến
• H1: Hai biến có liên hệ với nhau
– Phương pháp
• Sử dụng kiểm định Chi – bình phương (χ2 với mức ý nghĩa α =
0.05
– Ví dụ
• Kiểm định mối liên hệ giữa trình độ học vấn và giới tính
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
4namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
5namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
Các đại lượng kiểm 
định dành cho hai 
biến định danh
Các đại lượng kiểm 
định dành cho hai 
biến thứ bậc
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
6namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH DANH
Do Sig. > α nên chấp 
nhận giả thuyết H0
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN ĐỊNH TÍNH
• Kiểm định mối liên hệ giữa hai biến thứ bậc
– Giả thuyết
• Ho: Không tồn tại mối liên hệ giữa hai biến
• H1: Hai biến có liên hệ với nhau
– Phương pháp
• Sử dụng kiểm định tau-b của Kendall, kiểm định d của Some,
kiểm định gamma của Goodman và Kruskal với mức ý nghĩa α
= 0.05
– Ví dụ
• Kiểm định mối liên hệ giữa độ tuổi và mức độ thanh toán thẻ
7namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN THỨ BẬC
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN THỨ BẬC
8namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
MỐI LIÊN HỆ GIỮA HAI BIẾN THỨ BẬC
Do Sig. > α nên chấp 
nhận giả thuyết H0
≠
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ
• So sánh trị trung bình của một tổng thể với một giá
trị cụ thể
• So sánh trị trung bình của hai nhóm tổng thể riêng
• So sánh trị trung bình của hai nhóm tổng thể riêng
biệt có đặc điểm các phần tử của hai nhóm có sự
tương đồng từng đôi một
• So sánh trị trung bình của nhiều nhóm tổng thể độc
lập
9namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRUNG BÌNH TỔNG THỂ
• So sánh trị trung bình của một tổng thể với một giá
trị cụ thể
– Ví dụ: Kiểm định giả thuyết “Độ tuổi trung bình của
khách hàng trả lương qua thẻ VCB là 35”.
– Quy trình thực hiện
• Dùng lệnh Select Case lọc ra các trường hợp khách hàng trả
lương qua thẻ VCB
• Gọi chức năng Analyze > Compare Means > One-Sample T-
Test
• Cung cấp biến kiểm định, giá trị trung bình kỳ vọng
• Chọn độ tin cậy
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
10
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
11
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
GIẢ THUYẾT H0 Tuổi trung bình của chủ thẻ lương VCB là 35
12
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH GIẢ THUYẾT TRỊ TRUNG BÌNH CỦA MỘT 
TỔNG THỂ
Số lượng quan sát Giá trị trung bình
Giá trị kiểm định t
Mức ý nghĩa 0.00 < 0.01
Bác bỏ giả thuyết H0
KẾT LUẬN: Tuổi trung bình của chủ thẻ lương VCB trên 35
GIẢ THUYẾT H0 Tuổi trung bình của chủ thẻ lương VCB là 35
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ
• Kiểm định trị trung bình của hai tổng thể - trường
hợp mẫu độc lập
• Kiểm định trị trung bình của hai mẫu phụ thuộc
hoặc phối hợp từng cặp
13
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU ĐỘC LẬP
• Ví dụ
– Giả thuyết H0: Tuổi trung bình của khách hàng nam và
nữ là ngang nhau
• Quy trình thực hiện
– Gọi chức năng Analye > Compare Means >
Independent-samples T Test
– Cung cấp các biến định lượng (tính trung bình), biến
định tính (phân thành hai nhóm độc lập)
– Chỉ định hai nhóm cần so sánh
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU ĐỘC LẬP
14
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU ĐỘC LẬP
Kiểm định sự bằng nhau về 
phương sai của hai mẫu 
(Levenve’s Test)
Sig phương sai hai mẫu 
khác nhau => sử dụng “Equal 
variances not assumed”
Sig > 5% => phương sai hai mẫu 
bằng nhau => sử dụng “Equal 
variances assumed”
GIẢ THUYẾT H0: Tuổi trung bình giữa nam và nữ là bằng nhau
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU ĐỘC LẬP
Kết quả kiểm định sự bằng nhau 
về trị trung bình của hai mẫu
Sig > 5% => phương sai hai mẫu 
bằng nhau => sử dụng “Equal 
variances assumed”
Sig Bác bỏ giả thuyết H0
KẾT LUẬN: Tuổi trung bình giữa nam và nữ là khác nhau
GIẢ THUYẾT H0: Tuổi trung bình giữa nam và nữ là bằng nhau
15
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP
• Nguyên lý
– Dữ liệu ở dạng thang đo khoảng cách hoặc tỷ lệ
– Tính toán chênh lệch trên từng cặp quan sát
– Kiểm định giả thuyết H0 “chênh lệch trung bình của tổng
thể bằng 0”
• Ví dụ
– Cảm nhận của khách hàng trước và sau khi Ngân hàng
triển khai Cam kết chất lượng dịch vụ (SLAs)
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP
• Quy trình thực hiện
– Gọi chức năng Analye > Compare Means > Paired-
Samples T Test
– Cung cấp cặp biến phối hợp
– Điều chỉnh độ tin cậy (nếu cần)
16
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH TRỊ TRUNG BÌNH CỦA HAI TỔNG THỂ -
TRƯỜNG HỢP MẪU PHỐI HỢP TỪNG CẶP
GIẢ THUYẾT H0: Cảm nhận của khách hàng là không đổi
Sig Bác bỏ giả thuyết H0
KẾT LUẬN: Cảm nhận của khách hàng có thay đổi
17
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI
• Nguyên lý
– Mở rộng kiểm định t – kiểm định nhiều nhóm mẫu cùng một lúc
– Các nhóm mẫu phải có cùng phương sai
• Phân loại
– ANOVA một yếu tố (một biến phân loại)
– ANOVA nhiều yếu tố (nhiều biến phân loại)
• Ví dụ
– Giả thuyết H0: Không có sự khác biệt về mức độ thanh toán bằng
thẻ giữa các nhóm tuổi khác nhau
– Giả thuyết H0: Không có ảnh hưởng của nhóm tuổi và trình độ học
vấn đối với mức độ thanh toán bằng thẻ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
• Quy trình thực hiện
– Gọi thực hiện Analyze > Compare Means > One-Way
ANOVA
– Cung cấp biến phụ thuộc, biến phân loại
– Thiết lập các tính toán thống kê mô tả, kiểm định sự
bằng nhau của các nhóm
18
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
GIẢ THUYẾT H0: Không có sự khác nhau về thanh toán bằng thẻ
Kiểm tra điều kiện áp dụng 
ANOVA: phương sai bằng nhau 
giữa các nhóm mẫu Sig > 0.05 => phủ định H0 => 
phương sai bằng nhau
Sig > 5% => Chấp nhận giả 
thuyết H0
KẾT LUẬN: Không có sự khác nhau về thanh toán bằng thẻ
19
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
• Phân tích sâu ANOVA
– Kiểm định trước (Contrasts)
• Kiểm định các giả định về trung bình nhóm trước khi phân tích
ANOVA
– Kiểm định sau (Post Hoc)
• Kiểm định các giả định về trung bình nhóm sau khi phân tích
ANOVA
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Thực hiện kiểm định t cho từng 
cặp trung bình nhóm
Giống LSD, tiến hành so sánh bội 
trên số lần tiến hành so sánh
Sử dụng bảng phân phối 
Studentizze range distribution
Kiểm định lại toàn bộ các trị trung bình 
nhóm. Nếu không bằng nhau thì kiểm 
tra các nhóm nào có sự khác biệt So sánh trị trung bình của các nhóm 
với trị trung bình của một nhóm cụ thể 
được chọn
20
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
Trị trung bình của 4 nhóm đầu 
bằng với nhóm cuối cùng
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ
21
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN TÍCH PHƯƠNG SAI HAI YẾU TỐ
Giả định phương sai các nhóm 
bằng nhau không bị vi phạm => 
kiểm định ANOVA có ý nghĩa
Chấp nhận giả thuyết H0
GIẢ THUYẾT H0: Không có sự khác nhau về thanh toán bằng thẻ
KẾT LUẬN: Không có sự khác nhau về thanh toán bằng thẻ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
• Nguyên lý
– Kiểm định mối liên hệ giữa nhiều biến định lượng
• Phân loại
– Hệ số tương quan đơn
– Hệ số tương quan hạng
22
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
• Hệ số tương quan đơn (r)
– Tên đầy đủ Pearson Correlation Coefficient
– Áp dụng trong trường hợp tổng thể có phân phối chuẩn
– Lượng hóa mức độ chặt chẽ của mối liên hệ tuyến tính giữa
hai biến định lượng
– Mối liên hệ giữa hai biến có thể
• Không có liên hệ (r = 0)
• Liên hệ tuyến tính thuận (r > 0)
• Liên hệ tuyến tính nghịch (r < 0)
• Liên hệ phi tuyến (r = 0)
– Mối liên hệ này có tính chất đối xứng
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
• Quy trình thực hiện
– Gọi chức năng Analyze > Correlate > Bivariate
– Lựa chọn hai hay nhiều biến định lượng để phân tích
– Lựa chọn một (số) hệ số tính toán
– Lựa chọn loại kiểm định mức ý nghĩa
• Ví dụ
– Đo lường mối liên hệ giữa kết quả tuyển sinh đầu vào
và điểm trung bình học tập toàn khóa của sinh viên
23
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
Hệ số tương quan giữa hai biến là 
0.67 ở mức ý nghĩa nhỏ hơn 1%
24
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TƯƠNG QUAN TUYẾN TÍNH
• Hệ số tương quan hạng Spearman
– Tên đầy đủ Rank Correlation Coefficient
– Áp dụng trong trường hợp tổng thể không có phân phối
chuẩn
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH
• Nguyên lý
– Mô hình hóa mối quan hệ tuyến tính (bậc nhất) giữa một biến
phụ thuộc với nhiều biến độc lập (biến giải thích)
– Không có tính chất đối xứng như tương quan tuyến tính
• Phân loại
– Hồi quy tuyến tính đơn
– Hồi quy tuyến tính bội
• Ví dụ
– Tác động của kết quả tuyển sinh đầu vào đối với điểm trung
bình học tập toàn khóa của sinh viên
25
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH ĐƠN
• Mô hình tổng quát
Trong đó
– Xi là giá trị quan sát thứ i của biến độc lập
–  là giá trị dự đoán thứ i của biến phụ thuộc
– Bo và B1 là hệ số hồi quy; phương pháp bình phương
nhỏ nhất (OLS) xác định hai hệ số này
=   	 ∗ 
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH ĐƠN
• Một số giả định
– Phân phối chuẩn của biến phụ thuộc Y với phương sai không
đổi
– Các giá trị của Y độc lập với nhau
– Các giá trị trung bình    nằm trên một đường thẳng
– Phần dư
• Quy trình thực hiện
– Gọi thực hiện Analyze > Regression > Linear 
– Cung cấp biến phụ thuộc, biến độc lập
– Kiểm định các giả định của mô hình

     =  	  	 ∗ 
26
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH ĐƠN
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH ĐƠN
Đo lường mức độ phù hợp của mô 
hình đối với mẫu
Kiểm định mức độ phù hợp của 
mô hình đối với tổng thể (F lớn, 
Sig < 0.05)
Kiểm định ý nghĩa của các hệ số 
hồi quy (Sig < 0.05)
Hệ số hồi quy
KẾT LUẬN: = .   .  ∗ 
27
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH ĐƠN
• Kiểm tra các giả định
– Giả định liên hệ tuyến tính
– Giả định phương sai của sai số không đổi
– Giả định về phân phối chuẩn của phần dư
– Giả định về tính độc lập của sai số
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
GIẢ ĐỊNH LIÊN HỆ TUYẾN TÍNH
Các điểm ảnh phân bố ngẫu nhiên => giả định 
liên hệ tuyến tính không bị vi phạm
28
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHƯƠNG SAI CỦA SAI SỐ KHÔNG ĐỔI
GIẢ THUYẾT H0: Phương sai của sai số không đổi
GIẢ THUYẾT H0: Hệ số tương quan hạng Spearman cho hai biến 
Input_Score và ABSres bằng 0
Sig Bác bỏ giả thuyết H0
=> Phương sai của sai số thay đổi
KẾT LUẬN: Mô hình hồi quy tuyến tính không có giá trị
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)
29
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TÍNH ĐỘC LẬP CỦA SAI SỐ
Dò tìm những phần dư bất thường 
(quá nhỏ hoặc quá lớn)
Giả thuyết: Hệ số tương quan tổng thể của sai số bằng 0
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TÍNH ĐỘC LẬP CỦA SAI SỐ
• Quy tắc Durbin-Watson
• Tra bảng Durbin-Watson với 01 biến và 300 quan sát
(dL=1.75; dU=1.779)
•Đại lượng thống kê d=2.31∈(dU,4-dU) => chấp nhận giả
thuyết không có tự tương quan chuỗi bậc nhất
Có tự 
tương 
quan 
thuận 
(dương)
Không có 
kết luận
Chấp nhận giả thuyết 
không có tự tương 
quan chuỗi bậc nhất
Không có 
kết luận
Có tự tương 
quan nghịch 
(âm)
0 dL dU 2 4-dU 4-dL 4
30
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH BỘI
• Mô hình tổng quát
Trong đó
– Xki là giá trị quan sát thứ i của biến độc lập thứ k
–  là giá trị dự đoán thứ i của biến phụ thuộc
– βi là các hệ số hồi quy riêng phần
– Phần dư ei là biến độc lập ngẫu nhiên N(0,σ2)
=   	 ∗ 	   ∗  ⋯  ∗   

namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH BỘI
• Một số giả định
– Biến phụ thuộc có phân phối chuẩn đối với các biến độc
lập (biến giải thích)
– Không có biến giải thích nào là tổ hợp tuyến tính của
các biến giải thích còn lại
• Ví dụ
– Sự tác động của độ tuổi, trình độ học vấn, số thẻ ngân
hàng đối với mức độ thanh toán bằng thẻ
31
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HỒI QUY TUYẾN TÍNH BỘI
• Quy trình thực hiện
– Xem xét ma trận hệ số tương quan
– Xây dựng mô hình
– Đánh giá độ phù hợp của mô hình
– Kiểm định độ phù hợp của mô hình
– Giải thích các hệ số hồi quy riêng trong mô hình
– Xác định tầm quan trọng của các biến trong mô hình
– Lựa chọn biến cho mô hình
– Dò tìm các vi phạm giả định cần thiết
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
XEM XÉT MA TRẬN HỆ SỐ TƯƠNG QUAN
Hệ số tương quan giữa 
hai biến độc lập thấp
Hệ số tương quan giữa 
biến phụ thuộc với các 
biến độc lập tương đối cao
KẾT LUẬN: Có thể sử dụng các biến độc lập trong mô hình
32
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
XÂY DỰNG MÔ HÌNH HỒI QUY
Giúp xác định tầm quan trọng 
của mỗi biến trong mô hình
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
KIỂM ĐỊNH CÁC GIẢ THUYẾT
Mô hình giải thích được 71% các 
trường hợp được ghi nhận => độ 
phù hợp CAO
Sig < 0.01 chứng tỏ các hệ số hồi 
quy không đồng nhất 0, mô hình 
có thể sử dụng được
Các biến độc lập đều có 
ý nghĩa trong mô hình
33
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TẦM QUAN TRỌNG CỦA CÁC BIẾN
Hai biến này có ảnh hưởng 
đối với mô hình lớn hơn các 
biến còn lại
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
• Mục đích
– Lựa chọn hiệu quả các biến đưa vào mô hình
• Thực hiện
– Tăng dần số lượng các biến và kiểm giá mức độ phù
hợp của mô hình
34
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
KẾT LUẬN: Mô hình hai biến tốt hơn hẳn so với mô hình một biến
35
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
DÒ TÌM CÁC VI PHẠM GIẢ ĐỊNH
• Mục đích
– Kiểm tra tính hợp lệ của mô hình
• Nội dung
– Giả định liên hệ tuyến tính
– Giả định phương sai của sai số không đổi
– Giả định về phân phối chuẩn của phần dư
– Giả định về tính độc lập của sai số
– Giả định về hiện tượng đa cộng tuyến
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
GIẢ ĐỊNH LIÊN HỆ TUYẾN TÍNH
Các điểm ảnh phân bố ngẫu nhiên => giả định 
liên hệ tuyến tính không bị vi phạm
36
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHƯƠNG SAI CỦA SAI SỐ KHÔNG ĐỔI
KẾT LUẬN: Phương sai của sai số không đổi
Chấp nhận giả thuyết H0
GIẢ THUYẾT H0: Phương sai của sai số không đổi
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)
37
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TÍNH ĐỘC LẬP CỦA SAI SỐ
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
TÍNH ĐỘC LẬP CỦA SAI SỐ
• Quy tắc Durbin-Watson
• Tra bảng Durbin-Watson với 01 biến và 300 quan sát
(dL=1.75; dU=1.779)
•Đại lượng thống kê d=2.21∈(dU,4-dU) => chấp nhận giả
thuyết không có tự tương quan chuỗi bậc nhất
Có tự 
tương 
quan 
thuận 
(dương)
Không có 
kết luận
Chấp nhận giả thuyết 
không có tự tương 
quan chuỗi bậc nhất
Không có 
kết luận
Có tự tương 
quan nghịch 
(âm)
0 dL dU 2 4-dU 4-dL 4
38
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
HIỆN TƯỢNG ĐA CỘNG TUYẾN
KẾT LUẬN: Không xảy ra hiện tượng đa cộng tuyến
namth@buh.edu.vn 
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
tí
c
h
d
ữ
li
ệ
u
n
g
h
iê
n
c
ứ
u
 những bước chập chững vào thế giới số 
ÔN TẬP
• Kiểm định mối liên hệ giữa hai biến định tính
• Kiểm định trung bình tổng thể
• Phân tích phương sai
• Tương quan tuyến tính
• Hồi quy tuyến tính

File đính kèm:

  • pdfbai_giang_tin_hoc_ung_dung_bai_6_phan_tich_du_lieu.pdf