Bài giảng Hồi quy và tương quan - Nguyễn Chí Minh Trung

Nội dung chính:

1. Giới thiệu chung

2. Mô hình hồi quy

3. Phương trình hồi quy

4. Đánh giá phương trình hồi quy

5. Sử dụng mô hình hồi quy để ước lượng và dự đoán

6. Mô hình tương quan

pdf 41 trang yennguyen 4160
Bạn đang xem 20 trang mẫu của tài liệu "Bài giảng Hồi quy và tương quan - Nguyễn Chí Minh Trung", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Bài giảng Hồi quy và tương quan - Nguyễn Chí Minh Trung

Bài giảng Hồi quy và tương quan - Nguyễn Chí Minh Trung
Hồi quy và tương quan 
ThS. Nguyễn Chí Minh Trung 
Mục tiêu 
1. Phân tích được sự liên quan giữa hai biến 
định lượng thông qua biểu đồ 
2. Xây dựng và phiên giải đường hồi quy 
3. Tính và phiên giải được hệ số tương quan 
4. Kiểm định đường hồi quy 
Hồi quy và tương quan 
Nội dung chính: 
1. Giới thiệu chung 
2. Mô hình hồi quy 
3. Phương trình hồi quy 
4. Đánh giá phương trình hồi quy 
5. Sử dụng mô hình hồi quy để ước lượng và dự đoán 
6. Mô hình tương quan 
1. Giới thiệu 
Hồi quy (regression) : 
• Khẳng định mối liên hệ giữa hai biến số, 
• Dự đoán hoặc ước lượng giá trị của một biến số từ 
các giá trị của một hay nhiều biến số khác. 
Ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, .... 
Ý tưởng về hồi quy được nhà khoa học người Anh, 
Francis Galton (1822-1911) đưa ra lần đầu tiên trong 
nghiên cứu về di truyền – hình thể con người. 
1. Giới thiệu 
Tương quan (correlation). 
• Đo lường độ lớn của mối quan hệ giữa các biến 
số với nhau 
2. Mô hình hồi quy 
- cần đưa ra một dự đoán hoặc ước lượng giá trị của một 
biến số từ các giá trị của một hay nhiều biến số, 
- người nghiên cứu đưa ra được một mô hình toán học 
hoặc áp dụng được các mô hình để phân tích các quần 
thể này. 
- mô hình đó có, hoặc ít nhất là một xấp xỉ đại diện cho 
quần thể đó không 
- mô hình đó là một đại diện tốt nhất cho quần thể họ quan 
tâm 
2. Mô hình hồi quy 
Các giả thuyết cho mô hình hồi quy 
Trong mô hình hồi quy tuyến tính: 
+ X là một biến độc lập và bao giờ cũng được kiểm soát bởi 
người nghiên cứu. 
+ Y được biết đến là biến phụ thuộc (còn gọi là biến tiên 
lượng) 
2. Mô hình hồi quy 
Mô hình hồi quy dựa trên một số giả thuyết sau: 
1. Giá trị của biến X là cố định và có một số lượng giới hạn các 
giá trị 
2. Biến X được thu thập không có sai số, hoặc sai số rất 
3. Đối với mỗi giá trị của biến X thì ta sẽ xác định được một tập 
hợp giá trị của biến Y; tập hợp giá trị của Y có phân bố chuẩn. 
4. Tất cả các phương sai của các tập hợp giá trị Y là bằng nhau 
5. Tất cả các giá trị trung bình của tập hợp giá trị Y đều nằm trên 
một đường thẳng. 
6. Các giá trị của Y là độc lập với nhau 
2. Mô hình hồi quy 
2. Mô hình hồi quy 
• Mô hình tuyến tính 
 Y= + bX+ e 
• Trong đó 
Y = biến phụ thuộc 
X = biến độc lập 
 = giao điểm 
b = độ dốc 
e = giá trị sai số 
X 
Y 
b 
3. Phương trình hồi quy 
Các bước tiến hành một phân tích hồi quy 
1.Đánh giá xem các giả thuyết về mối liên hệ tương quan 
tuyến tính trong bộ số liệu để phân tích có thoả mãn không. 
2.Xác định phương trình đường hồi quy mô tả bộ số liệu đó 
một cách chính xác nhất 
3.Đánh giá phương trình hồi quy để xác định mức độ của 
mối tương quan và tính áp dụng của nó trong việc dự đoán 
và ước lượng. 
4.Nếu các số liệu được thể hiện tốt trong mô hình tuyến 
tính vừa xây dựng, sử dụng phương trình hồi quy để dự 
đoán và ước lượng các giá trị. 
3. Phương trình hồi quy 
Biểu đồ chấm điểm 
 gợi ý cho chúng ta 
được mối quan hệ tự nhiên 
của hai biến 
 đường thẳng nào trong 
các đường thẳng đó cho 
phép mô tả tốt nhất về mối 
liên hệ giữa hai biến X và 
Y? 
3. Phương trình hồi quy 
Đường bình phương tối thiểu (least-
square line) 
Là một đường thẳng mà từ đó tổng 
bình phương tới đường thẳng trung 
bình là nhỏ nhất (tối thiểu) 
Tính toán đường bình phương tối 
thiểu 



 


n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
i
i
n
i
ii
n
x
x
n
yx
yx
xx
yyxx
b
1
1
2
2
1
1 1
1
2
1
)(
))((
)(
))((
Tính các hệ số hồi quy từ mẫu 
xbya 
Ví dụ 
Kết quả đo vòng bụng (X) và độ dày mỡ bụng (Y) của 109 đàn ông 
ID X Y ID X Y ID X Y ID X Y ID X Y ID X Y 
1 74.75 25.72 21 76.85 36.6 41 83.5 73.13 61 77.6 57.05 81 103.5 132 101 106 151 
2 72.6 25.89 22 80.9 40.25 42 76 50.5 62 84.9 99.73 82 110 126 102 109.7 229 
3 81.8 42.6 23 79.9 35.43 43 80.5 50.88 63 79.8 27.96 83 110 153 103 115 253 
4 83.95 42.8 24 89.2 60.09 44 86.5 140 64 108.3 123 84 112 158 104 101 188 
5 74.65 29.84 25 82 45.84 45 80 96.54 65 119.6 90.41 85 108.5 183 105 100.1 124 
6 71.85 21.68 26 92 70.4 46 107.1 118 66 119.9 106 86 104 184 106 93.3 62.2 
7 80.9 29.08 27 86.6 83.45 47 94.3 107 67 96.5 144 87 111 121 107 101.8 133 
8 83.4 32.98 28 80.5 84.3 48 94.5 123 68 105.5 121 88 108.5 159 108 107.9 208 
9 63.5 11.44 29 86 78.89 49 79.7 65.92 69 105 97.13 89 121 245 109 108.5 208 
10 73.2 32.22 30 82.5 64.75 50 79.3 81.29 70 107 166 90 109 137 
11 71.9 28.32 31 83.5 72.56 51 89.8 111 71 107 87.99 91 97.5 165 
12 75 43.96 32 88.1 89.31 52 83.8 90.73 72 101 154 92 105.5 152 
13 73.1 38.21 33 90.8 78.94 53 85.2 133 73 97 100 93 98 181 
14 79 42.48 34 89.4 83.55 54 75.5 41.9 74 100 123 94 94.5 80.95 
15 77 30.96 35 102 127 55 78.4 41.71 75 108 217 95 97 137 
16 68.85 55.78 36 94.5 121 56 78.6 58.16 76 100 140 96 105 125 
17 75.95 43.78 37 91 107 57 87.8 55.85 77 103 109 97 106 241 
18 74.15 33.41 38 103 129 58 86.3 155 78 104 127 98 99 134 
19 73.8 43.35 39 80 74.02 59 85.5 70.77 79 106 112 99 91 150 
20 75.9 29.31 40 79 55.48 60 83.7 75.08 80 109 192 100 102.5 198 
Ví dụ 
xbxay 4557,39167,215ˆ 
Đường hồi qui 



 
n
i
n
i
i
i
n
i
n
i
n
i
ii
ii
n
x
x
n
yx
yx
b
1
1
2
2
1
1 1
)(
))((
xbya 
Ví dụ 
Kết quả từ excel 
SUMMARY OUTPUT 
Regression Statistics 
Multiple R 0.81730461 
R Square 0.66798682 
Adjusted R Square 0.66488389 
Standard Error 33.2575684 
Observations 109 
ANOVA 
 df SS MS F Significance F 
Regression 1 238109.8 238109.8 215.2764 2.26E-27 
Residual 107 118349 1106.066 
Total 108 356458.9 
 Coefficients 
Standard 
Error t Stat P-value Lower 95% Upper 95% 
Intercept -215.916652 21.87322 -9.87128 9.99E-17 -259.278 -172.556 
X Variable 1 3.45569752 0.235525 14.6723 2.26E-27 2.988796 3.922599 
xy 4557,39167,215ˆ 
Đường hồi quy mô tả mối quan hệ giữa 
vòng bụng và độ dày mỡ bụng là: 
Ví dụ 
độ dày mỡ bụng = -215,9167 + 3,4557* vòng bụng 
0
50
100
150
200
250
300
0 20 40 60 80 100 120 140
đ
ộ
 d
à
y
 m
ỡ
 b
ụ
n
g
vòng bụng 
Biểu đồ chấm điểm thể hiện vòng 
bụng (X) và độ dày mỡ bụng (Y) của 
109 đàn ông 
Giá trị độ dốc (với mỗi một cm 
vòng bụng tăng lên thì độ dày 
mở bụng sẽ tăng 3,4557 cm2) 
Giá trị điểm cắt 
4. Đánh giá đường hồi qui 
• Phương pháp bình phương tối thiểu sẽ cho 
chúng ta đường hồi qui kể cả khi không có 
mối quan hệ tuyến tính giữa X và Y 
• Chúng ta cần phải đánh giá xem đường hồi 
qui có phải là tốt nhất hay không? 
• Chúng ta đánh giá độ dốc (slope) của đường 
hồi qui. 
4. Đánh giá đường hồi qui 
Có mối quan hệ tuyến tính 
(độ dốc khác 0) 
Không có mối quan hệ tuyến tính, 
hoặc mối quan hệ chưa đủ mạnh 
(độ dốc bằng 0) 
độ dốc (slope) của đường hồi qui. 
 4. Đánh giá đường hồi qui 
H0: b = 0 
H1: b ≠ 0 
Kiểm định được sử dụng: 
thống kê này sẽ có phân bố t-student với df=n-2 
bs
b
t
b 
 
2
2
)( xx
s
s
i
btrong đó 
  
 2222 )()(
2
1
xxbyy
n
s ii
Kiểm định giả thuyết H0: b=0 với kiểm định t 
4. Đánh giá đường hồi qui 
Ví dụ: Kiểm định giả thuyết thống kê về mối quan hệ tuyết 
tính giữa giữa vòng bụng và độ dày mỡ bụng, sử dụng = 
5%. 
 Bác bỏ giả thuyết H0 vì giá trị 14,6723 > 1,9824 
+Kết luận: giá trị độ dốc của đường hồi quy khác 0 và 
phương trình hồi quy này đã mô tả tốt mối liên quan giữa 
biến X và Y. 
+Phiên giải kết quả: Mô hình hồi qui có thể giúp ước lượng 
tốt lớp mỡ bụng thông qua chỉ số vòng bụng. 
6723,14
2355,0
04557,3
bs
b
t
b
 4. Đánh giá đường hồi qui 
b+t(1- /2)sb 
• Trong ví dụ trên, khoảng tin cậy 95% của giá trị b sẽ là 
• 3,4557 + 1,9824 (0,2355) và bằng (2,9888; 3,9226) 
• Chúng ta sẽ phiên giải giá trị khoảng tin cậy như sau: có 
thể 95% chắc chắn rằng giá trị b sẽ nằm trong khoảng 
từ 2,9888 tới 3,9226. 
Khoảng tin cậy 100(1- )% cho giá trị b 
4. Đánh giá đường hồi qui 
Để đo lường độ mạnh của mối quan hệ 
tuyến tính chúng ta dùng hệ số xác định 
SST
SSR
yy
yy
R 


2
2
2
)(
)ˆ(
Hệ số xác định 
Hệ số xác định 
• Sự biến thiên của các giá trị quan sát và 
giá trị trung bình: 
Tổng biến thiên của Y (SST) 
Mô hình hồi qui (SSR) 
Sai số (SSE) 
Hệ số xác định 
x1 x2 
y1 
y2 
y 
Hai điểm số liệu (x1,y1) và (x2,y2) 
 22
2
1 )yy()yy(
2
2
2
1 )yyˆ()yyˆ( 
2
22
2
11 )yˆy()yˆy( 
Tổng biến thiên y = Biến thiên lý giải bằng 
đường hồi qui 
+ Phần chưa lý giải (sai số) 
biến thiên của y = SSR + SSE 
Hệ số xác định 
• R2 đo lường tỷ lệ biến thiên của y được lý giải bằng 
sự biến thiên của x 




 
n
y
y
n
x
xb
yy
SSR
R
i
i
i
i
i
2
2
2
22
2
2
)(
)(
(
)(
• R2 có giá trị từ 0 đến 1 
R2 = 1: lý tưởng, đường hồi qui trùng với các điểm số 
liệu. 
R2 = 0: không có mối liên hệ giữa x và y. 
Ví dụ 
SUMMARY OUTPUT 
Regression Statistics 
Multiple R 0.5813 
R Square 0.3379 
Adjusted R Square 0.3011 
Standard Error 0.5892 
Observations 20 
ANOVA 
 df SS MS F Sig. F 
Regression 1 3.1894 3.1894 9.1865 0.0072 
Residual 18 6.2493 0.3472 
Total 19 9.4387 
 Coef. SE t Stat P-value Lower 95% Upper 95% 
Intercept -8.4465 4.0611 -2.0798 0.0521 -16.9786 0.0856 
X Variable 1 0.0744 0.0245 3.0309 0.0072 0.0228 0.1260 
Hệ số xác định=0,3379, nghĩa 
là chỉ có 33,8% biến thiên của 
FEV được lý giải bằng sự biến
thiên của chiều cao (mô hình 
chưa phải là mô hình tốt) 
Sử dụng đường hồi qui 
• Nếu mô hình hồi quy là mô tả tốt cho mối 
quan hệ giữa hai biến chúng ta có thể 
dùng mô hình đó để dự đóan giá trị của y: 
– Ước lượng điểm 
– Ước lượng khỏang 
Ước lượng điểm 
• Ví dụ: 
– Ước lượng FEV của một sinh viên cao 187cm: 
y=-8,45+0,0744*187=5,46 lít 
– Một sinh viên cao 187cm sẽ có dung tích thở 
gắng sức là 5,46 lít 
– Kết quả này chính xác như thế nào? 
Ước lượng khoảng 
• Hai giá trị khỏang: 
– Ước lượng khỏang giá trị của y với một giá trị của 
x 
– Khỏang tin cậy – ước lượng trung bình của y với 
mỗi giá trị của x. 
 
 2
2
|)2/1(
)(
)(1
1ˆ
xx
xx
n
sty
i
p
xy 
 
 2
2
|)2/1(
)(
)(1
ˆ
xx
xx
n
sty
i
p
xy 
Kiểm định F cho mô hình hồi quy 
Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or 0) 
ANOVA 
 df SS MS F Sig. F 
Regression 
(SSReg) 
1 
SSReg/
df 
MSR/MSE 
Residual 
(SSRes) 
n-2 SST-SSReg 
SSRes/
df 
Total n-1 
Bác bỏ H0 nếu F>F1,n-2, 1- 
Không bác bỏ H0 nếu F< F1,n-2, 1- 
Hệ số tương quan 
• Hệ số tương quan (Coefficient of correlation) 
được sử dụng để đo lường độ lớn của mối quan 
hệ giữa hai biến số. 
Y 
X 
Y 
X 
Y 
X 
Y 
X 
Y 
X 
Ví dụ một số giá trị hệ số tương quan 
r = -1 r = -.6 r = 0 
r = .6 r = 1 
Cách tính 
• Công thức 
• Giá trị hệ số tương quan nằm trong khỏang -1 
đến 1 
– nếu r = -1 (mối tương quan nghịch) hoặc r = +1 (mối 
tương quan thuận) tất cả các điểm số liệu nằm trên 
đường hồi quy 
– nếu r = 0 không có mối tương quan 
  
  
 
nyy
nxxb
r
i
ii
/
/
22
222
Kiểm định giả thuyết cho r 
• Giả thuyết 
H0: = 0 (không liên quan) 
H1: 0 (có mối quan hệ tuyến tính) 
• Kiểm định 
2
2
r
t
r
n
 
với df = n - 2 
Ví dụ 
• Hệ số tương quan giữa 
FEV và chiều cao 
• Kiểm định 
H0: = 0 (không liên quan) 
H1: 0 (có mối quan hệ 
tuyến tính) 
t>t tra bảng=2,1 bác bỏ H0, 
có mối quan hệ tuyến tính 
giữa FEV và chiều cao, 
 
58,0
20/)1,77(6,306
20/)6,3307(2,547587)0744,0(
2
22
 r
02,3
220
58,01
058,0
2
 t
Mô hình tuyến tính – không 
tuyến tính 
Không tuyến tính, 
hồi quy bội 
Tuyến tính  
X 
 e e 
X 
Y 
X 
Y 
X 
Hồi quy đa biến 
• Có nhiều biến độc lập 
– y = b0+b1x1 + b2x2+ ....+bnxn+ e 
• Hồi quy logistics: 
– y = b0+b1x1 + b2x2+ ....+bnxn+ e 
– Trong đó y là biến phụ thuộc chỉ có hai giá trị 
có/không 
Tóm tắt 
• Hệ số tương quan: -> có/không, 
thuận/nghịch, mạnh yếu 
• Biểu đồ chấm điểm: 
• Mô hình hồi quy tuyến tính: Y= a + bX 
 Dự đoán: X tăng 1-> Y tăng b 
 Y0 tương ứng X0 nào đó 
Hệ số xác định: -> X chi phối ?% đến Y 
Sử dụng SPPP 
• Hệ số tương quan: 
Analyze\Correlate\Bivariate: 
• Biểu đồ chấm điểm: 
Graphs Lagacy Dialogs Scatter 
Dot Simple Scatter Define 
• Mô hình hồi quy tuyến tính: 
Analyze\Regression\Linear 

File đính kèm:

  • pdfbai_giang_hoi_quy_va_tuong_quan_nguyen_chi_minh_trung.pdf