Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR

Abstract: Stock price prediction is an interesting

problem that has attracted much attention from both

investors and researchers. There are, however, not

many researchs in this field with Vietnam stock market

because this market is still nascent and high nonstationary. In this paper, we propose a hybrid

approach, which integrates Genetic Algorithm (GA)

with Support Vector Regression (SVR) to predict

Vietnam stock price. In this approach, GA solves two

problems simultaneously: finding SVR’s optimal

parameters and feature selection. Then, SVR’s optimal

parameters and selected features serve as input for

training SVR model. Our experimental results show

that the hybrid GA-SVR approach outperforms SVR,

Artificial Neural Network (ANN) and can be used in

practice to gain profit.

pdf 11 trang yennguyen 8060
Bạn đang xem tài liệu "Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR

Dự đoán giá cổ phiếu trên thị trường chứng khoán Việt Nam bằng phương pháp lai GA-SVR
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 12 - 
Abstract: Stock price prediction is an interesting 
problem that has attracted much attention from both 
investors and researchers. There are, however, not 
many researchs in this field with Vietnam stock market 
because this market is still nascent and high non-
stationary. In this paper, we propose a hybrid 
approach, which integrates Genetic Algorithm (GA) 
with Support Vector Regression (SVR) to predict 
Vietnam stock price. In this approach, GA solves two 
problems simultaneously: finding SVR’s optimal 
parameters and feature selection. Then, SVR’s optimal 
parameters and selected features serve as input for 
training SVR model. Our experimental results show 
that the hybrid GA-SVR approach outperforms SVR, 
Artificial Neural Network (ANN) and can be used in 
practice to gain profit. 
I. GIỚI THIỆU 
Dự đoán giá cổ phiếu là một bài toán thú vị thu 
hút được sự quan tâm của cả các nhà nghiên cứu lẫn 
các nhà đầu tư. Tuy nhiên, đây cũng là một bài toán 
rất khó bởi lẽ giá chứng khoán thường rất phức tạp và 
nhiễu loạn [8]. Đã có nhiều cố gắng dự đoán thị 
trường tài chính bằng phương pháp phân tích truyền 
thống cho đến kỹ thuật trí tuệ nhân tạo như logic mờ 
và đặc biệt là mạng nơ ron nhân tạo (ANN)[1]. ANN 
là kỹ thuật được sử dụng nhiều trong lĩnh vực này bởi 
nó có thể mô tả được mối quan hệ phi tuyến giữa đầu 
vào với đầu ra. Tuy nhiên, nhược điểm của ANN là dễ 
bị bẫy bởi cực trị cục bộ. Bên cạnh đó, ANN có số 
lượng tham số tự do lớn và thường phải chọn bằng 
phương pháp thử và sai [19]. 
Gần đây, cộng đồng nghiên cứu có xu hướng tập 
trung vào một kỹ thuật mới: hồi qui véc tơ hỗ trợ 
(Support Vector Regression - SVR) [3]. Nguồn gốc 
của SVR là máy véc tơ hỗ trợ (Support Vector 
Machine - SVM) [3]. SVM ban đầu được dùng cho bài 
toán phân lớp, về sau mở rộng cho bài toán hồi qui và 
gọi là SVR. Nhiều nghiên cứu gần đây cho thấy SVR 
cho kết quả tốt hơn ANN trong bài toán dự đoán giá 
cổ phiếu [8]. Đó là do SVR sử dụng nguyên lý tối 
thiểu hóa rủi ro cấu trúc nên có khả năng tổng quát 
hóa cao hơn ANN. Ngoài ra, số lượng tham số tự do 
của SVR cũng ít hơn so với ANN [8]. 
Khi sử dụng SVR, ta cần giải quyết hai vấn đề: 
xác định bộ tham số tối ưu cho SVR và chọn lựa các 
đặc trưng đầu vào. Trong bài toán dự đoán giá cổ 
phiếu, việc chọn lựa các đặc trưng đầu vào đóng vai 
trò rất quan trọng. Các đặc trưng đầu vào thường là chỉ 
số phân tích kỹ thuật. Hiện nay có khá nhiều chỉ số 
phân tích kỹ thuật (khoảng hơn 100), việc lựa chọn chỉ 
số phù hợp cho từng mã cổ phiếu là không đơn giản 
do chỉ số này có thể tốt cho cổ phiếu A nhưng chưa 
chắc đã tốt cho cổ phiếu B [13]. Rõ ràng, ta cần xây 
dựng một chiến lược lựa chọn các chỉ số quan trọng 
tương ứng với một mã cổ phiếu cụ thể. 
Để chọn đặc trưng đầu vào trong bài toán dự đoán 
giá cổ phiếu, Ince và Trafalis [13] sử dụng kỹ thuật 
phân tích thành phần chính (PCA). Huang và Wu [11] 
sử dụng GA. Huang và Tsai [9] dùng hệ số quyết định 
Dự đoán giá cổ phiếu trên thị trường chứng 
khoán Việt Nam bằng phương pháp lai GA-SVR 
A Hybrid GA-SVR Approach for Vietnam Stock Price Prediction 
Trần Trung Kiên, Bành Trí Thành, Nguyễn Hoàng Tú Anh 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 13 - 
r2. Chee [14] đề xuất phương pháp lai giữa F-Score và 
F_SSFS. Ý tưởng dùng GA để chọn lựa đặc trưng đầu 
vào cho SVM cũng đã được đề xuất trong một số bài 
toán áp dụng trên các loại dữ liệu khác [2], [12]. 
Việc xác định bộ tham số tối ưu cho SVR cũng 
quan trọng không kém bởi bộ tham số này sẽ ảnh 
hưởng đến độ chính xác dự đoán của mô hình SVR. 
Người ta thường sử dụng thuật toán Grid Search [7] để 
xác định bộ tham số tối ưu cho SVR. Tuy nhiên, thuật 
toán này tốn thời gian và hiệu quả không cao [10]. 
Nhằm nâng cao hiệu quả, Chen và Ho [5], Zhu và 
Wang [19] sử dụng GA để xác định bộ tham số SVR. 
Nhìn chung, các nghiên cứu trên chỉ tập trung vào 
giải quyết một trong hai vấn đề đã nêu của SVR. 
Chẳng hạn, các tác giả [12] đề xuất mô hình kết hợp 
giữa GA và SVM, trong đó GA được dùng để chọn 
lựa các đặc trưng đầu vào, còn các tham số SVM được 
chọn cố định. Còn [5] kết hợp GA và SVR, trong đó 
GA được dùng để xác định bộ tham số tối ưu của 
SVR, các đặc trưng đầu vào được chọn bằng phương 
pháp thử và sai. 
Ngoài ra, các thị trường chứng khoán được thử 
nghiệm nhiều nhất là Mỹ và Trung Quốc. Với thị 
trường chứng khoán Việt Nam, hiện tại có khá ít các 
nghiên cứu áp dụng kỹ thuật máy học để dự đoán bởi 
vì thị trường này vẫn còn non trẻ và kém ổn định. 
Trong bài báo này, chúng tôi đề xuất phương pháp 
lai GA-SVR để dự đoán giá cổ phiếu ở thị trường 
chứng khoán Việt Nam. Trong phương pháp lai này, 
GA thực hiện đồng thời hai nhiệm vụ: xác địnhbộ 
tham số tối ưu của SVR và lựa chọn các chỉ số kỹ 
thuật quan trọng nhất để thiết lập đầu vào. Sau đó, bộ 
tham số tối ưu và các chỉ số kỹ thuật được chọn sẽ 
được huấn luyện với SVR để cho ra mô hình dự đoán. 
Các phần tiếp theo được trình bày như sau: phần II 
trình bày các lý thuyết nền tảng, phần III trình bày 
phương pháp đề xuất, phần IV trình bày kết quả thử 
nghiệm và cuối cùng là kết luận. 
II. LÝ THUYẾT NỀN TẢNG 
1. SVR và các tham số của SVR[3] 
Ý tưởng cơ bản của SVR là ánh xạ phi tuyến tập 
dữ liệu {(x1, y1), (x2, y2), , (xN, yN)} sang 
một không gian đặc trưng nhiều chiều mà ở đó có thể 
sử dụng phương pháp hồi qui tuyến tính. Đặc điểm 
của SVR là khi xây dựng hàm hồi qui ta không cần sử 
dụng hết tất cả các điểm dữ liệu trong tập huấn luyện. 
Những điểm dữ liệu có đóng góp vào việc xây dựng 
hàm hồi qui được gọi là những vectơ hỗ trợ. 
Hàm hồi qui của SVR như sau: 
 (1) 
Trong đó, là véc tơ trọng số, là 
hằng số, là véc tơ đầu vào, là véc 
tơ đặc trưng. 
Để tìm w và b, SVR giải quyết bài toán tối ưu hóa 
sau: 
Cực tiểu hóa hàm: 
 (2) 
Với các ràng buộc: 
Với i = 1, 2, , N 
Trong đó, C là hằng số chuẩn hóa đóng vai trò cân 
bằng giữa độ lỗi huấn luyện và độ phức tạp mô hình. 
Hình 1 minh họa SVR với hàm lỗi . 
Đường nét liền ở giữa ứng với đường dự đoán. Giá trị 
 xác định độ rộng của ống bao quanh đường dự 
đoán. Nếu giá trị đích yi nằm trong ống này thì coi như 
độ lỗi bằng 0. Nếu giá trị đích yi nằm ngoài ống này 
thì độ lỗi bằng (nếu yi nằm ngoài phía trên ống) 
hoặc (nếu yi nằm ngoài phía dưới ống) 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 14 - 
Hình 1. Minh họa hàm lỗi của thuật toán SVR [16] 
Từ (2) dùng hàm Lagrange và điều kiện Karush-
Kuhn-Tucker, ta có bài toán tối ưu hóa tương đương: 
Cực đại hóa: 
 (3) 
Với các ràng buộc: 
Trong đó, các nhân tử Lagrange phải thỏa 
. Véc tơ trọng tối ưu sẽ có dạng: 
. Từ đây, ta có hàm hồi 
qui của SVR: 
 (4) 
Trong đó, K(xi, xj) được gọi là hàm nhân và có giá 
trị bằng tích vô hướng của hai véc tơ đặc trưng 
. Bất kỳ một hàm nào thỏa điều kiện 
Mercer thì đều có thể được dùng làm hàm nhân. Hàm 
nhân được sử dụng phổ biến nhất là hàm Gaussian: 
 (5) 
Như vậy, với SVR sử dụng hàm lỗi 
và hàm nhân Gaussian ta có ba tham số cần tìm: hệ số 
chuẩn hóa C, tham số của hàm nhân Gaussian và 
độ rộng của ống . Cả ba tham số này đều ảnh hưởng 
đến độ chính xác dự đoán của mô hình và cần phải 
chọn lựa kỹ càng. Nếu C quá lớn thì sẽ ưu tiên vào 
phần độ lỗi huấn luyện, dẫn đến mô hình phức tạp, dễ 
bị quá khớp. Còn nếu C quá nhỏ thì lại ưu tiên vào 
phần độ phức tạp mô hình, dẫn đến mô hình quá đơn 
giản, giảm độ chính xác dự đoán. Ý nghĩa của cũng 
tương tự C. Nếu quá lớn thì có ít vectơ hỗ trợ, làm 
cho mô hình quá đơn giản. Ngược lại, nếu quá nhỏ 
thì có nhiều vectơ hỗ trợ, dẫn đến mô hình phức tạp, 
dễ bị quá khớp. Tham số phản ánh mối tương quan 
giữa các vectơ hỗ trợ nên cũng ảnh hưởng đến độ 
chính xác dự đoán của mô hình. 
2. Thuật giải di truyền (GA) [6] 
Thuật giải di truyền là một thuật toán tìm kiếm 
giải pháp tối ưu dựa trên nguyên lý chọn lọc tự nhiên 
của Darwin và cơ chế di truyền trong sinh học. GA 
làm việc với một tập các giải pháp, được gọi là quần 
thể; mỗi giải pháp được gọi là cá thể và được diễn 
bằng một nhiễm sắc thể (chuỗi bit). Tương tự như quá 
trình tiến hóa trong tự nhiên, ở mỗi vòng lặp ta có ba 
hoạt động: lai ghép (crossover), đột biến (mutation) và 
chọn lọc (selection). Trong đó, lai ghép là quá trình 
hai nhiễm sắc thể cha mẹ tạo ra hai nhiễm sắc thể con 
bằng cách trao đổi một đoạn gene ngẫu nhiên cho 
nhau.Bằng cách này, ta tạo ra được những cá thể mới 
và do đó, mở rộng vùng không gian tìm kiếm. Đột 
biến đơn giản là sự thay đổi một bit nào đó trong chuỗi 
bit nhiễm sắc thể từ 0 thành 1 hoặc từ 1 thành 0. Điều 
này giúp thuật toán có thể nhảy ra khỏi vùng tối ưu 
cục bộ. Cuối cùng, chọn lọc giúp giữ lại những cá thể 
tốt nhất. Mỗi cá thể cần có một giá trị đi kèm gọi là độ 
thích nghi. Độ thích nghi này được định nghĩa tùy theo 
từng bài toán cụ thể. 
Hình 2. Vòng lặp GA 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 15 - 
Hình 2 minh họa cho vòng lặp tiến hóa của GA. 
Thuật toán sẽ dừng sau một số vòng lặp xác định trước 
hoặc khi thỏa điều kiện dừng nào đó. 
3. Tìm các tham số SVR với Grid Search [7] 
Như đã trình bày ở trên, với SVR sử dụng hàm lỗi 
 và hàm nhân Gaussian ta có 3 tham số 
cần tìm: hệ số chuẩn hóa C, tham số của hàm nhân 
Gaussian và độ rộng của ống . Cách phổ biến để tìm 
3 tham số này là dùng Grid Search kết hợp với đánh 
giá chéo (k-fold crossvalidation). Grid Search đơn 
giản là phương pháp thử các bộ (C, , ) khác nhau 
và chọn ra bộ cho độ lỗi đánh giá chéo nhỏ nhất. 
Người ta thường dùng phương pháp tăng dần theo số 
mũ. Chẳng hạn C = 2-6, 2-5, , 28; = 2-8, 2-7, , 26; 
= 2-11, 2-10, , 2-1. Như vậy, C có 15 giá trị, có 15 
giá trị, có 11 giá trị. Tổng cộng ta phải thử 
15×15×11 = 2475 lần với đánh giá chéo. 
Do tiến hành Grid Search như vậy sẽ rất tốn thời 
gian nên thông thường Grid Search được chia làm 2 
bước: bước một tìm kiếm với một lưới thưa (chẳng 
hạn C = 2-6, 2-4, , 28; = 2-8, 2-6, , 26; 
= 2-11, 2-9, , 2-1. Như vậy số lần thử chỉ còn 8×8×6 
= 384). Sau khi đã tìm được một bộ tham số tốt nhất, 
bước hai tìm kiếm với một lưới dày hơn ở vùng lận 
cận của bộ tham số tốt nhất này. 
Ở đây, việc đánh giá chéo được thực hiện trên tập 
huấn luyện. Sau khi đã tìm ra được bộ tham số tốt nhất 
bằng Grid Search, bộ tham số này được dùng để huấn 
huyện SVR với toàn bộ tập huấn luyện và cho ra mô 
hình dự đoán cuối cùng. 
III. DỰ ĐOÁN GIÁ CỔ PHIẾU VỚI PHƯƠNG 
PHÁP LAI GA-SVR 
Trong phần này, chúng tôi trình bày phương pháp 
lai GA-SVR đề xuất áp dụng cho bài toán dự đoán giá 
cổ phiếu. Trong phương pháp này, đầu tiên GA được 
dùng để tìm bộ tham số tối ưu cho SVR và chọn lựa 
các đặc trưng đầu vào (các chỉ số kỹ thuật). Sau đó, bộ 
tham số tối ưu của SVR và các đặc trưng đầu vào tìm 
được sẽ dùng để huấn luyện SVR và cho ra mô hình 
dự đoán. 
Hệ thống của chúng tôi gồm có hai phần chính: 
module huấn luyện và module dự đoán. 
1. Module huấn luyện 
Hình 3 mô tả module huấn luyện. Một cách tổng 
quan nhất, đầu vào của module này là dữ liệu ban đầu, 
kết quả đầu ra gồm có 3 thành phần: thông tin chuẩn 
hóa, các chỉ số kỹ thuật được chọn và mô hình dự 
đoán SVR. 
Hình 3. Module huấn luyện 
Đầu tiên, từ dữ liệu ban đầu gồm giá mở cửa, giá 
cao nhất, giá thấp nhất, giá đóng cửa và khối lượng 
giao dịch, hệ thống tiến hành tiền xử lý dữ liệu. Bước 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 16 - 
tiền xử này bao gồm tính toán các chỉ số kỹ thuật, thiết 
lập đầu vào, đầu ra và chuẩn hóa dữ liệu. Kết quả của 
quá trình tiền xử lý là dữ liệu đã xử lý và thông tin 
chuẩn hóa. Thông tin chuẩn hóa này sẽ được dùng 
trong module dự đoán. 
Sau đó, dữ liệu đã xử lý sẽ đưa vào GA. Kết quả 
đầu ra của GA gồm có các chỉ số kỹ thuật được chọn 
và bộ tham số tối ưu của SVR. Cuối cùng, chúng sẽ 
dùng để huấn luyện SVR và cho ra mô hình dự đoán. 
Phần dưới đây sẽ trình bày chi tiết về bước tiền xử lý, 
cách biểu diễn nhiễm sắc thể và qui trình tính độ thích 
nghi của nhiễm sắc thể. 
a. Tiền xử lý 
Bước tiền xử lý gồm có hai phần: thiết lập đầu 
vào, đầu ra và chuẩn hóa dữ liệu. 
Thiết lập đầu vào, đầu ra: 
Đầu vào của hệ thống bao gồm các chỉ số phân 
tích kỹ thuật sau: Giá đóng cửa, Bollinger Bands (20, 
2) với Middle Band, Upper Band và Lower Band, 
EMA(5), MACD(12, 26, 9) với giá trị của MACD và 
Signal Line, RSI(7), ROC-1, ROC-2, ROC-3, ROC-4, 
ROC-5. Tất cả tạo thành véc tơ đầu vào 13 chiều. Đây 
là các chỉ số thường được sử dụng trong phân tích kỹ 
thuật. Chi tiết về các chỉ số này được trình bày ở phần 
Phụ lục. 
Về đầu ra, ta có thể chọn đầu ra là giá đóng cửa 
của ngày kế tiếp. Tuy nhiên, theo [15] việc chọn đầu 
ra là ROC+1 (Rate Of Change) sẽ cho kết quả dự đoán 
tốt hơn so với việc chọn đầu ra là giá đóng cửa. Giá trị 
ROC+1 cho ta biết giá đóng cửa ngày mai tăng hay 
giảm bao nhiêu % so với giá đóng cửa ngày hôm nay. 
Hệ thống sử dụng ROC+1 là kết quả đầu ra. Công 
thức tính của ROC+1 như sau: 
ROC+1 (6) 
Trong đó, Ct là giá đóng cửa của ngày thứ t và Ct+1 
là giá đóng cửa của ngày thứ t+1. 
Chuẩn hóa dữ liệu: 
Tất cả các đặc trưng đầu vào được chuẩn hóa về 
[0, 1] theo công thức: 
 (7) 
Trong đó, xa là giá trị ban đầu của đặc trưng a, 
mina là nhỏ trị nhỏ nhất của đặc trưng a, maxa là giá trị 
lớn nhất của đặc trưng a và x’a là giá trị sau khi chuẩn 
hóa của đặc trưng a. Hai lợi ích chính của việc chuẩn 
hóa này là các đặc trưng có miền giá trị lớn không lấn 
át các đặc trưng có miền giá trị nhỏ và tránh gặp phải 
các khó khăn trong quá trình tính toán [7]. Thông tin 
chuẩn hóa (mina, maxa) sẽ được lưu để dùng khi tiến 
hành dự đoán với đầu vào mới. 
b. Biễu diễn nhiễm sắc thể 
Trong phương pháp lai GA-SVR đề xuất, GA làm 
đồng thời hai việc: tìm các tham số tối ưu của SVR và 
chọn các đặc trưng đầu vào. Với SVR sử dụng hàm lỗi 
 và hàm nhân Gaussian ta có 3 tham số 
cần tìm: hệ số chuẩn hóa C, tham số của hàm nhân 
Gaussian và độ rộng của ống . Như vậy, một nhiễm 
sắc thể bao gồm 4 thành phần: C, , và mặt nạ các 
đặc trưng. Mỗi nhiễm sắc thể sẽ được biểu diễn bằng 
một chuỗi bit. Hình 4 minh họa cấu trúc nhiễm sắc 
thể, trong đó 3 phần đầu ứng với bộ tham số SVR và 
phần cuối ứng là mặt nạ các đặc trưng. 
Hình 4. Cấu trúc nhiễm sắc thể 
Phần bộ tham số SVR: 
Trong Hình 4, đoạn bit từ C1 đến CNc biễu diễn giá 
trị của C, từ g1 đến gNg biễu diễn giá trị của , từ e1 
đến eNe biễu diễn giá trị của . Nc, Ng, Ne lần lượt là 
số bit cần dùng để biểu diễn C, , . 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 17 - 
Từ chuỗi bit ứng với C, giá trị của C được tính 
theo công thức: 
 (8) 
Trong đó dC là giá trị thập phân của chuỗi bit ứng 
với C. Cách tính , hoàn toàn tương tự. 
Phần mặt nạ các đặc trưng: 
Số bit của phần này luôn bằng với số đặc trưng 
đầu vào, trong đó ta qui ước: bit 1 ứng với đặc trưng 
được chọn, bit 0 ứng với đặc trưng không được chọn. 
c. Qui trình tính độ thích nghi 
Qui trình tính độ thích nghi dùng để đánh giá một 
nhiễm sắc thể là tốt hay xấu. Đầu vào của qui trình này 
là chuỗi bit nhiễm sắc thể và kết quả đầu ra là độ thích 
nghi của nhiễm sắc thể đó. Nhiễm sắc thể có độ thích 
nghi càng lớn thì càng tốt, càng có nhiều cơ hội được 
giữ lại thông qua quá trình chọn lọc. 
Hình 5 mô tả qui trình tính độ thích nghi. Đầu 
tiên, chuỗi bit nhiễm sắc thể sẽ chuyển sang các tham 
số SVR và mặt nạ đặc trưng. Dựa vào mặt nạ đặc 
trưng, ta thiết lập tập huấn luyện với đầu vào bao gồm 
các đặc trưng được chọn. Kế đến, tập huấn luyện này 
và các tham số SVR sẽ dùng để chạy SVR với 5-fold 
cross validation. Hình 6 mô tả quá trình chạy SVR với 
5-fold cross validation. Tập huấn luyện được chia làm 
5 phần bằng nhau. Sau đó, cứ lần lượt 4 phần dùng để 
huấn luyện, 1 phần còn lại dùng để thử nghiệm. Khi 
đó, ta có hàm tính độ thích nghi như sau: 
 (9) 
Trong đó: x là nhiễm sắc thể, N là số mẫu của tập 
huấn luyện, an là giá trị thật, pn(x) là giá trị dự đoán có 
được thông qua quá trình chạy SVR với 5-fold cross 
validation (ứng với bộ tham số SVR và các đặc trưng 
được chọn có được từ nhiễm sắc thể x) 
Vì mỗi lần tính độ thích nghi phải chạy 5-fold 
cross validation nên quá trình chạy GA sẽ tốn nhiều 
thời gian. Để tăng tốc, chúng tôi lưu lại danh sách các 
nhiễm sắc thể đã từng tính độ thích nghi. Khi đưa một 
nhiễm sắc thể vào tính độ thích nghi, trước hết hệ 
thống kiểm tra nhiễm sắc thể đó có nằm trong danh 
sách này hay không, nếu có thì dùng lại độ thích nghi 
đã tính mà không cần chạy cross validation nữa. 
Hình 5. Qui trình tính độ thích nghi 
Hình 6. Qui trình chạy SVR 
với 5-fold cross validation 
Hình 7. Module dự đoán 
2. Module dự đoán 
Sau quá trình huấn luyện, thu được thông tin 
chuẩn hóa, các chỉ số kỹ thuật được chọn và mô hình 
dự đoán SVR. Hình 7 mô tả module dự đoán. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 18 - 
Trước tiên, giá trị đầu vào mới sẽ qua bước tiền xử 
lý gồm hai công việc: 
- Thiết lập lại đầu vào dựa vào các chỉ số kỹ thuật 
được chọn. 
- Chuẩn hóa đầu vào mới dựa vào thông tin chuẩn hóa. 
Đầu vào sau khi tiền xử lý được đưa vào mô hình 
dự đoán SVR. Kết quả dự đoán của mô hình SVR là 
giá trị ROC+1 được chuyển sang giá đóng cửa ở bước 
hậu xử lý và cho ra kết quả dự đoán cuối cùng. 
IV. KẾT QUẢ THỬ NGHIỆM 
1.Mô tả dữ liệu 
Bảng 1. Mô tả dữ liệu 
Mã Công ty phát 
hành 
Nhóm 
ngành 
Số ngày 
giao dịch 
ITA Công ty cổ phần 
đầu tư công 
nghiệp Tân Tạo 
Bất động 
sản 
996 
SAM Công ty cổ phần 
đầu tư và phát 
triển Sacom 
Công nghệ 
và thiết bị 
viễn thông 
994 
VIP Công ty cổ phần 
vận tải xăng dầu 
Vipco 
Vận tải 994 
Chúng tôi tiến hành thử nghiệm trên 3 mã cổ 
phiếu của sàn giao dịch TP Hồ Chí Minh1. Ba mã cổ 
phiếu này đại diện cho 3 nhóm ngành khác nhau. Cả 
ba mã đều được lấy từ ngày 2/1/2007 đến ngày 
31/12/2010, bao gồm khoảng gần 1000 ngày giao 
dịch. Chi tiết về dữ liệu được trình bày ở Bảng 1. 
Sau khi tiền xử lý, bộ dữ liệu được chia thành 2 
tập là tập huấn luyện và tập thử nghiệm, trong đó tập 
thử nghiệm bao gồm 100 ngày giao dịch gần đây nhất. 
2. Các độ đo chất lượng dự đoán 
Chúng tôi sử dụng hai độ đo là MAPE (Mean 
Absolute Percentage Error) và Hit Rate [18]. Trong 
đó, MAPE đo độ lỗi về mặt giá trị, MAPE càng nhỏ 
1www.cophieu68.com 
thì càng tốt. Hit Rate đo độ chính xác về mặt xu 
hướng, Hit Rate càng lớn thì càng tốt. 
Công thức tính của hai độ đo này như sau: 
 (10) 
(11) 
Trong đó: 
Với pn và an lần lượt là giá đóng cửa dự đoán và 
giá đóng cửa thực sự, cn là giá đóng cửa (thực sự) của 
ngày hiện tại, N là số mẫu của tập thử nghiệm. 
3. Kịch bản thử nghiệm và các tham số cài đặt 
Để đánh giá chất lượng của phương pháp lai GA-
SVR, chúng tôi so sánh kết quả dự đoán của phương 
pháp lai này với SVR sử dụng Grid Search để tìm bộ 
tham số tối ưu (Grid-SVR) và ANN. Do tính ngẫu 
nhiên của thuật giải di truyền, GA-SVR được thực thi 
5 lần rồi lấy giá trị trung bình. 
SVR trong cả hai phương pháp GA-SVR và Grid-
SVR đều giống nhau với hàm lỗi và 
hàm nhân Gaussian. Chúng tôi sử dụng thư viện 
LIBSVM [4] để thực thi SVR, thư viện AForge.NET2 
để thực thi GA và thư viện Neural Dot Net3 để thực thi 
ANN. 
Bảng 2 mô tả các tham số cài đặt của GA-SVR. 
Trong đó, kích thước quần thể và số vòng lặp tối đa 
được chọn thông qua thực nghiệm. Xác suất lai ghép 
và xác suất đột biến là các giá trị mặc định của thư 
viện thực thi GA. Miền giá trị của bộ tham số SVR 
được chọn dựa vào [17] và thực nghiệm. Số bit dùng 
để biểu diễn mỗi tham số SVR được chọn dựa vào 
miền giá trị của các tham số này. Với 20 bit dùng để 
biểu diễn mỗi tham số SVR, ta có chiều dài của một 
nhiễm sắc thể: 20 × 3 + 13 = 73 bit (với 3 là số lượng 
2 
3 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 19 - 
các tham số SVR, 13 là số lượng các đặc trưng đầu 
vào). 
Các tham số cài đặt của Grid-SVR được mô tả ở 
Bảng 3. Miền giá trị của bộ tham số SVR được chọn 
giống như GA-SVR. Bước tăng số mũ lưới thưa và 
lưới dày của Grid Search được chọn theo [7]. 
Bảng 4 mô tả các tham số cài đặt của ANN. 
Chúng tôi sử dụng mạng truyền thẳng 3 lớp, trong đó 
số node tầng ẩn được chọn thông qua thực nghiệm. Hệ 
số học là giá trị mặc định của thư viện thực thi ANN. 
Số vòng lặp tối đa được chọn thông qua thực nghiệm. 
Bảng 2. Các tham số cài đặt GA-SVR 
GA 
Kích thước quần thể 200 
Số vòng lặp tối đa 500 
Điều kiện dừng Đạt số vòng lặp tối đa 
Xác suất lai ghép 0.75 
Xác suất đột biến 0.10 
Miền giá trị của C [2-6, 28] 
Miền giá trị của [2-8, 26] 
Miền giá trị của [2-11, 2-1] 
Số bit biễu diễn mỗi tham 
số SVR 20 
Bảng 3. Các tham số cài đặt Grid-SVR 
Grid Search 
Miền giá trị của C [2-6, 28] 
Miền giá trị của [2-8, 26] 
Miền giá trị của [2-11, 2-1] 
Bước tăng số mũ của 
lưới thưa 
2 
Bước tăng số mũ của 
lưới dày 
0.25 
Bảng 4. Các tham số cài đặt ANN 
ANN 
Kiến trúc mạng 3 lớp 
Số node tầng ẩn 4 
Hàm kích hoạt Sigmoid 
Hệ số học Giảm dần qua mỗi vòng lặp từ 
0.3 đến 0.05 
Số vòng lặp tối đa 1000 
4. Kết quả thử nghiệm 
Bảng 4 so sánh kết quả dự đoán giữa GA-SVR, 
Grid-SVRvà ANN. Ta thấy ở cả 3 mã cổ phiếu, GA-
SVR luôn cho MAPE thấp hơn và Hit Rate cao hơn 
hai phương pháp còn lại. Hơn nữa, SVR luôn cho kết 
quả tốt dự đoán tốt hơn ANN. Điều này một lần nữa 
khẳng định tính vượt trội của SVR so với ANN trong 
bài toán dự đoán giá cổ phiếu, điều đã được nhiều 
nghiên cứu đề cập đến. 
Kết quả dự đoán theo độ đo Hit Rate của ba 
phương pháp GA-SVR, SVR-Grid và ANN được thể 
hiện bằng đồ thị ở hình 8. Hit Rate của phương pháp 
lai GA-SVR ở 3 mã cổ phiếu đạt 58.427%, 57.143% 
và 60.44%. Đây là tín hiệu khả quan cho thấy khả 
năng ứng dụng thực tế các kỹ thuật máy học để giải 
quyết bài toán dự đoán giá cổ phiếu trên thị trường 
chứng khoán non trẻ Việt Nam. 
Bảng 5. Kết quả dự đoán trung bình của GA-SVR, 
Grid-SVR và ANN 
Mã Phương pháp MAPE Hit Rate 
GA-SVR 2.45 58.427 
Grid-SVR 2.474 55.056 
ITA 
ANN 2.513 53.933 
GA-SVR 2.36 57.143 
Grid-SVR 2.368 56.044 
SAM 
ANN 2.382 54.945 
GA-SVR 2.712 60.44 
Grid-SVR 2.763 57.143 
VIP 
ANN 2.839 52.747 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 20 - 
Hình 9. Minh họa kết quả dự đoán mã VIP với phương pháp GA-SVR 
Hình 10. Thời gian huấn luyện của các phương pháp 
Hình 9 minh họa kết quả dự đoán mã VIP bằng 
phương pháp GA-SVR. Trong đó, các điểm được đánh 
dấu bằng hình thoi thể hiện cho giá đóng cửa thực sự 
và các điểm được đánh dấu bằng hình dấu cộng thể 
hiện cho giá đóng cửa dự đoán. 
Hình 10 cho thấy thời gian huấn luyện trung bình 
của các phương pháp. Phương pháp GA-SVR có thời 
gian huấn luyện trung bình lâu nhất trong 3 phương 
pháp. Tuy nhiên, đánh đổi lại là độ chính xác dự đoán. 
Về thời gian dự đoán, nhìn chung các phương pháp 
đều có thời gian dự đoán rất nhanh (thời gian dự đoán 
cho mỗi mẫu 0.15x10-3 giây). 
Chúng tôi cũng so sánh mô hình đề xuất GA-SVR 
với kết quả của Chen và Ho [5]. Ở đây, Chen và Ho sử 
dụng GA để tìm bộ tham số tối ưu của SVR. Đặc 
trưng đầu vào trong bài báo này là giá đóng cửa và số 
đặc trưng đầu vào được chọn một cách thủ công bằng 
phương pháp thử và sai. Dữ liệu được sử dụng là mã 
TAIEX (Taiwan Stock Exchange Market Weighted 
Index) được lấy từ ngày 2/1/2001 đến ngày 23/1/2003 
với 504 ngày giao dịch. Tập thử nghiệm bao gồm 100 
ngày giao dịch gần đây nhất và số ngày dự đoán kế 
tiếp là 1 ngày. Bảng 6 cho thấy phương pháp đề xuất 
của chúng tôi cho độ lỗi MAPE thấp hơn phương pháp 
của Chen và Ho trên bộ dữ liệu của mã TAIEX. 
Bảng 6. Kết quả theo độ đo MAPE của GA-SVR và 
phương pháp của Chen và Ho 
Độ đo Phương pháp 
 GA-SVR Chen và Ho[5] 
MAPE 1.308 1.316 
V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 
Bài báo này đề xuất phương pháp lai GA-SVR để 
dự đoán giá cổ phiếu Việt Nam. Trong phương pháp 
lai này, GA thực hiện đồng thời hai nhiệm vụ: xác 
định bộ tham số tối ưu cho SVR và chọn lựa các đặc 
trưng đầu vào. Kế đến, bộ tham số tối ưu và các đặc 
trưng đầu vào được chọn này sẽ được dùng để huấn 
luyện SVR. Kết quả thử nghiệm cho thấy phương 
pháp đề xuất cho kết quả dự đoán tốt hơn SVR, ANN 
và có khả năng ứng dụng thực tế trên thị trường chứng 
khoánViệt Nam, một thị trường còn non trẻ và kém ổn 
định. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 21 - 
Để chứng minh tính hiệu quả của phương pháp đề 
xuất, chúng tôi dự định tiếp tục thử nghiệm GA -SVR 
trên các mã cổ phiếu Việt Nam khác. Mặt khác, chúng 
tôi sẽ tiến hành thử nghiệm với các chỉ số phân tích kỹ 
thuật khác cũng như là tăng khoảng thời gian dự đoán 
từ 1 ngày kế tiếp lên 5-10 ngày kế tiếp. 
TÀI LIỆU THAM KHẢO 
[1] Abraham A. , Baikunth N., Mahanti P. K., 
Hybrid intelligent systems for stock market analysis, 
LNCS, Springer-Verlag, Vol. 2074, 2001, pp. 337–345. 
[2] Ang J.H., Teoh E.J., Tan C.H., Goh K.C., Tan 
K.C., Dimension reduction using evolutionary Support 
Vector Machines, IEEE Congress on Evolutionary 
Computation, 2008, pp. 3634-3641. 
[3] Bishop C.M., Pattern Recognition and Machine 
Learning, Springer, 2007. 
[4] Chang C-C., Lin C-J., LIBSVM: A library for 
Support Vector Machines. 
[5] Chen K-Y., Ho C-H., An Improved Support Vector 
Regression Modeling for Taiwan Stock Exchange 
Market Weighted Index Forecasting, ICNN&B’05, 
2005, Vol.3. 
[6] Goldberg D. E., Genetic Algorithms in Search, 
Optimization and Machine Learning, Addison-Wesley, 
1989. 
[7] Hsu C-W., Chang C-C., Lin C-J., A Practical 
Guide to Support Vector Classication. 
[8] Hsu S-H., Hsieh JJ.P-A., Chih T-C., Hsu K-C., A 
two-stage architecture for stock price forecasting by 
integrating self-organizing map and support vector 
regression, Expert Systems with Applications 36, 2009, 
pp. 7947–7951. 
[9] Huang C-L., Tsai C-Y., A hybrid SOFM-SVR with a 
filter-based feature selection for stock market 
forecasting, Expert Systems with Applications 36, 
2009, pp. 1529–1539. 
[10] Huang C-L., Wang C-J., A GA-based feature 
selection and parameters optimization for support 
vector machines, Expert Systems with Applications 31, 
2006, pp. 231–240. 
[11] Huang S-C., Wu T-K., Integrating GA-based time-
scale feature extractions with SVMs for stock index 
forecasting, Expert Systems with Applications 35, 
2008, pp. 2080–2088. 
[12] Huerta E.B., Duval B., Hao J-K., A Hybrid 
GA/SVM Approach for Gene Selection and 
Classification of Microarray Data, EvoWorkshops, 
2006, pp. 34-44. 
[13] Ince H., Trafalis T.B., Kernel Principal 
Component Analysis and Support Vector Machines for 
Stock Price Prediction, IIE Transactions on Quality and 
Reliability, 39(6), 2007, pp. 629-637. 
[14] Lee M-C., Using support vector machine with a hybrid 
feature selection method to the stock trend prediction, 
Expert Systems with Applications 36, 2009, pp. 10896–
10904. 
[15] Mager J., Paasche U., Sick B., Forecasting 
Financial Time Series with Support Vector Machines 
Based on Dynamic Kernels, IEEE Conference on Soft 
Computing in Industrial Applications, 2008, pp. 252-
257. 
[16] MingDa W., LaiBin Z., Wei L., YingChun Y., 
Research on the optimized support vector regression 
machines based on the differential evolution algorithm, 
ICIECS’2009, 2009, pp. 1-4. 
[17] Momma M., Bennett K. P., A pattern search 
method for model selection of support vector 
regression, SIAM Conference on Data Mining, 2002, 
pp. 261-274. 
[18] Nygren K., Stock Prediction – A Neural Network 
Approach, Master thesis, 2004. 
[19] Sapankevych N.I., Sankar R., Time Series 
Prediction Using Support Vector Machines: A Survey, 
IEEE Computational Intelligence Magazine, Vol. 4, 
No. 2, 2009, pp. 24-38. 
[20] Zhu M., Wang L., Intelligent trading using support 
vector regression and multilayer perceptrons optimized 
with genetic algorithms, IJCNN’2010, 2010, pp. 1-5. 
Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 7 (27), tháng 5/2012 
 - 22 - 
PHỤ LỤC 
Công thức tính của các chỉ số phân tích kỹ thuật4 
1. BB-Middle(20, 2): chỉ số Bollinger Band gồm có 3 
dải ứng với BB-Middle, BB-Upper và BB-Lower 
 (1) 
 (2) 
 (3) 
Trong đó,SMA20tvà SD20t lần lượt là trung bình và 
độ lệch chuẩncủa giá đóng cửa của 20 ngày trước 
ngày t (kể cả ngày t) 
2. EMA5 (Exponential Moving Average) 
 (4) 
Trong đó, Ct là giá đóng cửa ngày t, k là hệ số nhân: 
k = 2/(1+period) với period = 5 
3. MACD(12, 26) (Moving Average Convergence/ 
Divergence) 
 (5) 
4. MACD Signal 
MACD Signalt=EMA9t của MACD(12,26) (6) 
5. RSI7 (Relative Strength Index) 
 (7) 
Trong đó: 
Với Ck là giá đóng cửa ngày k 
6. ROC-p (Rate Of Change) 
 (8) 
Với Ck là giá đóng cửa ngày k 
Nhận bài ngày: 28/3/2011 
4www.stockcharts.com 
SƠ LƯỢC VỀ TÁC GIẢ 
TRẦN TRUNG KIÊN 
Ngày sinh 07/08/1989 
Tốt nghiệp Trường Đại học 
Khoa Học Tự Nhiên, Đại học 
Quốc gia Tp. HCM năm 2011. 
Hiện là trợ giảng tại Khoa 
CNTT, Trường Đại học Khoa 
học Tự nhiên, Đại học Quốc gia Tp. HCM 
Lĩnh vực quan tâm: máy học và ứng dụng. 
ĐT: 0976044860, Email: ttkien@fit.hcmus.edu.vn 
BÀNH TRÍ THÀNH 
Ngày sinh 16/04/1989 
Tốt nghiệp Đại học Khoa Học 
Tự Nhiên, Đại học Quốc gia 
Tp.HCM năm 2011. 
Lĩnh vực quan tâm: máy học, xử 
lý ảnh. 
ĐT: 0908828391, Email: 89btthanh@gmail.com 
NGUYỄN HOÀNG TÚ ANH 
Ngày sinh 02/03/1969 
Tốt nghiệp Đại học Tổng hợp 
Kishinhốp, Cộng hòa Mônđôva 
năm 1992. Bảo vệ luận án Thạc sĩ 
ngành Tin học tại Trường Đại 
học Khoa Học Tự Nhiên, Đại học 
Quốc gia Tp. HCM, 2002. 
Hiện là giảng viên Khoa CNTT, Trường Đại học Khoa 
Học Tự Nhiên, Đại học Quốc gia Tp.HCM 
Lĩnh vực nghiên cứu: công nghệ tri thức và ứng dụng, 
khai thác dữ liệu, text mining, web mining. 
ĐT : 091 826 1438, Email: nhtanh@fit.hcmus.edu.vn 

File đính kèm:

  • pdfdu_doan_gia_co_phieu_tren_thi_truong_chung_khoan_viet_nam_ba.pdf