Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi

Tóm tắt: Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và

đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên

khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn chưa hoàn toàn

làm hài lòng các nhà nghiên cứu do tính phức tạp và không ổn định của tiếng

nói. Đặc biệt, đối với nhận dạng tiếng nói tiếng Việt thì kết quả còn nhiều

hạn chế. Bài báo trình bày một hướng nhận dạng tiếng nói tiếng Việt, sử

dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với

phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng

tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi.

pdf 6 trang yennguyen 3460
Bạn đang xem tài liệu "Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi

Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi
 Tạp chí Khoa học và Giáo dục, Trường Đại học Sư phạm Huế 
ISSN 1859-1612, Số 01(45)/2018: tr. 113-118 
Ngày nhận bài: 28/12/2016; Hoàn thành phản biện: 19/4/2017; Ngày nhận đăng: 06/7/2017 
KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ MÔ HÌNH 
MARKOV ẨN TRONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT - 
ỨNG DỤNG TRONG ĐIỀU KHIỂN TIVI 
NGUYỄN TÚ HÀ 
Khoa Vật lý, Trường Đại học Sư phạm, Đại học Huế 
Email: nguyentuha82@gmail.com 
Tóm tắt: Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và 
đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên 
khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn chưa hoàn toàn 
làm hài lòng các nhà nghiên cứu do tính phức tạp và không ổn định của tiếng 
nói. Đặc biệt, đối với nhận dạng tiếng nói tiếng Việt thì kết quả còn nhiều 
hạn chế. Bài báo trình bày một hướng nhận dạng tiếng nói tiếng Việt, sử 
dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với 
phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng 
tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi. 
Từ khóa: nhận dạng tiếng nói; lượng tử hóa vector; mô hình Markov ẩn. 
1. ĐẶT VẤN ĐỀ 
Hiện nay, vấn đề tìm hiểu và thực hiện một hệ thống nhận dạng tiếng nói đã được đưa 
vào nghiên cứu trong các viện nghiên cứu trên khắp thế giới [1], [3]. Những ứng dụng 
mà hệ thống này mang lại là vô cùng to lớn và có ý nghĩa như: xe lăn cho người tàn tật 
được điều khiển bằng tiếng nói; điều khiển máy tính hoặc các hệ thống tự động bằng 
tiếng nói. 
Trên thế giới đã có nhiều hệ thống nhận dạng tiếng nói đã và đang được ứng dụng rất 
hiệu quả như: ViaVoice, Dragon Naturally Speaking, Spoken Toolkit, Google Các hệ 
thống nhận dạng này áp dụng cho ngôn ngữ tiếng Anh, vì vậy, không thể áp dụng hệ 
thống này cho nhận dạng tiếng Việt. Do đó, một hệ thống nhận dạng tiếng nói tiếng Việt 
cần phải được xây dựng để có thể ứng dụng cho người Việt Nam. 
Một đề xuất mới của chúng tôi về một phương pháp nhận dạng tiếng nói tiếng Việt, sử 
dụng mô hình Markov ẩn rời rạc để nhận dạng tiếng nói kết hợp với phương pháp lượng 
tử hóa vector. Hệ thống được kiểm nghiệm thực tế bằng việc xây dựng mô hình nhận 
dạng tiếng nói tiếng Việt gồm các nhóm lệnh điều khiển tivi. 
2. HỆ THỐNG NHẬN DẠNG TIẾNG NÓI 
Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện và phần 
nhận dạng. “Huấn luyện” là quá trình hệ thống “học” những mẫu chuẩn được cung cấp 
bởi những tiếng khác nhau (từ hoặc âm), để từ đó hình thành bộ từ vựng của hệ thống. 
“Nhận dạng” là quá trình quyết định xem từ nào được đọc căn cứ vào bộ từ vựng đã 
được huấn luyện. 
114 NGUYỄN TÚ HÀ 
Quá trình huấn luyện được thực hiện như sau: Giả sử hệ thống cần nhận dạng bộ từ 
vựng có V từ. Đầu tiên chúng ta phải huấn luyện để xây dựng mô hình Markov ẩn λv 
của các từ trong bộ từ vựng bằng cách áp dụng bài toán 3 của mô hình HMM (bài toán 
huấn luyện) [4]. Trong quá trình huấn luyện, mỗi từ sẽ được nói nhiều lần (có thể do 
một hay nhiều người nói), sau đó chúng ta sẽ tiến hành trích đặc trưng bằng phương 
pháp đường bao phổ (Mel frequency cepstral coefficient - MFCC). Các vector đặc trưng 
này sẽ được lượng tử hóa vector để phân lớp và đưa vào mô hình HMM để ước lượng 
các tham số của mô hình một cách tối ưu cho từng từ. Như vậy kết quả được một tập 
gồm V codebook kích thước M, và V mô hình HMM. 
Hình 1. Quá trình huấn luyện mô hình VQ/HMM 
Để nhận dạng, chúng ta sẽ áp dụng bài toán 1 (bài toán ước lượng) [4]. Từ cần nhận 
dạng sẽ được trích đặc trưng bằng phương pháp MFCC và phân lớp bằng lượng tử hóa 
vector để có được tập quan sát O={o1o2oT}. Tiếp theo, ta sẽ tính xác suất P(O│λv) 
cho tất cả các mô hình (1≤v≤V) và chọn từ v có xác suất lớn nhất, tức là: 
 *
0
arg ax | v
v V
v m P O 
 Hình 2. Quá trình nhận dạng từ rời rạc bằng mô hình VQ/HMM 
KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ ... 115 
2.1. Tiền xử lý 
Tín hiệu tiếng nói sau khi được thu và trước khi trích chọn đặc trưng, phải tiến hành tiền 
xử lý tín hiệu tiếng nói. Mục đích của việc tiền xử lý tín hiệu tiếng nói để loại bỏ nhiễu, 
chuẩn hóa biên độ, làm rõ tín hiệu, xác định các lệnh điều khiển, tách từ. 
2.2. Trích chọn đặc trưng 
Trích chọn đặc trưng là quá trình thực hiện các phân tích nhằm xác định các thông tin 
quan trọng, đặc trưng, ổn định của tín hiệu tiếng nói. Đối với một hệ nhận dạng tiếng 
nói, việc trích chọn đặc trưng của tiếng nói là cần thiết. Điều này giúp giảm thiểu số 
lượng dữ liệu trong việc huấn luyện và nhận dạng, dẫn đến số lượng công việc tính toán 
trong hệ thống giảm đáng kể. Bên cạnh đó, việc trích chọn đặc trưng còn làm rõ sự khác 
biệt của tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát âm 
khác nhau của cùng một tiếng. Từ quá trình này, chúng ta sẽ có được chuỗi vector quan 
sát O. 
Có nhiều phương pháp trích chọn đặc trưng khác nhau như: FBA, LPC, MFCC, PLP 
Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Tuy nhiên, phương pháp dựa 
trên việc tính hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) được sử dụng vì 
nó phổ biến và hiệu quả nhất. Vì vậy trong nghiên cứu này sử dụng phương pháp 
MFCC làm công cụ để trích chọn đặc trưng cho hệ thống nhận dạng. 
2.3. VQ Codebook 
Trong mô hình HMM rời rạc, toàn bộ không gian đặc trưng âm thanh được chia làm 
một số trung bình các vùng, bằng thủ tục phân vùng như lượng tử hóa vectơ (VQ). 
Trọng tâm của mỗi vùng được tiêu biểu bởi một codeword vốn là một chỉ mục đến 
codebook. Mỗi mẫu tiếng nói được đổi thành một codeword bằng cách tìm ra vector gần 
nhất trong codebook. Mỗi codebook có M codeword được gọi là codebook cỡ M. M 
cũng là số kí hiệu quan sát được của 1 trạng thái trong HMM. Như vậy, trong HMM rời 
rạc, số quan sát là hữu hạn. Nhược điểm của mô hình dạng này là có sai số trong quá 
trình lượng tử hoá (nếu kích thước của codebook là nhỏ). Ngược lại nếu kích thước của 
codebook lớn thì sẽ phải trả giá bằng số lượng tính toán sẽ tăng lên. Trong nghiên cứu 
này sử dụng thuật toán Split Binary (hay thuật toán LBG) [6]. 
2.4. Ước lượng các tham số của mô hình HMM 
Đối với mỗi từ trong bộ từ vựng, chúng ta xây dựng một mô hình HMM bằng cách ước 
lượng các thông số của mô hình một cách tối ưu dựa trên chuỗi dữ liệu quan sát trong 
quá trình huấn luyện. Trong nghiên cứu này sử dụng thuật toán Baum-Welch [6], [8], 
đây là một trong những phương pháp tối ưu thành công nhất. 
2.5. Nhận dạng 
Đối với mỗi từ cần nhận dạng, hệ thống tính toán mô hình có khả năng với tất cả mô 
hình đã huấn luyện và chọn ra mô hình có khả năng nhất.Một phương pháp thông dụng 
hay được dùng để giải quyết bài toán này là dùng thuật toán tìm kiếm Viterbi [9]. Đây là 
116 NGUYỄN TÚ HÀ 
thuật toán dựa trên phương pháp lập trình động (Dynamic Programing Method) để tìm 
ra một dãy các trạng thái tối ưu duy nhất. 
3. THỰC NGHIỆM VÀ KẾT QUẢ 
3.1. Thực nghiệm 
Trong nghiên cứu này, chúng tôi chọn các từ để huấn luyện là:tắt, bật, tivi, tăng, giảm, 
chuyển, âm, kênh, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, không;và các câu lệnh 
điều khiển tivi có cú pháp: 
Cơ sở dữ liệu được xây dựng trong nghiên cứu này được thu thập từ 150 người nói gồm 
70 nam và 80 nữ, có độ tuổi từ 18 đến 30. Các người nói được hướng dẫn phát âm 
chuẩn theo một tốc độ nhất định và việc thu âm được thực hiện trong phòng thu ít nhiễu. 
Các tập tin âm thanh được thu từ chương trình Adobe Audition, sử dụng PCM, lấy mẫu 
tại tần số 16.000Hz với 16bit và lưu trữ dưới định dạng WAV. 
Việc thu âm được thực hiện gồm hai mục đích, thu âm để chuẩn bị cơ sở dữ liệu cho 
quá trình huấn luyện mô hình và cho quá trình nhận dạng. 
3.2. Phương pháp đánh giá 
Để đánh giá hệ thống, trong nghiên cứu này chúng tôi sử dụng phương pháp thực 
nghiệm với thống kê và so sánh kết quả trực tiếp. Mỗi nhóm dữ liệu thực nghiệm được 
đọc vào một cách ngẫu nhiên và ghi nhận kết quả trả ra từ chương trình, sau đó tính tỉ lệ 
nhận dạng từ đúng, tỉ lệ nhận dạng lỗi sai. 
Đối với quá trình huấn luyện và kiểm tra, kết quả được chia thành 2 nhóm: nhóm 100 
người được huấn luyện và nhóm 50 người không được huấn luyện. 
3.2. Kết quả thực nghiệm 
- Kết quả nhận dạng từ 
Bảng 1. Kết quả nhận dạng từ 
Nhóm dữ liệu Tổng Nhận dạng đúng Tỉ lệ 
100 người đã 
huấn luyện 
Từ 800 782 97,75% 
Số 1000 981 98.10% 
50 người Từ 400 385 96,25% 
KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ ... 117 
không huấn 
luyện 
Số 500 479 95,80% 
- Kết quả nhận dạng câu lệnh 
Bảng 2. Kết quả nhận dạng câu lệnh (100 người đã huấn luyện) 
Câu lệnh Tổng Nhận dạng đúng Tỉ lệ 
BẬT_TIVI 1000 968 96,8% 
TẮT_TIVI 1000 925 92,5% 
TĂNG_ÂM 1000 923 92,3% 
GIẢM_ÂM 1000 976 97,6% 
TĂNG_KÊNH 1000 934 93,4% 
GIẢM_KÊNH 1000 979 97,9% 
CHUYỂN KÊNH 1000 967 96,7% 
Bảng 3. Kết quả nhận dạng câu lệnh (50 người không huấn luyện) 
Câu lệnh Tổng Nhận dạng đúng Tỉ lệ 
BẬT_TIVI 1000 923 92,3% 
TẮT_TIVI 1000 879 87,9% 
TĂNG_ÂM 1000 824 82,4% 
GIẢM_ÂM 1000 935 93.5% 
TĂNG_KÊNH 1000 859 85,9% 
GIẢM_KÊNH 1000 891 89,1% 
CHUYỂN KÊNH 1000 932 93,2% 
4. KẾT LUẬN 
Dựa trên kết quả thực nghiệm, nghiên cứu đã xây dựng thành công mô hình nhận dạng 
tiếng nói với tỷ lệ thành công tương đối tốt. 
Tuy nhiên, cần nghiên cứu phát triển thêm: 
Xây dựng cơ sở dữ liệu lớn hơn để huấn luyện cho các mô hình tốt hơn. Đồng thời phát 
triển thêm bộ từ vựng để có thể điều khiển thiết bị phong phú hơn. 
Tích hợp thêm các giải pháp giảm nhiễu trong khối tiền xử lý để nâng cao hiệu xuất 
nhận dạng và ứng dụng trong môi trường có nhiễu cao. 
Tích hợp hệ thống nhận dạng tiếng nói trên các chip DSP, FPGA ... để có thể ứng dụng 
thuận tiện hơn và đóng gói thành bộ sản phẩm hoàn thiện.. 
118 NGUYỄN TÚ HÀ 
TÀI LIỆU THAM KHẢO 
[1] Phạm Văn Tuấn (2011). Bài giảng nhận dạng tiếng nói, Đại học Bách khoa Đà Nẵng. 
[2] Lê Tiến Thường (2002). Xử lý số tín hiệu và Wavelets-Tập 1, NXB Đại học Quốc gia 
TP Hồ Chí Minh. 
[3] Gales. M. and S. Young (2007). The Application of Hidden Markov Models in Speech 
Recognition, Foundations and Trends in Signal Processing, Vol.1, No.2, p.p 195-304. 
[4] Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications 
in speech recognition, Proceedings of IEEE, vol. 77, no. 2, pp. 257–286. 
[5] Juang, B. H. and Rabiner, L. R. (1991). Hidden Markov Models for Speech 
Recognition, Technometrics, Vol.33, No.3, pp. 251-272. 
[6] Linde, Y., Buzo, A., and Gray, R. M. (1980). An Algorithm for Vector Quantizer, 
IEEE Transactions on Communication, Vol.28, No.1, pp. 84-95. 
[7] Segura, J. C., Rubio, A. J., Peinado, A. M., Garcia, P., and Roman, R. (1994). 
Multiple VQ Hidden Markov Modeling for Speech Recognition, Speech 
Communication, Vol.14, pp. 163-170. 
[8] Balwant, A., Sonkamble, D. and Doye, D. (2012). Speech Recognition Using Vector 
Quantization through Modified K-means LBG Algorithm, Computer Engineering and 
Intelligent Systems, ISSN 2222, Vol.3, No.7, pp.137-144. 
[9] Rabiner, L. R. and Juang, B.H. (1993). Fundamentals of speech recognition, Prentice-
Hall International, Inc. 
[10] Le, V.B and Besacierm, L. (2009). Automatic Speech Recognition for Under-
Resourced Languages: Application to Vietnamese Language, IEEE. 
Title: USING THE COMBINATION OF VECTOR QUANTIZATION METHOD AND 
HIDDEN MARKOV MODELS FOR VIETNAMESE SPEECH RECOGNITION - APLLYING 
FOR CONTROL THE TELEVISION 
Abstract: Researching and inventing speech recognitionmethods have been paid much 
considerations bymany scientists over the world. However, the achievements don’t satisfy 
researchers’ demandsbecause of the complexity and unstability of speech until now. Especially 
with Vietnamese speech, theresults are more unsatisfied.The paper suggests asynthetic method 
for recogniting Vietnamesespeech, is based on the combination of Vector Quantization (VQ) 
method and Hidden Markov Models (HMMs).Theresults are experimented through a model of 
remote control television. 
Keywords: Speech-recognition; Vector Quantization; HMM. 

File đính kèm:

  • pdfket_hop_phuong_phap_luong_tu_hoa_vector_va_mo_hinh_markov_an.pdf