Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi
Tóm tắt: Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và
đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên
khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn chưa hoàn toàn
làm hài lòng các nhà nghiên cứu do tính phức tạp và không ổn định của tiếng
nói. Đặc biệt, đối với nhận dạng tiếng nói tiếng Việt thì kết quả còn nhiều
hạn chế. Bài báo trình bày một hướng nhận dạng tiếng nói tiếng Việt, sử
dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với
phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng
tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi.
Bạn đang xem tài liệu "Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Kết hợp phương pháp lượng tử hóa vector và mô hình Markov ẩn trong nhận dạng tiếng nói tiếng Việt - Ứng dụng trong điều khiển tivi
Tạp chí Khoa học và Giáo dục, Trường Đại học Sư phạm Huế ISSN 1859-1612, Số 01(45)/2018: tr. 113-118 Ngày nhận bài: 28/12/2016; Hoàn thành phản biện: 19/4/2017; Ngày nhận đăng: 06/7/2017 KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT - ỨNG DỤNG TRONG ĐIỀU KHIỂN TIVI NGUYỄN TÚ HÀ Khoa Vật lý, Trường Đại học Sư phạm, Đại học Huế Email: nguyentuha82@gmail.com Tóm tắt: Vấn đề nghiên cứu các phương pháp nhận dạng tiếng nói đã và đang thu hút rất nhiều sự đầu tư và nghiên cứu của các nhà khoa học trên khắp thế giới. Tuy nhiên cho đến nay kết quả mang lại vẫn chưa hoàn toàn làm hài lòng các nhà nghiên cứu do tính phức tạp và không ổn định của tiếng nói. Đặc biệt, đối với nhận dạng tiếng nói tiếng Việt thì kết quả còn nhiều hạn chế. Bài báo trình bày một hướng nhận dạng tiếng nói tiếng Việt, sử dụng mô hình Markov ẩn (Hidden Markov Model - HMM) kết hợp với phương pháp lượng tử hóa vector (Vector Quantization - VQ) để nhận dạng tiếng nói. Kết quả được kiểm nghiệm thực tế bằng mô hình điều khiển tivi. Từ khóa: nhận dạng tiếng nói; lượng tử hóa vector; mô hình Markov ẩn. 1. ĐẶT VẤN ĐỀ Hiện nay, vấn đề tìm hiểu và thực hiện một hệ thống nhận dạng tiếng nói đã được đưa vào nghiên cứu trong các viện nghiên cứu trên khắp thế giới [1], [3]. Những ứng dụng mà hệ thống này mang lại là vô cùng to lớn và có ý nghĩa như: xe lăn cho người tàn tật được điều khiển bằng tiếng nói; điều khiển máy tính hoặc các hệ thống tự động bằng tiếng nói. Trên thế giới đã có nhiều hệ thống nhận dạng tiếng nói đã và đang được ứng dụng rất hiệu quả như: ViaVoice, Dragon Naturally Speaking, Spoken Toolkit, Google Các hệ thống nhận dạng này áp dụng cho ngôn ngữ tiếng Anh, vì vậy, không thể áp dụng hệ thống này cho nhận dạng tiếng Việt. Do đó, một hệ thống nhận dạng tiếng nói tiếng Việt cần phải được xây dựng để có thể ứng dụng cho người Việt Nam. Một đề xuất mới của chúng tôi về một phương pháp nhận dạng tiếng nói tiếng Việt, sử dụng mô hình Markov ẩn rời rạc để nhận dạng tiếng nói kết hợp với phương pháp lượng tử hóa vector. Hệ thống được kiểm nghiệm thực tế bằng việc xây dựng mô hình nhận dạng tiếng nói tiếng Việt gồm các nhóm lệnh điều khiển tivi. 2. HỆ THỐNG NHẬN DẠNG TIẾNG NÓI Một hệ thống nhận dạng nói chung thường bao gồm hai phần: phần huấn luyện và phần nhận dạng. “Huấn luyện” là quá trình hệ thống “học” những mẫu chuẩn được cung cấp bởi những tiếng khác nhau (từ hoặc âm), để từ đó hình thành bộ từ vựng của hệ thống. “Nhận dạng” là quá trình quyết định xem từ nào được đọc căn cứ vào bộ từ vựng đã được huấn luyện. 114 NGUYỄN TÚ HÀ Quá trình huấn luyện được thực hiện như sau: Giả sử hệ thống cần nhận dạng bộ từ vựng có V từ. Đầu tiên chúng ta phải huấn luyện để xây dựng mô hình Markov ẩn λv của các từ trong bộ từ vựng bằng cách áp dụng bài toán 3 của mô hình HMM (bài toán huấn luyện) [4]. Trong quá trình huấn luyện, mỗi từ sẽ được nói nhiều lần (có thể do một hay nhiều người nói), sau đó chúng ta sẽ tiến hành trích đặc trưng bằng phương pháp đường bao phổ (Mel frequency cepstral coefficient - MFCC). Các vector đặc trưng này sẽ được lượng tử hóa vector để phân lớp và đưa vào mô hình HMM để ước lượng các tham số của mô hình một cách tối ưu cho từng từ. Như vậy kết quả được một tập gồm V codebook kích thước M, và V mô hình HMM. Hình 1. Quá trình huấn luyện mô hình VQ/HMM Để nhận dạng, chúng ta sẽ áp dụng bài toán 1 (bài toán ước lượng) [4]. Từ cần nhận dạng sẽ được trích đặc trưng bằng phương pháp MFCC và phân lớp bằng lượng tử hóa vector để có được tập quan sát O={o1o2oT}. Tiếp theo, ta sẽ tính xác suất P(O│λv) cho tất cả các mô hình (1≤v≤V) và chọn từ v có xác suất lớn nhất, tức là: * 0 arg ax | v v V v m P O Hình 2. Quá trình nhận dạng từ rời rạc bằng mô hình VQ/HMM KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ ... 115 2.1. Tiền xử lý Tín hiệu tiếng nói sau khi được thu và trước khi trích chọn đặc trưng, phải tiến hành tiền xử lý tín hiệu tiếng nói. Mục đích của việc tiền xử lý tín hiệu tiếng nói để loại bỏ nhiễu, chuẩn hóa biên độ, làm rõ tín hiệu, xác định các lệnh điều khiển, tách từ. 2.2. Trích chọn đặc trưng Trích chọn đặc trưng là quá trình thực hiện các phân tích nhằm xác định các thông tin quan trọng, đặc trưng, ổn định của tín hiệu tiếng nói. Đối với một hệ nhận dạng tiếng nói, việc trích chọn đặc trưng của tiếng nói là cần thiết. Điều này giúp giảm thiểu số lượng dữ liệu trong việc huấn luyện và nhận dạng, dẫn đến số lượng công việc tính toán trong hệ thống giảm đáng kể. Bên cạnh đó, việc trích chọn đặc trưng còn làm rõ sự khác biệt của tiếng này so với tiếng khác, làm mờ đi sự khác biệt của cùng hai lần phát âm khác nhau của cùng một tiếng. Từ quá trình này, chúng ta sẽ có được chuỗi vector quan sát O. Có nhiều phương pháp trích chọn đặc trưng khác nhau như: FBA, LPC, MFCC, PLP Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Tuy nhiên, phương pháp dựa trên việc tính hệ số MFCC (Mel-scale Frequency Cepstral Coefficient) được sử dụng vì nó phổ biến và hiệu quả nhất. Vì vậy trong nghiên cứu này sử dụng phương pháp MFCC làm công cụ để trích chọn đặc trưng cho hệ thống nhận dạng. 2.3. VQ Codebook Trong mô hình HMM rời rạc, toàn bộ không gian đặc trưng âm thanh được chia làm một số trung bình các vùng, bằng thủ tục phân vùng như lượng tử hóa vectơ (VQ). Trọng tâm của mỗi vùng được tiêu biểu bởi một codeword vốn là một chỉ mục đến codebook. Mỗi mẫu tiếng nói được đổi thành một codeword bằng cách tìm ra vector gần nhất trong codebook. Mỗi codebook có M codeword được gọi là codebook cỡ M. M cũng là số kí hiệu quan sát được của 1 trạng thái trong HMM. Như vậy, trong HMM rời rạc, số quan sát là hữu hạn. Nhược điểm của mô hình dạng này là có sai số trong quá trình lượng tử hoá (nếu kích thước của codebook là nhỏ). Ngược lại nếu kích thước của codebook lớn thì sẽ phải trả giá bằng số lượng tính toán sẽ tăng lên. Trong nghiên cứu này sử dụng thuật toán Split Binary (hay thuật toán LBG) [6]. 2.4. Ước lượng các tham số của mô hình HMM Đối với mỗi từ trong bộ từ vựng, chúng ta xây dựng một mô hình HMM bằng cách ước lượng các thông số của mô hình một cách tối ưu dựa trên chuỗi dữ liệu quan sát trong quá trình huấn luyện. Trong nghiên cứu này sử dụng thuật toán Baum-Welch [6], [8], đây là một trong những phương pháp tối ưu thành công nhất. 2.5. Nhận dạng Đối với mỗi từ cần nhận dạng, hệ thống tính toán mô hình có khả năng với tất cả mô hình đã huấn luyện và chọn ra mô hình có khả năng nhất.Một phương pháp thông dụng hay được dùng để giải quyết bài toán này là dùng thuật toán tìm kiếm Viterbi [9]. Đây là 116 NGUYỄN TÚ HÀ thuật toán dựa trên phương pháp lập trình động (Dynamic Programing Method) để tìm ra một dãy các trạng thái tối ưu duy nhất. 3. THỰC NGHIỆM VÀ KẾT QUẢ 3.1. Thực nghiệm Trong nghiên cứu này, chúng tôi chọn các từ để huấn luyện là:tắt, bật, tivi, tăng, giảm, chuyển, âm, kênh, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, không;và các câu lệnh điều khiển tivi có cú pháp: Cơ sở dữ liệu được xây dựng trong nghiên cứu này được thu thập từ 150 người nói gồm 70 nam và 80 nữ, có độ tuổi từ 18 đến 30. Các người nói được hướng dẫn phát âm chuẩn theo một tốc độ nhất định và việc thu âm được thực hiện trong phòng thu ít nhiễu. Các tập tin âm thanh được thu từ chương trình Adobe Audition, sử dụng PCM, lấy mẫu tại tần số 16.000Hz với 16bit và lưu trữ dưới định dạng WAV. Việc thu âm được thực hiện gồm hai mục đích, thu âm để chuẩn bị cơ sở dữ liệu cho quá trình huấn luyện mô hình và cho quá trình nhận dạng. 3.2. Phương pháp đánh giá Để đánh giá hệ thống, trong nghiên cứu này chúng tôi sử dụng phương pháp thực nghiệm với thống kê và so sánh kết quả trực tiếp. Mỗi nhóm dữ liệu thực nghiệm được đọc vào một cách ngẫu nhiên và ghi nhận kết quả trả ra từ chương trình, sau đó tính tỉ lệ nhận dạng từ đúng, tỉ lệ nhận dạng lỗi sai. Đối với quá trình huấn luyện và kiểm tra, kết quả được chia thành 2 nhóm: nhóm 100 người được huấn luyện và nhóm 50 người không được huấn luyện. 3.2. Kết quả thực nghiệm - Kết quả nhận dạng từ Bảng 1. Kết quả nhận dạng từ Nhóm dữ liệu Tổng Nhận dạng đúng Tỉ lệ 100 người đã huấn luyện Từ 800 782 97,75% Số 1000 981 98.10% 50 người Từ 400 385 96,25% KẾT HỢP PHƯƠNG PHÁP LƯỢNG TỬ HÓA VECTOR VÀ ... 117 không huấn luyện Số 500 479 95,80% - Kết quả nhận dạng câu lệnh Bảng 2. Kết quả nhận dạng câu lệnh (100 người đã huấn luyện) Câu lệnh Tổng Nhận dạng đúng Tỉ lệ BẬT_TIVI 1000 968 96,8% TẮT_TIVI 1000 925 92,5% TĂNG_ÂM 1000 923 92,3% GIẢM_ÂM 1000 976 97,6% TĂNG_KÊNH 1000 934 93,4% GIẢM_KÊNH 1000 979 97,9% CHUYỂN KÊNH 1000 967 96,7% Bảng 3. Kết quả nhận dạng câu lệnh (50 người không huấn luyện) Câu lệnh Tổng Nhận dạng đúng Tỉ lệ BẬT_TIVI 1000 923 92,3% TẮT_TIVI 1000 879 87,9% TĂNG_ÂM 1000 824 82,4% GIẢM_ÂM 1000 935 93.5% TĂNG_KÊNH 1000 859 85,9% GIẢM_KÊNH 1000 891 89,1% CHUYỂN KÊNH 1000 932 93,2% 4. KẾT LUẬN Dựa trên kết quả thực nghiệm, nghiên cứu đã xây dựng thành công mô hình nhận dạng tiếng nói với tỷ lệ thành công tương đối tốt. Tuy nhiên, cần nghiên cứu phát triển thêm: Xây dựng cơ sở dữ liệu lớn hơn để huấn luyện cho các mô hình tốt hơn. Đồng thời phát triển thêm bộ từ vựng để có thể điều khiển thiết bị phong phú hơn. Tích hợp thêm các giải pháp giảm nhiễu trong khối tiền xử lý để nâng cao hiệu xuất nhận dạng và ứng dụng trong môi trường có nhiễu cao. Tích hợp hệ thống nhận dạng tiếng nói trên các chip DSP, FPGA ... để có thể ứng dụng thuận tiện hơn và đóng gói thành bộ sản phẩm hoàn thiện.. 118 NGUYỄN TÚ HÀ TÀI LIỆU THAM KHẢO [1] Phạm Văn Tuấn (2011). Bài giảng nhận dạng tiếng nói, Đại học Bách khoa Đà Nẵng. [2] Lê Tiến Thường (2002). Xử lý số tín hiệu và Wavelets-Tập 1, NXB Đại học Quốc gia TP Hồ Chí Minh. [3] Gales. M. and S. Young (2007). The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing, Vol.1, No.2, p.p 195-304. [4] Rabiner, L. R. (1989). A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of IEEE, vol. 77, no. 2, pp. 257–286. [5] Juang, B. H. and Rabiner, L. R. (1991). Hidden Markov Models for Speech Recognition, Technometrics, Vol.33, No.3, pp. 251-272. [6] Linde, Y., Buzo, A., and Gray, R. M. (1980). An Algorithm for Vector Quantizer, IEEE Transactions on Communication, Vol.28, No.1, pp. 84-95. [7] Segura, J. C., Rubio, A. J., Peinado, A. M., Garcia, P., and Roman, R. (1994). Multiple VQ Hidden Markov Modeling for Speech Recognition, Speech Communication, Vol.14, pp. 163-170. [8] Balwant, A., Sonkamble, D. and Doye, D. (2012). Speech Recognition Using Vector Quantization through Modified K-means LBG Algorithm, Computer Engineering and Intelligent Systems, ISSN 2222, Vol.3, No.7, pp.137-144. [9] Rabiner, L. R. and Juang, B.H. (1993). Fundamentals of speech recognition, Prentice- Hall International, Inc. [10] Le, V.B and Besacierm, L. (2009). Automatic Speech Recognition for Under- Resourced Languages: Application to Vietnamese Language, IEEE. Title: USING THE COMBINATION OF VECTOR QUANTIZATION METHOD AND HIDDEN MARKOV MODELS FOR VIETNAMESE SPEECH RECOGNITION - APLLYING FOR CONTROL THE TELEVISION Abstract: Researching and inventing speech recognitionmethods have been paid much considerations bymany scientists over the world. However, the achievements don’t satisfy researchers’ demandsbecause of the complexity and unstability of speech until now. Especially with Vietnamese speech, theresults are more unsatisfied.The paper suggests asynthetic method for recogniting Vietnamesespeech, is based on the combination of Vector Quantization (VQ) method and Hidden Markov Models (HMMs).Theresults are experimented through a model of remote control television. Keywords: Speech-recognition; Vector Quantization; HMM.
File đính kèm:
- ket_hop_phuong_phap_luong_tu_hoa_vector_va_mo_hinh_markov_an.pdf