Vai trò của khai phá dữ liệu trong lĩnh vực kiểm toán và dịch vụ đảm bảo

Dữ liệu do con người tạo ra ngày càng nhiều hơn về số lượng, tăng nhanh về khối lượng, phát triển mạnh về quy mô khiến việc phân loại, lựa chọn, khai phá, sử dụng gặp những khó khăn nhất định. Mục tiêu bài viết nhằm tổng quan các ứng dụng của kỹ thuật khai phá dữ liệu trong lĩnh vực kiểm toán. Ứng dụng khai phá dữ liệu trong lĩnh vực kiểm toán

liên quan đến dịch vụ đảm bảo và tính tuân thủ (phát hiện gian lận, tình hình tài chính) và kế toán điều

tra. Qua đó, giúp hiểu hơn về vai trò của khai phá dữ liệu và rộng hơn là dữ liệu lớn (big data), cũng như

cơ hội cho các nghiên cứu ứng dụng trong tương lai.

pdf 8 trang yennguyen 15600
Bạn đang xem tài liệu "Vai trò của khai phá dữ liệu trong lĩnh vực kiểm toán và dịch vụ đảm bảo", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Vai trò của khai phá dữ liệu trong lĩnh vực kiểm toán và dịch vụ đảm bảo

Vai trò của khai phá dữ liệu trong lĩnh vực kiểm toán và dịch vụ đảm bảo
NGHIEÂN CÖÙU TRAO ÑOÅI
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN30 Số 119 - tháng 9/2017
VAI TrOØ CUÛA KHAI pHAÙ DÖÕ LIEÄU 
TrONG LÓNH VÖÏC KIEÅM TOAÙN
VAØ DÒCH VUÏ ÑAÛM BAÛO
ThS. NGUYỄN VĩNH KHươNG*
ThS. PHÙNG ANH THư*
*Trường Đại học Kinh tế-Luật_ĐHQG HCM; Đại học Nguyễn Tất Thành
Dữ liệu do con người tạo ra ngày càng nhiều hơn về số lượng, tăng nhanh về khối lượng, phát triển mạnh về quy mô khiến việc phân loại, lựa chọn, khai phá, sử dụng gặp những khó khăn nhất định. Mục tiêu bài viết nhằm tổng quan các ứng dụng của kỹ thuật khai phá dữ liệu trong lĩnh vực kiểm toán. Ứng dụng khai phá dữ liệu trong lĩnh vực kiểm toán 
liên quan đến dịch vụ đảm bảo và tính tuân thủ (phát hiện gian lận, tình hình tài chính) và kế toán điều 
tra. Qua đó, giúp hiểu hơn về vai trò của khai phá dữ liệu và rộng hơn là dữ liệu lớn (big data), cũng như 
cơ hội cho các nghiên cứu ứng dụng trong tương lai.
Từ khóa: khai phá dữ liệu; kiểm toán.
The role of data mining in the audit arrangement and assurance service
Man-made data is becoming more and more quantitatively, rapidly growing in volume, and growing in 
scale which has made the classification, selection, exploration and use relatively difficult. The article objective 
is to review the application of data mining techniques in the field of auditing. Application of data mining 
in the field of audit related to assurance services and compliance (fraud detection, financial situation) and 
forensic accounting. Thereby, the article provides better understanding of the role of data mining and, more 
broadly, the big data, as well as opportunities for future application research.
keywords: Data mining, auditing
1. Giới thiệu
Trong kỷ nguyên của nền kinh tế toàn cầu hoá, 
thị trường cạnh tranh cao, các tổ chức cần tăng 
tính cạnh tranh thông qua việc chấp nhận hoặc 
thực hiện nhiều triết lý kinh doanh và ứng dụng 
các công nghệ thông tin tiên tiến (Dorsch và Yasin, 
1998). Đặc biệt, trí tuệ nhân tạo (AI) rất quan trọng 
đối với tương lai của ngành kế toán (Elliott, 1992) 
và các hệ thống thông minh đã tăng cường nhiều 
khả năng phân tích và tăng hiệu quả của các quy 
trình kế toán (Granlund, 2011). Do đó, có những 
lời kêu gọi rõ ràng rằng trí tuệ nhân tạo xứng đáng 
được chú ý hơn (Debreceny, 2011). 
Khai phá dữ liệu là một trong những ứng dụng 
quan trọng nhất trong phân tích nghiệp vụ và các 
công cụ hỗ trợ quyết định. Điều này được xác nhận 
bởi các tổ chức, Hiệp hội nghề nghiệp về kế toán. 
Viện Kế toán Công chứng Hoa Kỳ (AICPA) đã xác 
định khai phá dữ liệu là một trong mười công nghệ 
hàng đầu cho tương lai, và Viện Kiểm toán Nội 
bộ Hoa Kỳ (IIA) đã liệt kê khai phá dữ liệu là một 
trong bốn ưu tiên nghiên cứu (Koh và Low, 2004). 
Ngoài ra, Viện Kế toán Quản trị Công chứng Anh 
(CGMA) đã báo cáo rằng hơn 50% các nhà lãnh 
đạo doanh nghiệp xếp hạng dữ liệu lớn và khai phá 
dữ liệu trong số các đầu mười ưu tiên của công 
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN 31Số 119 - tháng 9/2017
ty, là nền tảng của kỷ nguyên dữ liệu trong kinh 
doanh (CGMA, 2013). Khai phá dữ liệu đã được 
định nghĩa là quá trình xác định các mẫu dữ liệu 
có giá trị, có tiềm năng và khuôn mẫu mới nhất 
(Pujari, 2001). Khai phá dữ liệu còn được gọi là quá 
trình khai phá hoặc khai phá kiến thức từ những 
dữ liệu lớn (Han và cộng sự, 2006) để cải thiện các 
quyết định trong một ngành cụ thể. Do đó, trọng 
tâm chính của khai phá dữ liệu là tận dụng các tài 
sản dữ liệu của một tổ chức để thu được lợi ích tài 
chính hoặc phi tài chính. Do đó, việc khai phá dữ 
liệu đã được áp dụng cho hầu hết các ngành kinh 
doanh, kể cả lĩnh vực kế toán, kiểm toán. 
Kế toán doanh nghiệp có vai trò rất quan trọng 
đối với việc cung cấp thông tin kế toán phục vụ công 
tác quản lý và điều hành doanh nghiệp, là cơ sở cho 
việc ra quyết định kinh tế và điều hành của doanh 
nghiệp. Nhiệm vụ này liên quan đến nhiều sự kiện 
không chắc chắn và rủi ro phức tạp. Lĩnh vực kế toán 
sử dụng các ứng dụng thông minh có từ hơn ba thập 
niên qua (Baldwin và cộng sự, 2006) và một trong số 
đó là việc sử dụng khai phá dữ liệu để giải quyết tốt 
hơn những rủi ro và sự kiện phức tạp. Nhiều nghiên 
cứu đã được công bố mô tả các ứng dụng khai phá 
dữ liệu trong kế toán. Mục tiêu của bài báo là tổng 
quan một cách hệ thống các nghiên cứu đã công 
bố về các ứng dụng khai phá dữ liệu trong lĩnh vực 
kiểm toán nhằm mở ra các chủ đề cho mục đích ứng 
dụng và nghiên cứu.
2. khái niệm về khai phá dữ liệu
Khai phá dữ liệu là việc áp dụng các thuật toán 
cụ thể để trích các mẫu từ dữ liệu. Khai phá dữ liệu 
cho phép khám phá tự động các mô hình tiềm ẩn 
và kiến thức thú vị ẩn chứa trong một lượng lớn 
dữ liệu (Jiawei và Kamber, 2001). Việc khai phá dữ 
liệu giúp các tổ chức tập trung vào những thông 
tin và kiến thức quan trọng nhất có sẵn trong cơ 
sở dữ liệu hiện có của công ty. Nhưng khai phá dữ 
liệu chỉ là một công cụ, do đó, không loại trừ nhu 
cầu kinh doanh, hiểu về dữ liệu hoặc để hiểu các 
phương pháp phân tích liên quan (Jackson, 2002) 
Khai phá dữ liệu có ba mục tiêu chính: mô tả, dự 
đoán và đề xuất. Trong khi mô tả tập trung vào việc 
xác định các mẫu mô tả về hành vi con người thông 
qua dữ liệu, dự đoán liên quan đến việc sử dụng 
một số biến hoặc các yếu tố trong cơ sở dữ liệu để 
dự đoán các giá trị chưa biết hoặc tương lai của các 
biến số được quan tâm khác (Fayyad và cộng sự, 
1996). Mặt khác, đề xuất tập trung vào việc cung 
NGHIEÂN CÖÙU TRAO ÑOÅI
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN32 Số 119 - tháng 9/2017
cấp giải pháp tốt nhất cho vấn đề nhất định (Evans, 
2013). Các mục tiêu này có thể đạt được bằng cách 
sử dụng nhiều nhiệm vụ khai phá dữ liệu bao gồm 
phân loại, phân cụm, dự đoán, phát hiện ngoại lai, 
tối ưu hóa và khái quát hóa. Những nhiệm vụ được 
giải quyết thông qua: 
■ Phân loại tập trung vào việc lập bản đồ dữ liệu 
cho tập hợp các lớp thuộc tính, có thể là nhị phân 
hoặc đa lớp.
■ Phân cụm tập trung phân tách dữ liệu thành 
một số nhóm có ý nghĩa.
■ Dự đoán tập trung vào việc xác định giá trị số 
học trong tương lai (dự báo) hoặc không phải là giá 
trị số học (phân loại).
■ Phát hiện ngoại lai tập trung vào việc xác 
định các dữ liệu quan trọng có sai lệch so với dữ 
liệu chuẩn.
■ Tối ưu hóa tập trung vào việc tìm ra giải pháp 
tốt nhất cho một số tài nguyên.
■ Khái quát hóa tập trung vào việc trình bày 
trực quan và hiểu biết về dữ liệu.
■ Hồi quy tập trung vào ước lượng một biến phụ 
thuộc từ tập hợp các biến độc lập.
3. Vai trò của khai phá dữ liệu trong lĩnh vực 
kiểm toán và dịch vụ đảm bảo
3.1. Kiểm toán
Các giao dịch kế toán đang trở nên phức tạp và 
dễ dàng hơn để thao tác với việc sử dụng ngày càng 
tăng của hệ thống trực tuyến và sự gia tăng của các 
thiết bị thông minh và sự kết nối vạn vật (IoT). 
Điều này đòi hỏi sự chuyên nghiệp về nghề kiểm 
toán cao hơn, bao gồm việc sử dụng kỹ thuật khai 
phá dữ liệu ngày càng tăng. Vai trò quan trọng của 
công nghệ thông tin ngày càng đóng vai trò quan 
trọng trong nâng cao hiệu quả của quá trình giám 
sát và kiểm soát (Daigle và Lampe, 2005). Khai phá 
dữ liệu đã được áp dụng trong suốt chu trình kiểm 
toán: lập kế hoạch (như cam kết, đánh giá rủi ro, 
lập kế hoạch kiểm toán), thực hiện (chủ yếu thực 
hiện thử nghiệm cơ bản) và báo cáo (báo cáo kiểm 
toán). Khai phá dữ liệu cũng đã được áp dụng sau 
khi chu kỳ kiểm toán hoàn thành, bao gồm sự tác 
động và hậu quả của ý kiến kiểm toán.
Trong giai đoạn ký kết hợp đồng, khai phá dữ 
liệu đã được sử dụng để dự đoán việc lựa chọn 
của kiểm toán viên (Kirkos và cộng sự., 2010) và 
chuyển đổi (Kirkos, 2012) để tìm ra sự phù hợp tối 
ưu giữa các đặc tính của cuộc kiểm toán và chuyên 
gia kiểm toán trong lĩnh vực xây dựng (Wang và 
Kong, 2012) và phân loại mức chi phí cho cuộc 
kiểm toán và đưa ra sự thay đổi trong giá phí kiểm 
toán (Curry và Peel, 1998; Beynon và cộng sự, 
2004). Trong môi trường giàu thông tin ngày nay, 
đánh giá rủi ro liên quan đến nhận dạng các mẫu 
trong dữ liệu, chẳng hạn như dữ liệu bất thường 
phức tạp và sự khác biệt có thể che giấu một hoặc 
nhiều lỗi trọng yếu (Ramamoorti và cộng sự, 1999). 
Calderon (1999) và Ramamoorti và cộng sự (1999) 
nghiên cứu khả năng của mạng lưới thần kinh để 
tăng cường quá trình đánh giá rủi ro của kiểm toán 
viên. Kết quả nghiên cứu cho rằng mô hình mạng 
thần kinh có giá trị trong việc định hướng kiểm 
toán viên nội bộ dành sự quan tâm đến những khía 
cạnh của tài chính, vận hành và tuân thủ ở các khu 
vực kiểm toán có nguy cơ cao và do đó tăng hiệu 
quả của cuộc kiểm toán. Tương tự, Davis và cộng 
sự (1997) và Hwang và cộng sự (2004) đã phát triển 
mô hình mạng lưới thần kinh để hỗ trợ các kiểm 
toán viên thực hiện đánh giá rủi ro kiểm soát. Kết 
luận rằng mạng nơ ron cung cấp cho kiểm toán viên 
một cách hiệu quả để nhận dạng các mẫu trong số 
lượng lớn các mối quan hệ mà các mối quan hệ liên 
biến này có thể thay đổi và các kiểm toán viên có 
kinh nghiệm cũng không thể mô tả được. Tương 
tự, Issa và Kogan (2014) đề xuất một dự đoán mô 
hình hồi quy xác suất như một công cụ để đánh giá 
chất lượng các đánh giá rủi ro kiểm soát và do đó 
cải thiện hiệu quả kiểm toán bằng cách tập trung 
vào vùng rủi ro hoặc ngoại lai. 
Trong lập kế hoạch kiểm toán, Ragothaman và 
cộng sự (1995) đã phát triển hệ thống tiếp cận theo 
nguyên tắc giúp các kiểm toán viên ở giai đoạn lập 
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN 33Số 119 - tháng 9/2017
kế hoạch thiết kế các thử nghiệm cơ bản, khi các sai 
sót trọng yếu và các sai sót trong báo cáo tài chính 
có thể xảy ra. Thể hiện rằng hệ thống này hoạt động 
tốt hơn mô hình dựa trên phân tích phân biệt trong 
phân loại các lỗi và không lỗi. Nhưng kích thước 
mẫu được sử dụng trong nghiên cứu giới hạn tính 
tổng quát của các quy tắc được tạo ra.
Trong giai đoạn thực hiện kiểm toán, Argyrou 
và Andreev (2011) đã đề xuất công cụ bán giám sát 
cho việc tập hợp cơ sở dữ liệu kế toán như một quy 
trình kiểm soát nội bộ thông qua việc sử dụng các 
bản đồ tự tổ chức để bổ sung cho việc kiểm soát 
nội bộ, xác minh việc xử lý kế toán các giao dịch và 
đánh giá báo cáo tài chính. Kết quả thực nghiệm 
cho thấy công cụ đề xuất có thể nén một số lượng 
lớn các giao dịch kế toán, tạo ra các cụm đồng nhất, 
tách biệt, và có thể hiểu được. Trong thực hiện 
thử nghiệm cơ bản, Coakley và Brown (1993) và 
Koskivaara (2000) đã sử dụng các mạng thần kinh 
trong việc dự đoán các mẫu trong kiểm toán số dư 
hàng tháng như là một phần của quá trình đánh giá 
phân tích của kiểm toán viên và cho thấy rằng các 
mạng nơron nhận ra các mẫu trong tài khoản cũng 
như mối quan hệ giữa các tài khoản này hiệu quả 
hơn so với phân tích tỷ số và phương pháp hồi quy. 
Coakley (1995) đề xuất việc sử dụng các mạng thần 
kinh trong nhận dạng mô hình của các tín hiệu cần 
xem xét được tạo ra bởi các thủ tục phân tích. Kết 
luận rằng việc sử dụng mạng nơron cung cấp một 
chỉ dẫn đáng tin cậy hơn về sự có mặt của các sai 
sót trọng yếu so với các thủ tục hoặc phân tích mẫu 
truyền thống. Phân tích và cung cấp cái nhìn sâu 
hơn về các nguyên nhân chính đáng của những sai 
sót này. Kết quả của họ cho thấy việc sử dụng một 
ANN để phân tích các mô hình các biến dạng liên 
quan đến nhiều tỷ lệ tài chính cung cấp một chỉ 
dẫn đáng tin cậy hơn về sự hiện diện của sai sót 
trọng yếu hơn các thủ tục phân tích truyền thống 
hoặc phân tích mẫu, cung cấp hiệu suất được cải 
thiện trong việc nhận ra các sai sót trọng yếu.
Trong hậu chu kỳ kiểm toán, nội dung thông 
tin về giả định hoạt động liên tục của kiểm toán 
viên có ảnh hưởng đáng kể đến vị thế hiện tại và 
tương lai của một công ty. Jones (1996) đã kiểm 
tra các khoản lợi nhuận bất thường của cổ phiếu 
xung quanh việc công bố báo cáo hoạt động liên 
tục của kiểm toán viên bằng cách sử dụng hồi quy 
bình thường nhỏ nhất và nhận thấy rằng hồi quy 
bình phương nhỏ nhất bình thường cho thấy rằng 
lợi nhuận bất thường trung bình xung quanh việc 
NGHIEÂN CÖÙU TRAO ÑOÅI
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN34 Số 119 - tháng 9/2017
công bố báo cáo của kiểm toán viên thấp hơn đối 
với các ý kiến quan tâm đến hoạt động chứ không 
phải do ý kiến rõ ràng và mức độ của các khoản lợi 
nhuận bất thường phụ thuộc vào mức độ mà loại 
ý kiến không được kỳ vọng đối với các nhà đầu tư. 
3.2. Tình hình tài chính 
Dự báo phá sản là một chủ đề quan trọng đã 
được nghiên cứu rộng rãi và đa quốc gia trong các 
nghiên cứu trước đây. Nhiều tác giả đã sử dụng 
kỹ thuật khai thác dữ liệu để dự báo phá sản (Jo 
et al., 1997, O’Leary, 1998, Yang và cộng sự, 1999, 
Zhang và cộng sự, 1999. Charalambous và cộng 
sự, 2000Tsai và Wu, 2008, Chen và các cộng sự, 
2009a, 2009b, Olson và cộng sự, 2012, Kasgari 
và cộng sự, 2013; Korol, 2013; Serrano-Cinca và 
Gutiérrez-Nieto, 2013; Tinoco và Wilson, 2013). 
Kết quả nghiên cứu Yang và cộng sự (1999) về sự 
lan truyền ngược lại đã không phân biệt được giữa 
các công ty bị phá sản và không phá sản và tính 
ưu việt của phân tích hồi quy tuyến tính đối với 
mạng nơ-ron xác suất. Mặt khác, Zhang và cộng sự 
(1999) đã báo cáo rằng các mạng nơ ron mạnh mẽ 
để lấy mẫu các biến thể về hiệu suất phân lớp tổng 
thể. Shirata và cộng sự (2011) chứng minh hiệu quả 
của dự đoán phá sản khai phá qua văn bản, trong 
đó một số kết hợp các thuật ngữ có hiệu quả trong 
việc phân biệt giữa các công ty phá sản và không 
phá sản. Cụ thể hơn, Pompe và Bilderbeek (2005) 
đã kiểm tra các yếu tố dẫn đến dự báo phá sản, và 
nhận thấy rằng các mô hình được tạo ra từ báo cáo 
tài chính hàng năm, cuối cùng đã được công bố 
trước khi phá sản ít thành công hơn trong dự báo 
thất bại kịp thời và sự suy giảm kinh tế trùng khớp 
với sự suy giảm hiệu suất của mô hình . Mặc dù tất 
cả các tác giả này chỉ sử dụng các biện pháp định 
lượng, chủ yếu là tỷ lệ tài chính, trong mô hình dự 
báo phá sản. Anandarajan và cộng sự (2001) đã sử 
dụng các biện pháp định tính và định lượng. Trong 
khi Cho và cộng sự (2009) đã phát triển một mô 
hình tổng hợp kết hợp các kỹ thuật thống kê và trí 
tuệ nhân tạo để dự báo phá sản, một số khác tập 
trung vào tính chính xác của các mô hình dự báo 
phá sản (Tseng và Hu, 2010, Kim và Kang, 2010; 
Jardin, 2010; Tseng và Hu, 2010) với thỏa thuận 
không nhất trí về kỹ thuật mô hình hóa nào mang 
lại dự đoán tốt nhất. Tóm lại, không có bằng chứng 
nào cho thấy một kỹ thuật khai phá dữ liệu tốt 
hơn các kỹ thuật khai phá dữ liệu khác trong mọi 
trường hợp.
3.3. kế toán điều tra 
AICPA công nhận trách nhiệm của kiểm toán 
viên trong việc phát hiện gian lận (Cullinan và 
Sutton, 2002). Việc phát hiện thao túng báo cáo 
tài chính bằng cách sử dụng các thủ tục kiểm toán 
thông thường đã trở thành một nhiệm vụ rất khó 
khăn (Dikmen và Küçükkocaoğlu, 2010). Đánh 
giá rủi ro gian lận là quá trình rất phức tạp và một 
phần của tất cả các cuộc kiểm toán. Theo thời gian, 
các yêu cầu bắt buộc đã tăng nhanh chóng, khoảng 
thời gian và nỗ lực của kiểm toán viên để đánh giá 
gian lận. Do đó, đánh giá rủi ro gian lận tạo ra cơ 
hội lý tưởng cho sự hỗ trợ kỹ thuật (Comunale và 
cộng sự, 2010). Việc rà soát các nghiên cứu cho 
thấy việc sử dụng phổ biến khai phá dữ liệu của các 
nhà nghiên cứu và các học viên để phát hiện gian 
lận. Các nhà nghiên cứu giải quyết ở mức độ khác 
nhau đối với các dạng gian lận. 
Một số tập trung vào việc phát hiện rủi ro gian 
lận ở mức độ vĩ mô nhiều hơn ở cuộc kiểm toán 
(Comunale và cộng sự, 2010) và một số khác tập 
trung vào việc phát hiện gian lận ở cấp độ vi mô 
hơn của các giao dịch kinh doanh (Debreceny và 
Gray, 2010; Bella và cộng sự, 2009; Tackett, 2013). 
Trong khi đó, Debreceny và Gray (2010) đã nghiên 
cứu sự gian lận trong các bút toán bằng cách sử 
dụng phân tích số liệu và phát hiện ra rằng sự phân 
bố các chữ số đầu tiên của số tiền trong bút toán 
khác với quy luật của Benford, Bella và cộng sự 
(2009) đã phát triển cấu trúc bốn bước để phát hiện 
gian lận của các hồ sơ thanh toán điện tử và Tackett 
(2013) đã đề xuất việc sử dụng các quy tắc liên kết 
trong việc phát hiện gian lận thông qua các mẫu và 
mối quan hệ khi kiểm tra nghiệp vụ kinh tế. Mặt 
khác, Bay và cộng sự (2006) tập trung vào việc xác 
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN 35Số 119 - tháng 9/2017
định những bất thường ở sổ cái (Jans và cộng sự, 
2010; Jans và cộng sự, 2011; Owusu-Ansah và cộng 
sự, 2002) và tập trung vào việc phát hiện gian lận ở 
chu kỳ kinh doanh hoặc quy trình. Trong khi Jans 
và cộng sự (2010) sử dụng kỹ thuật khai phá dữ liệu 
mô tả để phát hiện và giảm nguy cơ gian lận nội 
bộ ở cấp độ chu trình kinh doanh, Jans và cộng sự 
(2011) đã kiểm tra tính hiệu quả của thủ tục kiểm 
tra phát hiện gian lận ở chu kỳ tồn kho và lưu kho 
và Owusu-Ansah và cộng sự (2002) sử dụng quá 
trình khai phá quy trình kinh doanh để giảm thiểu 
các rủi ro gian lận nội bộ của các giao dịch trong 
quá trình mua hàng. Các tác giả này thấy rằng quy 
mô của kiểm toán, nhiệm kỳ của kiểm toán viên, và 
năm kinh nghiệm của kiểm toán viên là yếu tố dự 
báo về gian lận về mặt thống kê. Sử dụng một sự kết 
hợp của Luật Benford và các mạng thần kinh, Busta 
và Weinberg (1998) tập trung vào việc phát hiện dữ 
liệu tài chính bị thao túng thông qua thủ tục phân 
tích; Kim và Vasarhelyi (2012) đã sử dụng khai phá 
dữ liệu để phát hiện gian lận nội bộ ở cấp công ty.
“Quản trị” gian lận là một loại hình gian lận 
có ảnh hưởng xấu đến các bên liên quan thông qua 
các báo cáo tài chính gây hiểu nhầm hoặc gian lận 
(FFS) (Elliott và Willingham, 1980). Do đó, nhiều 
nhà nghiên cứu tập trung vào việc phát hiện FFS với 
sự trợ giúp của việc khai phá dữ liệu ở các cấp khác 
nhau: dựa trên gian lận của nhà quản lý cấp cao 
(Fanning và Cogger, 1998, Pai và cộng sự, 2011), 
phát hiện gian lận dựa trên dự đoán về kết quả hoạt 
động trong tương lại của công ty (Virdhagriswaran 
và Dakin, 2006) và phát hiện gian lận trong các 
báo cáo tài chính (Kirkos và cộng sự, 2007; Perols, 
2011). Các kết luận quan trọng của các tác giả này 
bao gồm: khả năng của các mô hình mạng thần 
kinh phân loại thành viên trong các cơ sở nghiên 
cứu SEC so với các cơ sở không điều tra với độ 
chính xác cao. Một giải thích cho thành công tương 
đối của mạng nơron là khả năng sử dụng các quy 
trình học tập thích ứng để xác định điều gì là quan 
trọng để phân biệt “tín hiệu” thực từ các tín hiệu 
nhiễu. Các nghiên cứu cũng khảo sát hiệu quả của 
việc kết hợp các chỉ số tài chính và quản trị, các 
yếu tố ngoại sinh và nội sinh và lựa chọn tính năng 
để phát hiện các báo cáo tài chính sai lệch. Theo 
dòng nghiên cứu, nghiên cứu của Gaganis (2009) 
liên quan đến việc sử dụng các kỹ thuật phân loại 
khai phá dữ liệu kết hợp cả dữ liệu tài chính và phi 
tài chính cho xác định FFS và kết luận rằng sự phân 
loại chính xác phụ thuộc vào cách dữ liệu được xử 
lý trước, chức năng khách quan, và chiến lược tìm 
kiếm của mô hình. Alden và cộng sự (2012) đã sử 
NGHIEÂN CÖÙU TRAO ÑOÅI
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN36 Số 119 - tháng 9/2017
dụng các thuật toán di truyền để phát hiện các mẫu 
FFS và kết luận rằng ước lượng thuật toán phân 
phối cho thấy khả năng phân loại mô hình gian lận 
tài chính tốt hơn so với mô hình hồi quy xác suất 
truyền thống. Cụ thể hơn, Lin và cộng sự (2003) 
đã phát triển mô hình mạng nơ ron tích hợp để 
đánh giá nguy cơ FFS. Mô hình mạng thần kinh 
mờ của Lin và cộng sự (2003) đã vượt trội hơn hầu 
hết các mô hình thống kê và mạng thần kinh khớp 
thần kinh được báo cáo trong các nghiên cứu trước 
và hiệu quả của nó so với mô hình hồi quy logit. 
Liou (2008) đã khám phá ra sự khác biệt và tương 
đồng giữa phát hiện báo cáo tài chính giả mạo và 
các mô hình dự báo thất bại kinh doanh bằng cách 
sử dụng hồi quy logistic, mạng nơ ron và cây quyết 
định và nhận thấy rằng các yếu tố tài chính được sử 
dụng để phát hiện các báo cáo gian lận là hữu ích 
trong dự báo thất bại kinh doanh. Welch và cộng 
sự (1998) đã phát triển một hệ thống phân loại dựa 
trên khai phá dữ liệu để xây dựng mô hình quyết 
định của kiểm toán viên khi ước tính khả năng 
gian lận bởi các nhà thầu phát triển hồ sơ thầu 
cho các hợp đồng của Chính phủ và báo cáo rằng 
trong các mô hình quyết định phân loại liên quan 
đến chế biến, sản xuất các mô hình cải tiến khi so 
sánh với các phương pháp toán học truyền thống. 
Kochetovakozloski và cộng sự (2011) đã sử dụng 
khai phá dữ liệu để cải thiện xét đoán của kiểm 
toán viên về các sự kiện “quản trị” gian lận.
Hành vi điều chỉnh lợi nhuận
Trong lĩnh vực tiên đoán về quản trị lợi nhuận, 
Tsai và Chiou (2009) đã phát triển mạng lưới thần 
kinh và các mô hình cây quyết định để các nhà đầu 
tư sử dụng để dự đoán mức độ quản trị lợi nhuận 
trước đó và đánh giá mức độ tăng giảm của lợi 
nhuận sau đó. Kết quả của Tsai và Chiou (2009) 
chỉ ra rằng sử dụng các kỹ thuật khai phá dữ liệu đã 
làm tăng đáng kể dự báo về quản trị lợi nhuận và 
các quy tắc ra quyết định giúp xác định việc quản 
trị lợi nhuận. Mặt khác, Ezazi và cộng sự (2013) 
đã kiểm tra tính hữu dụng của các kỹ thuật khai 
phá dữ liệu khác nhau trong dự đoán quản trị lợi 
nhuận và đặt câu hỏi về giả thiết tuyến tính cho 
việc mô hình biến kế toán dồn tích tùy ý và kết luận 
rằng một cách tiếp cận phi tuyến tính để dự đoán 
việc quản trị lợi nhuận hiệu quả hơn phương pháp 
tuyến tính. Tập trung vào việc phát hiện quản trị lợi 
nhuận, Jones (1991) đưa ra mô hình tích lũy bằng 
cách sử dụng một thuật toán di truyền. Kết quả cho 
thấy sự vượt trội của các thuật toán di truyền so 
với các phương pháp phân cụm. Để giải quyết vấn 
đề số liệu sẵn có trong ước tính chuỗi thời gian, 
Hoglund (2013) nhận thấy mô hình Jones dựa trên 
hồi quy tuyến tính mờ tốt hơn mô hình Jones dựa 
trên hồi quy trong việc phát hiện quản trị lợi nhuận 
được mô tả khi các chuỗi thời gian ước lượng ngắn. 
Song và cộng sự (2013) đã kiểm tra mối liên quan 
giữa quản trị lợi nhuận và khai khống tài sản và 
phát hiện ra rằng việc khai khống tài sản có mối 
liên quan đáng kể với biến kế toán dồn tích tùy ý.
Tóm lại, các ứng dụng khai phá dữ liệu trong 
kiểm toán và dịch vụ đảm bảo tập trung chủ yếu 
vào hai chủ đề chính: kiểm toán (bao gồm các giai 
đoạn ký kết, lập kế hoạch, thực hiện và sau kiểm 
toán) và kế toán điều tra (phát hiện gian lận và 
quản trị lợi nhuận). Mục tiêu chính của các ứng 
dụng trong lĩnh vực này là dự đoán và nhiệm vụ 
chính là phân loại. Các kỹ thuật nổi trội là các 
mạng nơ-ron và hồi quy. Các cơ hội nghiên cứu 
trong tương lai bao gồm: tăng các dữ liệu đầu vào 
với các biến số liên quan đến đặc điểm quản trị, thử 
nghiệm các cách tiếp cận khác nhau để kết hợp các 
cách phân loại, kiểm tra các thuật toán học khác 
nhau và các mô hình cấu trúc, khám phá các thời 
gian khác nhau và các phương pháp tiền xử lý dữ 
liệu, mở rộng phạm vi phát triển mô hình tới nhiều 
loại hình kinh doanh và nhiều lựa chọn hơn, tăng 
thời gian dự đoán bao gồm các biến phi tài chính 
và phân tích trực quan hơn, chú ý nhiều hơn đến so 
sánh mô hình, chuẩn hóa dữ liệu và khai phá văn 
bản trong dự báo gian lận tài chính.
4. kết luận
Bài viết tổng quan các nghiên cứu liên quan 
đến ứng dụng khai phá dữ liệu trong lĩnh vực kiểm 
NGHIÊN CỨU KHOA HỌC KIỂM TOÁN 37Số 119 - tháng 9/2017
toán và dịch vụ đảm bảo. Hầu hết, các nghiên cứu 
cho thấy khai phá dữ liệu ngày càng đóng vai trò 
quan trọng và tăng tính hiệu quả cho công việc của 
kiểm toán viên. Tại Việt Nam, nghiên cứu về ứng 
dụng khai phá dữ liệu trong kiểm toán còn chưa 
được chú ý. Nghiên cứu trong tương lai về lĩnh vực 
này sẽ là hướng đi phù hợp và tiềm năng cho các 
nhà nghiên cứu lẫn các nghiên cứu ứng dụng, triển 
khai trong thực tiễn.
TÀI LIỆU THAM KHẢO
1. Anandarajan, M., Anandarajan, A., 
1999. A comparison of machine learning 
techniques with a qualitative response 
model for auditor’s going concern reporting. 
Expert Syst. Appl. 16 (4), 385–392.
2. Argyrou, A., Andreev, A., 2011. A 
semi-supervised tool for clustering 
accounting databases with applications to 
internal controls. Expert Syst. Appl. 38 (9), 
11176–11181.
3. Beynon, M.J., Peel, M.J., Tang, Y.C., 2004. 
The application of fuzzy decision tree 
analysis in an exposition of the antecedents 
of audit fees. Omega 32 (3), 231–244.
4. Bhimani, A., Gulamhussen, M.A., Lopes, 
S., 2009. The effectiveness of the auditor’s 
going-concern evaluation as an external 
governance mechanism: evidence fromloan 
defaults.Int.J.Account.44(3) ,239–255.
5. Blacconiere, W.G., DeFond, M.L., 1997. An 
investigation of independent audit opinions 
and subsequent independent auditor 
litigation of publicly-traded failed savings 
and loans. J. Account. Public Policy 16 (4), 
415–454.
6. Busta, B., Weinberg, R., 1998. Using 
Benford’s law and neural networks as a 
review procedure. Manag. Audit. J. 13 (6), 
356–366.
7. Calderon, T.G., 1999. Neural networks and 
preliminary information risk assessment in 
an auditing environment. Account. Enq. 8, 
245–290.
8. Calderon, T.G., Cheh, J.J., 2002. A roadmap 
for future neural networks research in 
auditing and risk assessment. Int. J. Account. 
Inf. Syst. 3 (4), 203–236.
9. Callen, J.L., Kwan, C.C., Yip, P.C., Yuan, 
Y., 1996. Neural network forecasting of 
quarterly accounting earnings. Int. J. 
Forecast. 12 (4), 475–482.
10. Cerullo, M.J., Cerullo, M.V., 2006. Using 
neural network software as a forensic 
accounting tool. Information Systems 
Control Journal 2, 33.
11. Debreceny, R.S., Gray, G.L., 2010. Data 
mining journal entries for fraud detection: 
an exploratory study. Int. J. Account. Inf. 
Syst. 11 (3), 157–181.
12. Debreceny, R.S., Gray, G.L., 2011. Data 
mining of electronic mail and auditing: a 
research agenda. J. Inf. Syst. 25 (2), 195–226.
13. Evans, J.R., 2013. Business Analytics: 
Methods, Models, and Decisions. 
Prentice-Hall, Boston, MA.
14. Issa, H., Kogan, A., 2014. A predictive 
ordered logistic regression model as a tool for 
quality review of control risk assessments. J. 
Inf. Syst. 28 (2), 209–229.
15. Jans, M., Alles, M., Vasarhelyi, M., 2013. The 
case for process mining in auditing: sources 
of value added and areas of application. Int. 
J. Account. Inf. Syst. 14 (1), 1–20.
16. Jo, H., Han, I., Lee, H., 1997. Bankruptcy 
prediction using case-based reasoning, 
neural networks, and discriminant analysis. 
Expert Syst. Appl. 13 (2), 97–108.
17. Jones, J.J., 1991. Earnings management 
during import relief investigations. J. 
Account. Res. 193–228.
18. Jones, F.L., 1996. The information content 
of the auditor’s going concern evaluation. J. 
Account. Public Policy 15 (1), 1–27.
19. Kirkos, E., 2012. Predicting auditor switches 
by applying data mining. Journal of Applied 
Economic Sciences 3 (21), 246–261.
20. Kirkos, E., Spathis, C., Manolopoulos, 
Y., 2007. Data mining techniques for the 
detection of fraudulent financial statements. 
Expert Syst. Appl. 32 (4), 995–1003.
21. Kirkos, E., Spathis, C., Manolopoulos, Y., 
2008. Support vector machines, decision trees 
and neural networks for auditor selection. 
Journal of Computational Methods in.
22. Science and Engineering 8 (3), 213–224.
23. Tackett, J.A., 2013. Association rules for 
fraud detection. Journal of Corporate 
Accounting and Finance 24 (4), 15–22.
...

File đính kèm:

  • pdfvai_tro_cua_khai_pha_du_lieu_trong_linh_vuc_kiem_toan_va_dic.pdf