Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu

Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai

trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp

và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương

đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu,

bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy và

độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã

chứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tài

liệu.

pdf 9 trang yennguyen 4820
Bạn đang xem tài liệu "Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu

Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu
TẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63 
55 
XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮA 
KHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆU 
Lê Văn Hòa 
Khoa Du lịch, Đại học Huế 
Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai 
trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp 
và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương 
đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu, 
bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy và 
độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã 
chứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tài 
liệu. 
1. Đặt vấn đề 
Theo [3], người ta đã thống kê chỉ có 20% dữ liệu là dữ liệu có cấu trúc và được 
lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là dữ liệu không có cấu trúc 
văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài 
báo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữ liệu có cấu trúc trong các 
tổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xây dựng kho dữ liệu truyền thống 
sẽ ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. 
Chính vì những lý do đó, kho tài liệu được đề xuất để có thể đưa dữ liệu bán cấu trúc và 
phi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mối 
tương đồng giữa các quy trình trong quá trình xây dựng kho dữ liệu truyền thống và kho 
tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ 
liệu truyền thống và kho tài liệu. 
2. Kho dữ liệu truyền thống và những vấn đề tồn tại 
Kho dữ liệu là tập hợp dữ liệu hướng chủ thể, tích hợp, biến thời gian và bền 
vững hỗ trợ ra quyết định [2]. Theo [1], mục tiêu chính của kho dữ liệu là nhằm đáp ứng 
các tiêu chuẩn cơ bản sau: 
- Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. 
- Hỗ trợ để có thể thực hiện tốt và có hiệu quả công việc, như có những quyết 
định hợp lý, nhanh giúp cho năng suất cao hơn, thu được lợi nhuận cao hơn, 
v.v. 
56 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ 
- Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp vụ 
một cách hiệu quả và chính xác. 
- Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau. 
Theo [1], kiến trúc hệ thống kho dữ liệu truyền thống gồm 3 tầng: 
- Tầng thu thập 
- Tầng xử lý phân tích trực tuyến (OLAP) 
- Tầng thể hiện 
Hình 1. Kiến trúc hệ thống kho dữ liệu truyền thống 
Kho dữ liệu truyền thống và những vấn đề đang tồn tại: 
Theo [3], dữ liệu có cấu trúc được thể hiện trong một hình thức quan hệ và phi 
cấu trúc trong văn bản. Theo thống kê chỉ có 20% các dữ liệu sẵn có được cấu trúc và 
được lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là không có cấu trúc 
văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài 
báo tin tức, e-mail, và các trang web. Chính vì dữ liệu có cấu trúc chiếm tỉ lệ thấp do đó 
ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. 
Vì vậy, để có được thông tin tri thức nghiệp vụ hoàn chỉnh, kết hợp và phân tích 
dữ liệu văn bản là rất cần thiết. Thông qua phân tích các dữ liệu có cấu trúc, chẳng hạn 
thông tin ở đâu, khi nào, ai, và bằng cách nào để có thể được trích xuất. Thông qua phân 
tích các thông tin để đưa ra lý do tại sao nó đã được thực hiện. 
 LÊ VĂN HÒA 57 
3. Kiến trúc kho tài liệu 
3.1. Các thành phần chính của kho tài liệu 
Theo [5], thành phần của kho tài liệu bao gồm 5 thành phần chính: 
- Nguồn tài liệu 
- Máy chủ xử lý văn bản 
- Văn bản cơ sở và các kho lưu trữ khác 
- Kho siêu dữ liệu 
- Hồ sơ người sử dụng. 
3.1.1. Nguồn tài liệu 
Nguồn tài liệu là các văn bản. Có ba kiểu nguồn tài liệu phân biệt bao gồm: 
Nguồn bên trong, internet và các dịch vụ. 
Nguồn bên trong: Trong một tổ chức, tài liệu và các loại văn bản khác như: 
email, máy chủ file, trong kho tài liệu, và trong hệ thống quản lý tài liệu. Trong khi 
những hệ thống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợp 
văn bản trong khai phá văn bản và truy xuất thông tin thông minh. 
Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp cho 
chúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máy 
chủ Gopher, và máy chủ FTP. Trong đó, dữ liệu tại WWW thật khó để phân loại toàn bộ 
nội dung của WWW. 
Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những khách 
hàng của các doanh nghiệp và các tổ chức. 
3.1.2. Máy chủ xử lý văn bản 
Trong môi trường kho tài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thập 
tài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ. 
3.1.2.1. Thu thập tài liệu 
Tập hợp máy chủ thu thập tài liệu và xử lý văn bản. Xử lý thu thập có thể xảy ra 
theo 3 cách 
Xử lý tập văn bản sử dụng danh sách tiền định nghĩa nguồn cho thu thập tự 
động trực tiếp: Hầu hết các văn bản đưa vào kho tài liệu thông qua tiền định nghĩa thu 
thập trực tiếp. Trong kịch bản này, một danh nguồn được duy trì trong CSDL, và 
chương trình thu thập, hay tập hợp các chương trình, những file thật sự đưa vào kho tài 
liệu. 
Xử lý tập văn bản sử dụng tiền danh sách định nghĩa chủ đề cho tìm kiếm trực 
tiếp: Chúng ta không thể biết trong kho tài liệu bao gồm những tài liệu gì. Nếu ứng 
58 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ 
dụng chính của kho tài liệu của chúng ta có khả năng cạnh tranh thông minh và phân 
tích tài liệu thì chúng ta sẽ muốn để biết thông tin để đưa ra quyết định chính xác. 
Tài liệu được tự động đưa vào: Một vài kiểu tài liệu, đặc biệt là phát hiện luật 
bên trong, chiến lược đánh giá và các loại thông tin hạn chế, không nên được mở tự 
động đưa vào kho tài liệu. 
3.1.2.2. Máy chủ phân tích văn bản 
Máy chủ phân tích văn bản cung cấp 2 thao tác: Tiền xử lý và xử lý chính. 
Tiền xử lý: Công việc của máy chủ tiền xử lý là để chứng thực định dạng tài liệu 
và nếu cần thì chuyển đổi tài liệu sang một định dạng có thể chấp nhận được cho công 
cụ xử lý văn bản khác. Ngôn ngữ văn bản cũng được chứng thực và nếu cần thiết được 
chuyển đổi vào trong đối tượng ngôn ngữ có thể chấp nhận được. 
Xử lý chính: Mục đích của máy chủ xử lý chính là đưa văn bản vào hình thức 
phù hợp cho việc tìm kiếm hiệu quả và khai phá văn bản. Quá trình thao tác bao gồm 
lập chỉ mục, phân cụm, trích chọn đặc trưng và tổng hợp. Thao tác xử lý chính được 
tính toán trong kho tài liệu. 
3.1.2.3. Xuất bản và phân tán 
Thông thường giá trị của thông tin tri thức nghiệp vụ bị mất nếu nó không được 
phân tán đến đúng người hay không được xuất bản trong thời gian quản lý. Để bảo tồn 
giá trị của thông tin văn bản gốc, nó phải trình diễn cho người sử dụng một cách phụ 
thuộc vào nội dung. 
3.1.3. Văn bản cơ sở và các kho lưu trữ khác 
Chúng ta có một vài tùy chọn cho việc lưu trữ văn bản trong kho tài liệu. Chúng 
bao gồm: Văn bản cơ sở, cơ sở dữ liệu hỗ trợ văn bản, file hệ thống, kết hợp file hệ 
thống và CSDL. 
3.1.4. Kho siêu văn bản 
Siêu văn bản là tài liệu mô tả thông tin, những văn bản và là một phần then chốt 
của môi trường kho tài liệu. Siêu dữ liệu thỏa mãn một vài mục đích: 
- Tăng khả năng tìm kiếm rõ ràng và khả năng nhớ lại 
- Cho phép mở rộng các tùy chọn tìm kiếm, như là: theo tác giả, ngày xuất 
bản,.. 
- Phân loại văn bản 
- Cho biết mối quan hệ chất lượng giữa các mức, tính tin cậy, và đúng lúc. 
3.1.5. Hồ sơ người sử dụng 
Người sử dụng yêu cầu mục đích cụ thể về kế hoạch tiếp thị, sự thay đổi tốc độ 
 LÊ VĂN HÒA 59 
và những ảnh hưởng về giá cả. Ngoài ra, người sử dụng quan tâm đến việc sử dụng dài 
hạn và nhất quán. Ví dụ: người quản lý sản phẩm quan tâm đến giá cả hiện tại của sản 
phẩm, kế hoạch tiếp thị và bán sản phẩm, thông tin về đối thủ cạnh tranh, điều kiện tiếp 
thị và những nhân tố khác ảnh hưởng đến việc bán hàng. 
3.2. So sánh kho tài liệu và kho dữ liệu truyền thống [6] 
 Kho tài liệu Kho dữ liệu truyền thống 
G
iố
ng
 n
ha
u 
1. Cả hai cùng quy trình xây dựng và chúng có thể được triển khai theo giản đồ 
hình sao hay bông tuyết để thiết kế quy trình mô hình 
2. Cùng chung tài liệu nghiệp vụ hay dữ liệu từ nguồn hỗn tạp 
3. Người sử dụng có thể xử lý phân tích trực tuyến thông qua kết quả được thiết 
lập 
K
há
c 
nh
au
Có ý định đạt được tri thức nghiệp vụ 
định hướng văn bản (text–oriented) 
Có ý định đạt được tri thức nghiệp vụ 
định hướng số (numeric–oriented) 
Tài nguyên được thu thập từ báo cáo 
điều tra thị trường, báo cáo trạng thái 
dự án, lời phàn nàn của khác hàng, thư 
điện tử, quảng cáo cạnh tranh 
Tài nguyên được thu thập từ CSDL 
bên trong các điểm bán hàng, hệ 
thống ERP, hệ thống thanh toán, hay 
hệ thống quản lý tài chính 
Nó lọc những tài liệu không cần thiết 
và định hướng giúp người sử dụng trả 
lời câu hỏi vì sao 
Nó tích hợp dữ liệu theo một vài 
chiều và có khuynh hướng giúp 
người sử dụng trả lời một số câu hỏi 
ai, cái gì, khi nào, ở đâu và người nào 
/ cái nào 
Nâng cao chất lượng với công nghệ 
khai phá văn bản cho việc tóm tắt tài 
liệu hay phân loại tài liệu 
Nâng cao chất lượng với công nghệ 
khai phá dữ liệu cho việc tóm tắt, 
phân lớp, phân cụm dữ liệu đã được 
định dạng hay tìm sự kết hợp 
Nguồn dữ liệu nên được tích hợp trong 
file hệ thống hay CSDL XML 
Nguồn dữ liệu có thể được tích hợp 
trong CSDL quan hệ 
3.3. Quy trình kho tài liệu 
Kho tài liệu bao gồm 6 quy trình chính: 
- Chứng thực nguồn tài liệu 
- Truy xuất tài liệu 
- Thao tác tiền xử lý 
- Thao tác phân tích văn bản 
60 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ 
- Quản lý kho tài liệu 
- Hỗ trợ thao tác người dùng cuối 
Theo [5], ba bước truy xuất tài liệu, thao tác tiền xử lý, thao tác phân tích văn 
bản tương ứng quá trình xử lý chiết, chuyển đổi và nạp trong kho dữ liệu truyền thống. 
Trong khi 2 bước cuối, quản lý kho tài liệu và hỗ trợ thao tác người dùng cuối, giống 
như duy trì kho dữ liệu. 
3.3.1. Chứng thực nguồn tài liệu 
Bước đầu tiên trong quy trình tài liệu là để chứng thực tài liệu được đưa vào kho. 
Trước hết, chúng ta mô tả 3 cách để chứng thực tài liệu: danh sách nguồn, tìm theo từ 
khóa, và tìm theo chủ đề. 
Tìm tiềm năng nguồn tài liệu: Bắt đầu với tìm kiếm Web rộng là cách thông 
dụng nhất của việc tìm kiếm tiềm năng nguồn tài liệu nhưng có những kỹ thuật khác 
như là luật thông thường, sẽ được cung cấp kết quả chất lượng cao. 
3.3.2. Truy xuất tài liệu 
Quy trình truy xuất tài liệu là tương tự như giai đoạn chiết dữ liệu trong kho dữ 
liệu truyền thống. Chúng ta đã chứng thực nguồn của tài liệu, chúng ta cần lập lịch truy 
xuất chúng. Khi chúng ta nhìn thấy thảo luận về kiến trúc của kho tài liệu, máy chủ truy 
xuất hoạt động như là một đại lý để thu thập tài liệu và nạp chúng vào kho. Không 
giống như kho dữ liệu, chúng không có công cụ đặc biệt giống như những trình cung 
cấp bởi Informatica, Sagent được thiết kế để đưa văn bản vào kho tài liệu. Có một vài 
nhân tố để xem xét khi phát triển bộ lập lịch truy xuất tài liệu. 
- Khả năng băng thông 
- Tốc độ truy xuất của đối tượng trang Web 
- Bản sao lập lịch của máy chủ file bên trong 
- Quyền ưu tiên của đối tượng tài liệu 
3.3.3. Các thao tác tiền xử lý 
Tương tự bước chuyển đổi dữ liệu trong kho dữ liệu. Để xử lý toàn bộ tài liệu 
trong kho, ba bước tiền xử lý cơ bản nên thực hiện: 
Đặc tính tập chứng thực: Nhiều người trong chúng ta quen làm việc với bảng 
mã ASCII. Có 2 tập đặc tính có phương pháp chiếm ưu thế cho miêu tả đặc tính trong 
ứng dụng máy tính. Một tiêu chuẩn mới hơn, UNICODE nổi trội hơn về phối hợp giải 
mã bởi vì nó có khả năng đưa ra nhiều đặc tính hơn ASCII. 
Định dạng quá trình chuyển đổi: Tài liệu đến trong vô số định dạng. Có một 
vài từ xử lý thông thường, bảng tính, sự trình diễn, và lấy ra định dạng. Quá trình này 
phụ thuộc vào công cụ xử lý sẽ được sử dụng trong các bước sau, những tài liệu có thể 
 LÊ VĂN HÒA 61 
cần để được chuyển đổi đến một định dạng đích có thể chấp nhận được trong các ứng 
dụng. 
Chứng thực ngôn ngữ và máy dịch: Một vài công cụ, như công cụ phân loại 
phân tích, là ngôn ngữ đặc biệt, khi chứng thực ngôn ngữ được sử dụng trong một tài 
liệu quan trọng. Tài liệu với thẻ đánh dấu một vài ngôn ngữ đặc biệt sử dụng thẻ siêu dữ 
liệu. Chương trình chứng thực ngôn ngữ phải được xác định. Nếu một tài liệu có giá trị 
cao nhưng không phải trong ngôn ngữ phù hợp cho công cụ xử lý văn bản, thì nó phải 
được dịch. 
3.3.4. Các thao tác phân tích văn bản 
Thao tác phân tích văn bản giống như thao tác nạp dữ liệu vào kho tài liệu. Thao 
tác tiền xử lý đã được hoàn tất, công việc thật sự bắt đầu. Thao tác này bao gồm: Lập 
chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, phân cụm, máy dịch. 
3.3.5. Quản lý kho tài liệu 
Bây giờ chúng ta đã tạo ra một kho tài liệu và mở nó trên Web và phần còn lại là 
của tổ chức, chúng ta phải quản lý và chăm sóc để nó hoạt động bình thường. Thêm vào 
đó để xử lý những nhiệm vụ được mô tả ở trước, người quản trị kho tài liệu sẽ tìm 
chúng với một vài nhiệm vụ cơ bản, bao gồm: Duy trì hệ thống, duy trì siêu dữ liệu, lưu 
trữ, cắt tỉa và làm linh khiết 
3.3.6. Thao tác hỗ trợ người dùng cuối 
Thao tác người dùng cuối là thao tác quan trọng nhất của kho tài liệu. Tài liệu có 
thể được tập hợp, chuyển đổi, và dịch khi cần thiết, đánh chỉ mục, gom vào vùng đơn 
giản, tóm tắt, đưa đến người đọc, và cuối cùng lưu trữ trong kho tài liệu. Bây giờ người 
dùng cuối, từ phân tích công việc trong siêu thị và kế hoạch để đưa ra chiến lược tìm 
kiếm cạnh tranh thông minh đưa ra phía trước để giải quyết phàn nàn của khách hàng. 
3.4. Kiến trúc kho tài liệu 
Dựa trên Các thành phần chính của kho tài liệu, Quy trình kho tài liệu và mối 
liên hệ giữa kho dữ liệu truyền thống và kho tài liệu, tôi xây dựng kiến trúc kho tài liệu 
Các thành phần trong kiến trúc kho tài liệu: 
Nguồn dữ liệu tác nghiệp là dữ liệu văn bản và dữ liệu từ các nguồn tài liệu 
không có cấu trúc. Đây là dữ liệu chiếm phần lớn trong các doanh nghiệp và tổ chức. 
Máy chủ thu thập tài liệu có nhiệm vụ chiết dữ liệu từ các nguồn dữ liệu tác 
nghiệp thông qua việc truy xuất tài liệu từ nguồn dữ liệu tác nghiệp. 
Dữ liệu sau khi chiết sẽ qua quá trình tiền xử lý để chuyển dữ liệu về định dạng 
thích hợp trong kho dữ liệu, đồng thời trong quá trình này dữ liệu sẽ được làm sạch. 
Máy chủ phân tích văn bản có nhiệm vụ đưa đữ liệu sau khi chuyển đổi vào kho 
62 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ 
tài liệu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, 
phân cụm, máy dịch. Sau quá trình này dữ liệu từ nguồn tác nghiệp sẽ được đưa vào kho 
để phục vụ quá trình phân tích và trích rút tri thức. Kho tài liệu đặc trưng với 4 thuộc 
tính: 
- Văn bản không có cấu trúc đơn giản hay kiểu văn bản đơn giản 
- Văn bản được trích rút từ nhiều nguồn 
- Đặc trưng chủ yếu của văn bản được tự động chiết và lưu trữ rõ ràng 
- Kho tài liệu được thiết kế để tích hợp ngữ nghĩa văn bản được quan hệ. 
Hình 2. Kiến trúc kho tài liệu 
4. Kết luận và hướng phát triển 
Bài viết đã phân tích vai trò của kho dữ liệu, những vấn đề còn tồn tại ảnh 
hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Đồng thời, 
bài viết đã chỉ ra được mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu làm nền 
tảng cho việc xây dựng kiến trúc kho tài liệu. Nhờ vào kiến trúc kho tài liệu chúng ta có 
thể biết được quy trình để xây dựng kho dữ liệu từ nguồn dữ liệu là các văn bản và tài 
liệu không có cấu trúc. 
Bài viết chỉ dừng lại ở mức độ xây dựng kiến trúc kho tài liệu dựa vào các công 
trình nghiên cứu của các tác giả. Hướng phát triển của đề tài sẽ xây dựng một kho dữ 
liệu văn bản dựa vào kiến trúc đã xây dựng. 
Truy xuất 
tài liệu Văn 
bản 
Máy chủ thu 
thập tài liệu 
Tiền xử lý 
Máy chủ 
phân tích 
văn bản 
Kho văn 
bản 
Khối văn 
bản 
Nguồn 
tài liệu 
không có 
cấu trúc 
Chợ văn 
bản 
 Tóm tắt 
 Phân cụm 
 Máy dịch 
 Lập chỉ mục 
 Trích chọn đặc trưng 
 Phân loại 
 LÊ VĂN HÒA 63 
TÀI LIỆU THAM KHẢO 
[1]. Nguyễn Thanh Bình, Trần Hiếu, Xây dựng hệ thống tích hợp thông tin hỗ trợ cho hệ 
thống tư vấn học tập trực tuyến, Luận văn thạc sĩ khoa học, Đại học Khoa học – Đại 
học Huế, Huế, 2007. 
[2]. Nguyễn Thanh Bình, Lê Văn Hòa, Giải pháp Web cho dịch vụ xây dựng kho dữ liệu. 
Luận văn thạc sĩ khoa học, Trường Đại học Khoa học – Đại học Huế, Huế, 2010. 
[3]. Byung-Kwon Park, Il-Yeol Song, Toward Total Business Intelligence Incorporating 
Structured and Unstructured Data, Uppsala – Sweden, 2011. 
[4]. Frank S.C. Tseng, Design of a multi-dimensional query expression for document 
warehouses, Department of Information Management, National Kaohsiung First 
University of Science and Technology, Kaohsiung 811, Taiwan, ROC, 2004. 
[5]. Sullivan, Dan, Document Warehousing and Text Mining, John Wiley, 2011. 
[6]. Shufu, Wu, Document Warehousing, Dept. of Information Management, NTU, 2004. 
[7]. Kalli Srinivasa Nageswara Prasad, Prof. S. Ramakrishna, Text Analytics to Data 
Warehousing, International Journal on Computer Science and Engineering, 2010. 
BUILDING AN ARCHITECTURE OF THE DOCUMENT WAREHOUSES 
BASED ON THE RELATIONSHIPS BETWEEN TRADITIONAL DATA 
WAREHOUSES AND DOCUMENT WAREHOUSES 
Le Van Hoa 
Faculty of Hospitality and Tourism, Hue University 
Abstract. This paper represents the process of learning the components, the process of 
building document warehouses and the role of document warehouses which lead to the 
awareness toward the need document warehousing with businesses and organizations that 
need quick decisions with high precision. Based on the similarity between the stages in the 
process of building traditional data warehouses and document warehouses, the architecture 
of the document warehouses is proposed. The reliability and high accuracy of proposed 
architecture could be ensured by means of the researches that demonstrate the similarities 
between the process of building a traditional data warehouses and document warehouses. 

File đính kèm:

  • pdfxay_dung_kien_truc_kho_tai_lieu_dua_tren_moi_lien_he_giua_kh.pdf