Thông tin tài liệu
1
H
Ọ
C
VI
Ệ
N
CÔNG
NGH
Ệ
BƯU
CHÍNH
VIỄ
N
THÔNG
NGUY
Ễ
N
ANH
NGUYÊN
ĐỀ TÀI:
NGHIÊN
C
Ứ
U
QUY
TRÌNH
ETL
TRONG
KHO
D
Ữ
LI
Ệ
U
Ứ
NG
D
Ụ
NG
VÀO
H
Ệ
TH
Ố
NG
D
Ữ
LI
Ệ
U
KINH
DOANH
TRONG
DOANH
NGHI
Ệ
P
VI
Ễ
N
THÔNG
Chuyên
ngành:
Khoa
h
ọ
c
máy
tính
Mã
s
ố
:
60.48.01
TÓM
T
Ắ
T
LU
ẬN
VĂN
THẠC
SĨ
HÀ NỘI -2012
2
Lu
ận văn đượ
c
hoàn
thành
t
ạ
i:
HỌC
VIỆN
CÔNG
NGHỆ
BƯU
CHÍNH
VIỄN
THÔNG
Người hướng dẫn khoa học:
TS PHẠM THẾ QUẾ
Phản biện
1:………………………………………………………………………….
………………………………………………………………………….
………………………………………………………………………….
Phản biện 2:…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Côngnghệ
Bưu chính Viễn thông
Vào
lúc:
giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
-
Thư việ
n
c
ủ
a
H
ọ
c
vi
ệ
n
Công
ngh
ệ Bưu chính Viễ
n
thông
3
M
Ở
ĐẦ
U
1.
Lý
do
ch
ọn
đề
tài
Ngành
công
nghi
ệ
p
vi
ễ
n
thông
sau
nh
ững năm phát triển đang lưu trữ
m
ộ
t
kh
ối lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
,
bao
g
ồ
m
các
d
ữ
li
ệu như thông tin về
khách
hàng,
chi
ti
ế
t
cu
ộ
c
g
ọ
i,
các
d
ị
ch
v
ụ
thuê
bao,
thông
tin
c
ả
nh
b
ả
o
tình
tr
ạ
ng
h
ệ
th
ố
ng
m
ạ
ng
vi
ễ
n
thông,
d
ữ
li
ệ
u
v
ề
h
ệ
th
ố
ng
cáp
vi
ễn thông v.v Lượ
ng
d
ữ
li
ệ
u
kh
ổ
ng
l
ồ
này
n
ếu đượ
c
khai thác đúng cách sẽ
là
m
ộ
t
l
ợ
i
th
ế
cho
các
doanh
nghi
ệ
p
vi
ễ
n
thông
trong
vi
ệ
c
tung
ra
các
d
ị
ch
v
ụ chăm sóc khách hàng
hay
các
ứ
ng
d
ụ
ng
mang
tính
th
ự
c
ti
ễn cao,
đồng nghĩa vớ
i
vi
ệc tăng cơ hộ
i
c
ạnh tranh đố
i
v
ớ
i
các
doanh
nghi
ệ
p
khác.
T
ừ đó yêu cầu đặ
t
ra
vi
ệ
c
xây
d
ự
ng
kho
d
ữ
li
ệ
u
t
ừ
nh
ữ
ng
ngu
ồ
n
d
ữ
li
ệ
u
trên
ph
ụ
c
v
ụ
cho
vi
ệ
c
phân
tích
kinh
doanh
t
ại các đơn vị
vi
ễ
n
thông.
Tuy
nhiên
vi
ệ
c
xây
d
ự
ng
m
ộ
t
h
ệ
th
ố
ng
nh
ư
th
ế
v
ấ
p
ph
ả
i
m
ộ
t
s
ố
h
ạ
n
ch
ế
v
ề
m
ặ
t
k
ỹ
thu
ậ
t,
đặ
c
bi
ệ
t
là
khi
kích
th
ướ
c
cũn
g
nh
ư
độ
ph
ứ
c
t
ạ
p
c
ủ
a
môi
tr
ườ
ng
thông
tin
tă
ng
lên.
L
ư
u
tr
ữ
phân
tán
ở
nhi
ề
u
d
ạ
ng
không
t
ươ
ng
thích
v
ớ
i
nhau,
th
ậ
m
chí
còn
ở
nh
ữ
ng
d
ạ
ng
phi
c
ấ
u
trúc.
Nhi
ề
u
h
ệ
CSDL
đ
ã
đượ
c
xây
d
ự
ng
không
t
ươ
ng
thích
v
ớ
i
nhau
và
không
t
ươ
ng
thích
v
ớ
i
nh
ữ
ng
h
ệ
thông
tin
m
ớ
i
đượ
c
xây
d
ự
ng.
Nhi
ề
u
khách
hàng
không
tho
ả
mãn
v
ớ
i
nh
ữ
ng
h
ệ
th
ố
ng
thông
tin
hi
ệ
n
th
ờ
i.
Kho
d
ữ
li
ệu thườ
ng
bao
g
ồ
m
các
thành
ph
ầ
n
khác
nhau,
m
ỗ
i
thành
ph
ầ
n
có
thi
ế
t
k
ế
,
kĩ thuậ
t
và
công
c
ụ riêng [6]. Trong đó hệ
th
ố
ng
ETL
là
m
ộ
t
thành
ph
ầ
n
chính
ch
ị
u
trách
nhi
ệ
m
cho
quá
trình
ETL
(
Extract,
Transform,
Load)
trong
kho
kho
d
ữ
li
ệ
u;
cho
phép
trích
rút
các
d
ữ
li
ệ
u
t
ừ
nhi
ề
u
ngu
ồ
n
khác
nhau,
làm
s
ạ
ch,
tùy
ch
ỉ
nh
và
chuy
ển đổ
i,
và
cu
ố
i
cùng
t
ả
i
vào
kho
d
ữ
li
ệ
u[1].
Vi
ệ
c
xây
d
ự
ng
ETL
chi
ếm đế
n
80%
phát
tri
ể
n
d
ự
án
và
55%
th
ờ
i
gian
c
ủ
a
kho
d
ữ
li
ệ
u
[4].
Vì
v
ậ
y
vi
ệc đánh giá đúng vai trò củ
a
quá
trình
ETL
t
ừ đó có thể
th
ể
mô
hình
hóa,
thi
ế
t
k
ế
và
t
ối ưu ETL trong việ
c
xây
d
ự
ng
kho
d
ữ
li
ệ
u
s
ẽ
quy
ết đị
nh
s
ự
thành
b
ạ
i
c
ủ
a
kho
d
ữ
li
ệ
u
[6].
Với mục đích nghiên cứu về
các
quá
trình
ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài
“Nghiên
cứu
qu
y
trình
ETL
trong
kho
dữ
liệu
ứng
dụng
vào
hệ
thống
dữ
liệu
kinh
doanh
trong
doanh
nghiệp
viễn
thông
”
.
1.
Mụ
c
đ
ích
c
ủ
a
đề
tài:
Ti
ế
p
c
ậ
n
các
ph
ươ
ng
pháp
tìm hiểu các bước trong một quy trinh
xây
dựng một hệ thống ETL, các phương án xử lý trong từng trường hợp cụ thể để có thể áp
dụng trong các bài toán thực tế.
2.
Đố
i
t
ượ
ng
và
ph
ạ
m
vi
nghiên
c
ứ
u:
Vi
ệ
c
nghiên
c
ứ
u
s
ẽ
t
ậ
p
trung
vào
lý
thuy
ế
t
xây
d
ự
ng
h
ệ
th
ố
ng
ETL,
áp
d
ụ
ng
vào
xây
d
ự
ng
ch
ức năng trích xuấ
t
v
ớ
i
ngu
ồ
n
d
ữ
li
ệ
u
t
ừ
h
ệ
4
th
ố
ng
d
ữ
li
ệ
u
Vinaphone.
3.
Ph
ươ
ng
pháp
nghiên
c
ứ
u:
Tìm
hi
ể
u
các
tài
li
ệ
u
liên
quan
đế
n
các
k
ỹ
thu
ậ
t
ELT
trong
kho
d
ữ
li
ệu, các phương pháp xây dự
ng
h
ệ
th
ố
ng
ETL.
4.
K
ế
t
c
ấ
u
c
ủ
a
lu
ậ
n
v
ă
n
Lu
ận văn gồm 3 chương
Chương
1:
T
ổ
ng
quan
v
ề
ETL
trong
kho
d
ữ
li
ệ
u
Chương này trình bày các khái niệ
m,
các
thành
ph
ầ
n,
ch
ức năng trong kho dữ
li
ệ
u,
các
ứ
ng
d
ụng cũng như nhữ
ng
mô
hình
kho
d
ữ
li
ệ
u.
T
ổ
ng
quan
v
ề
ETL,
các
thành
ph
ầ
n
và
vai
trò
ETL
trong
kho
d
ữ
li
ệ
u
Chương
2:
Ki
ế
n
trúc
và
các
thành
ph
ầ
n
ETL
Chương này tậ
p
trung
vào
chi
ti
ế
t
các
thành
ph
ầ
n
c
ủa ETL, các bướ
c
th
ự
c
hi
ệ
n
c
ủ
a
m
ộ
t
h
ệ
th
ố
ng
ETL,
nh
ữ
ng
v
ấn đề
g
ặ
p
ph
ả
i
v
ớ
i
m
ỗ
i
thành
ph
ầ
n
c
ụ
th
ể
trong
m
ộ
t
h
ệ
th
ố
ng
ETL.
Các
bi
ệ
n
pháp
gi
ả
i
quy
ế
t
v
ớ
i
m
ỗ
i
tình
hu
ố
ng
trong
nh
ữ
ng
bài
toán
c
ụ
th
ể
.
Chương
3:
Xây
d
ự
ng
modul
trích
xu
ấ
t
d
ữ
li
ệ
u
trong
ETL.
Chương cuố
i
cùng
c
ủ
a
lu
ận văn trình bày mộ
t
th
ử
nghi
ệ
m
nh
ỏ
áp
d
ụ
ng
ph
ầ
n
lý
thuy
ết đã nêu ở
2
chương trước. Đó là áp dụ
ng
th
ử
nghi
ệm phương pháp trích xuất đã
nghiên
c
ứ
u
trong
ph
ầ
n
lý
thuy
ế
t
vào
bài
toán
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
d
ữ
li
ệ
u
chi
ti
ế
t
cướ
c
và
d
ữ
li
ệ
u
c
ủ
a
h
ệ
th
ố
ng
tr
ả trướ
c.
5
CHƯƠNG
1.
TỔNG
QUAN
VỀ
ETL
TRONG
KHO
DỮ
LIỆU
1.
Kho
d
ữ
li
ệ
u
1.1.
Khái
ni
ệ
m
kho
d
ữ
li
ệ
u
Định nghĩa
do W.H.Inmon đưa ra :
Kho
d
ữ
li
ệ
u
(Data
Warehouse)
là
t
ậ
p
h
ợ
p
d
ữ
li
ệ
u
tích
h
ợp theo hướ
ng
ch
ủ đề
,
tương đố
i
ổn đị
nh,c
ậ
p
nh
ậ
t
đị
nh
k
ỳ
nh
ằ
m
h
ỗ
tr
ợ
quá
trình
t
ạ
o
quy
ế
t
đị
nh.[2]
Như vậ
y,
có
th
ể
th
ấ
y
r
ằng thông thườ
ng
m
ộ
t
kho
d
ữ
li
ệu được xem như một cơ sở
d
ữ
li
ệ
u
đượ
c
duy
trì
riêng
bi
ệ
t
trên cơ sở
d
ữ
li
ệ
u
t
ừ
nhi
ề
u
ngu
ồ
n
cơ sở
d
ữ
li
ệ
u
tác
nghi
ệ
p.
1.1.2.
Các
đặc
trưng
của
kho
dữ
liệu
M
ộ
t
kho
d
ữ
li
ệ
u
đượ
c
xác
đị
nh
là
m
ộ
t
c
ơ
s
ở
d
ữ
li
ệ
u
trong
đ
ó
có
ch
ứ
a
b
ố
n
đặ
c
tính
sau:
h
ướ
ng
ch
ủ đề
,
tính
ổ
n
đị
nh,
đượ
c
tích
h
ợ
p,
g
ắ
n
v
ớ
i
th
ờ
i
gian.
1.1.3.
Kiến
trúc
kho
dữ
liệu
Mô
hình
ki
ế
n
trúc
c
ủ
a
h
ệ
th
ố
ng
kho
d
ữ
li
ệu cơ bả
n
g
ồ
m
có
ba
thành
ph
ầ
n:
D
ữ
li
ệ
u
ngu
ồ
n,
vùng
d
ữ
li
ệ
u
trung
gian
và
kho
d
ữ
li
ệ
u
.
Hình
1.1.
Ki
ế
n
trúc
kho
d
ữ
li
ệ
u
1.1.3.1.
Kho
d
ữ
li
ệ
u
ch
ủ
đề
(Datamart)
Kho
d
ữ
li
ệ
u
ch
ủ đề
(Data
Mart)
c
ũ
ng
là
m
ộ
t
cơ
s
ở
d
ữ
li
ệ
u
có
nh
ữ
ng
đặ
c
đ
i
ể
m
gi
ố
ng
v
ớ
i
kho
d
ữ
li
ệ
u
nh
ư
ng
quy
mô
c
ủ
a
nó
nh
ỏ
h
ơ
n
và
l
ư
u
tr
ữ
d
ữ
li
ệ
u
v
ề
m
ộ
t
lĩn
h
v
ự
c,
m
ộ
t
chuyên
ngành
c
ụ
th
ể
.
Có
2
lo
ạ
i
-
Datamart
ph
ụ
thu
ộ
c.
6
-
Datamart độ
c
l
ậ
p.
1.1.3.2.
Siêu
d
ữ
li
ệ
u
(MetaData)
Metadata
là
m
ộ
t
lo
ạ
i
“d
ữ
li
ệ
u
v
ề
d
ữ
li
ệ
u”,
nó
đượ
c
xây
d
ự
ng
nh
ằ
m
m
ụ
c
đ
ích
mô
t
ả
c
ấ
u
trúc
n
ộ
i
dung
v
ề
d
ữ
li
ệ
u
bên
trong
c
ơ
s
ở
d
ữ
li
ệ
u.
Metadata
có
ý
ngh
ĩ
a
đặ
c
bi
ệ
t
quan
tr
ọ
ng
trong
vi
ệ
c
xây
d
ự
ng
và
t
ổ
ch
ứ
c
l
ư
u
tr
ữ
d
ữ
li
ệ
u
c
ủ
a
Data
Warehouse.
1.1.3.3.
Cơ
sở
d
ữ
li
ệ
u
kho
d
ữ
li
ệ
u
Cơ sở
d
ữ
li
ệ
u
t
ậ
p
trung
là
m
ộ
t
n
ề
n
t
ảng cơ bả
n
c
ủa môi trườ
ng
kho
d
ữ
li
ệu. Cơ sở
d
ữ
li
ệ
u
này
h
ầ
u
h
ết được cài đặ
t
d
ự
a
trên
công
ngh
ệ
c
ủ
a
H
ệ
th
ố
ng
qu
ả
n
tr
ị cơ sở
d
ữ
li
ệ
u
quan
h
ệ
(RDBMS).
1.1.4.
Các
ứng
dụng
của
kho
dữ
liệu
Kho
d
ữ
li
ệu đượ
c
s
ử
d
ụ
ng
theo
ba
cách
chính:
Cách
s
ử
d
ụ
ng
truy
ề
n
th
ố
ng
Trong
cách
s
ử
d
ụ
ng
này
vi
ệ
c
khai
thác
thông
tin
d
ự
a
trên
các
công
c
ụ
truy
v
ấ
n
và
báo
cáo.
Nh
ờ
có
vi
ệ
c
trích
l
ọ
c,
tích
h
ợ
p
và
chuy
ể
n
đổ
i
các
d
ữ
li
ệ
u
thô
sang
d
ạ
ng
d
ữ
li
ệ
u
có
ch
ấ
t
l
ượ
ng
cao
và
có
tính
ổ
n
đị
nh.
H
ỗ
tr
ợ
tr
ự
c
tuy
ế
n
(OLAP)
N
ế
u
ngôn
ng
ữ
truy
v
ấ
n
chu
ẩ
n
SQL
và
các
công
c
ụ
làm
báo
cáo
truy
ề
n
th
ố
ng
ch
ỉ
có
th
ể
miêu
t
ả
nh
ữ
ng
gì
có
trong
c
ơ
s
ở
d
ữ
li
ệ
u
thì
phân
tích
tr
ự
c
tuy
ế
n
có
kh
ả
nă
ng
phân
tích
d
ữ
li
ệ
u,
xem
xét
xem
gi
ả
thuy
ế
t
là
đún
g
hay
sai.
Tuy
nhiên
phân
tích
tr
ự
c
tuy
ế
n
l
ạ
i
không
có
kh
ả
nă
ng
đư
a
ra
gi
ả
thuy
ế
t.
Do
kích
th
ướ
c
quá
l
ớ
n
và
có
tính
ch
ấ
t
ph
ứ
c
t
ạ
p
nên
khó
có
th
ể
s
ử
d
ụ
ng
Data
Warehouse
cho
m
ụ
c
đ
ích
này.
Công
ngh
ệ
khai
phá
d
ữ
li
ệ
u
(Data
mining)
Trong
hoàn
c
ả
nh
hi
ệ
n
nay
s
ự
phát
tri
ể
n
c
ủ
a
d
ữ
li
ệ
u
đặ
t
ra
yêu
c
ầ
u
ph
ả
i
l
ư
u
tr
ữ
d
ữ
li
ệ
u
ph
ứ
c
t
ạ
p
và
có
kích
th
ướ
c
l
ớ
n.
Vi
ệ
c
khai
phá
d
ữ
li
ệ
u
tr
ở
thành
m
ộ
t
nhu
c
ầ
u
khoa
h
ọ
c
và
trong
ho
ạ
t
độ
ng
th
ự
c
ti
ễ
n.
1.1.5.
Thiết
k
ế
CSDL
cho
kho
dữ
li
ệ
u
1.1.5.1.
Gi
ả
n
đồ
hình
sao
7
Gi
ả
n
đồ
hình
sao
đượ
c
đưa
ra
l
ần đầ
u
tiên
b
ở
i
Raph
Kimball
như
là
m
ộ
t
l
ự
a
ch
ọ
n
thi
ế
t
k
ế
CSDL
cho
kho
d
ữ
li
ệ
u.
Trong
gi
ả
n
đồ
hình
sao,
d
ữ
li
ệ
u
đượ
c
xác
đị
nh
và
phân
lo
ạ
i
theo
2
ki
ể
u:
s
ự
ki
ệ
n
(b
ả
ng
Fact)
và
chi
ề
u
(các
b
ả
ng
Dimension:
các
b
ả
ng
liên
k
ế
t).
1.1.5.2.
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
là
m
ộ
t
s
ự
m
ở
r
ộ
ng
c
ủ
a
gi
ả
n
đồ
hình
sao,
t
ạ
i
đó
m
ỗ
i
cánh
sao
không
ph
ả
i
là
m
ộ
t
b
ả
ng
Chi
ề
u
mà
là
nhi
ề
u
b
ả
ng.
Trong
d
ạ
ng
gi
ả
n
đồ
này,
m
ỗ
i
b
ả
ng
theo
chi
ề
u
c
ủ
a
gi
ả
n
đồ
hình
sao
đượ
c
chu
ẩ
n
hóa
hơn.
Gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
c
ả
i
thi
ệ
n
năng
su
ấ
t
truy
v
ấ
n,
t
ố
i
thi
ể
u
không
gian
đĩa
c
ầ
n
thi
ế
t
để
lưu
tr
ữ
d
ữ
li
ệ
u
và
c
ả
i
thi
ệ
n
năng
su
ấ
t
nh
ờ
vi
ệ
c
ch
ỉ
ph
ả
i
k
ế
t
h
ợ
p
nh
ữ
ng
b
ả
ng
có
kích
th
ướ
c
nh
ỏ
hơn
thay
vì
ph
ả
i
k
ế
t
h
ợ
p
nh
ữ
ng
b
ả
ng
có
kích
thướ
c
l
ớ
n
l
ạ
i
không
chu
ẩ
n
hóa.
1.1.5.3.
Gi
ả
n
đồ
k
ế
t
h
ợ
p
Là
k
ế
t
h
ợ
p
gi
ữ
a
gi
ả
n
đồ
hình
sao
d
ự
a
trên
b
ả
ng
S
ự
ki
ệ
n
và
nh
ữ
ng
b
ả
ng
Chi
ề
u
không
chu
ẩ
n
hóa
theo
các
chu
ẩ
n
1,
2,
3
và
gi
ả
n
đồ
hình
tuy
ế
t
r
ơ
i
trong
đ
ó
t
ấ
t
c
ả
các
b
ả
ng
Chi
ề
u
đề
u
đã
đượ
c
chu
ẩ
n
hóa.
1.2.
ETL
và
vai
trò
ETL
trong
kho
dữ
liệu
1.2.1.
Khái
niệm
ETL
H
ệ
th
ố
ng
ETL
(Extract-Transform-Load)
là
n
ề
n
t
ả
ng
c
ủ
a
kho
d
ữ
li
ệ
u.
M
ộ
t
h
ệ
th
ố
ng
ETL đượ
c
thi
ế
t
k
ế
cho
vi
ệ
c
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
các
h
ệ
th
ố
ng
ngu
ồ
n,
chuy
ển
đổ
i
d
ữ
li
ệ
u
đả
m
b
ả
o
các
ngu
ồn độ
c
l
ậ
p
có
th
ể
tích
h
ợ
p,
và
cu
ố
i
cùng
d
ữ
li
ệ
u
sau
chuy
ển đổi được đưa
vào
kho
d
ữ
li
ệ
u
ph
ụ
c
v
ụ
m
ục đích phát triể
n
ứ
ng
d
ụ
ng
hay
ph
ụ
c
v
ụ
các
m
ục đích kho dữ
li
ệ
u.
[7,
tr.xii]
1.2.1
Vai
trò
của
ETL
trong
kho
dữ
liệu
H
ệ
th
ố
ng
ETL
ph
ải
đ
óng
m
ộ
t
vai
trò
quan
tr
ọ
ng
trong
vi
ệ
c
cung
c
ấ
p
cho
các
ứ
ng
d
ụ
ng
ngườ
i
s
ử
d
ụ
ng
m
ộ
t
khuôn
d
ạ
ng
d
ữ
li
ệ
u
phù
h
ợ
p.
B
ả
n
ch
ấ
t
Kho
d
ữ
li
ệ
u
là
quá
trình
l
ấ
y
d
ữ
li
ệ
u
t
ừ
các
h
ệ
th
ố
ng
LS
và
h
ệ
th
ống cơ sở
d
ữ
li
ệ
u
tác
nghi
ệ
p
và
chuy
ển đổ
i
thành
thông
tin
có
t
ổ
ch
ứ
c
trong
m
ột đị
nh
d
ạ
ng
thân
thi
ệ
n
v
ới ngườ
i
s
ử
d
ụng; trên cơ sở đó có thể
phân
tích
d
ữ
li
ệ
u
và
h
ỗ
tr
ợ
quy
ết đị
nh
kinh
doanh.
Quá
b
ắt đầ
u
t
ừ
các
h
ệ
th
ố
ng
ngu
ồn đế
n
khi
d
ữ
li
ệ
u
được đưa vào các bả
ng
chi
ề
u
hay
b
ả
ng
s
ự
ki
ệ
n
s
ẽ
chi
phí
ít
nh
ấ
t
70%
th
ờ
i
gian,
n
ỗ
l
ự
c
c
ủ
a
h
ầ
u
h
ế
t
các
d
ự
án
kho
d
ữ
li
ệ
u.
Trong
tài
li
ệu [7, tr.23] có đưa ra một định nghĩa về
kho
d
ữ
li
ệ
u
nói
lên
vai
trò
c
ủ
a
ETL
trong
kho
d
ữ
li
ệ
u
8
1.2.2
Các
thành
phần
của
ETL
.
Trích
xu
ấ
t:
D
ữ
li
ệ
u
ngu
ồ
n
t
ừ
r
ấ
t
nhi
ề
u
ngu
ồ
n
khác
nhau
và
có
th
ể
có
r
ấ
t
nhi
ề
u
c
ấ
u
trúc
d
ữ
li
ệu khác nhau như nhiề
u
lo
ại cơ sở
d
ữ
li
ệ
u,
t
ừ
t
ệ
p
d
ữ
li
ệ
u
excel
hay
t
ừ
t
ệ
p
d
ữ
li
ệ
u
thô.
Vì
th
ế
nhi
ệ
m
v
ụ
chính
c
ủa bướ
c
này
là
trích
xu
ấ
t
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
ngu
ồn để
x
ử
lý.
Chuy
ển đổ
i
:
Đây là quá trình rấ
t
ph
ứ
c
t
ạp
dùng để
chuy
ển đổ
i
d
ữ
li
ệ
u
ngu
ồ
n
m
ộ
t
mô
hình
khác
phù
h
ợ
p
và
chuy
ển vào cơ sở
d
ữ
li
ệu đích.
T
ả
i
d
ữ
li
ệ
u
:
Đây là quá trình
đẩ
y
d
ữ
li
ệu sau khi đã đượ
c
chuy
ển đổ
i
vào
kho
d
ữ
li
ệ
u.
D
ữ
li
ệu sau khi đã đượ
c
chuy
ển đổ
i
s
ẽ đượ
c
t
ả
i
vào
kho
d
ữ
li
ệ
u.
9
CHƯƠNG
2.
KIẾN
TRÚC
VÀ
CÁC
THÀNH
PHẦN
CỦA
ETL.
2.1.
Tổng
quan
ETL
2.1.1.
Những
đặc
điểm
chính
của
ETL
M
ỗ
i
ch
ức năng ETL thự
c
hi
ệ
n
m
ộ
t
m
ục đích quan trọ
ng.
Khi
mu
ố
n
chuy
ể
n
d
ữ
li
ệ
u
t
ừ
h
ệ
th
ố
ng
ngu
ồ
n
vào
h
ệ
th
ống thông tin được lưu trữ
trong
kho
d
ữ
li
ệ
u,
vi
ệ
c
th
ự
c
hi
ệ
n
các
ch
ức năng này đề
u
c
ầ
n
thi
ết. Để thay đổ
i
d
ữ
li
ệu thành thông tin, trướ
c
tiên
ph
ả
i
xác đị
nh
các
d
ữ
li
ệ
u.
Sau
khi
xác đị
nh
d
ữ
li
ệ
u,
không
th
ể đơn giản là đổ
d
ữ
li
ệ
u
vào
kho.
D
ữ
li
ệ
u
ph
ải đượ
c
trích
xu
ấ
t
và
qua
các
bi
ến đổ
i
phù
h
ợp để đượ
c
chuy
ển đổ
i
thành
thông
tin.
Sau
khi đã c
huy
ển đổ
i
d
ữ
li
ệ
u,
nó
v
ẫ
n
không
h
ữ
u
ích
v
ới ngườ
i
s
ử
d
ụ
ng
cu
ối cùng cho đế
n
khi
nó đượ
c
chuy
ể
n
vào
kho
d
ữ
li
ệ
u.
T
ả
i
d
ữ
li
ệ
u
là
m
ộ
t
ch
ức năng
cu
ố
i
cùng
. Như vậ
y
ta
ph
ả
i
th
ự
c
hi
ệ
n
c
ả
3
ch
ức năng của ETL để
chuy
ển đổ
i
d
ữ
li
ệ
u
thành
thông
tin.
2.1.2.
Các
chi
phí
cho
h
ệ
th
ố
ng
ETL
Nói
chung
ta
s
ẽ
tiêu
t
ố
n
kho
ả
ng
50-70%
công
s
ứ
c
c
ủ
a
d
ự
án
vào
các
ch
ức năng ETL.
2.1.3.
Yêu
cầu
với
ETL
và
các
bước
ETL
Cho
bảng
sự
kiện
ETL
cho
bảng
chiều
Viết
các
thủ
tục
cho
tải
tất
cả
dữ
liệu
Tổ
chức
vùng
xử
lý
dữ
liệu
và
công
cụ
kiểm
thử
Kế
hoạch
cho
các
bảng
tổng
hợp
Xác
định
các
dữ
liệu
chuyển
đổi
và
các
luật
làm
sạch
Thiết
lập
các
luật
trích
xuất
dữ
liệu
Chuẩn
bị
cho
việc
ánh
xạ
giữa
các
thành
phần
dữ
liệu
đích
với
dữ
liệu
nguồn
Xác
định
nguồn
dữ
liệu,
cả
dữ
liệu
trong
và
ngoài
Xác
định
các
dữ
liệu
đích
cần
thiết
trong
kho
dữ
liệu
Hình
2.1.
Các
bướ
c
chính
c
ủ
a
m
ộ
t
quy
trình
ETL.
2.1.4.
Các
yếu
tố
quan
trọng
đối
với
ETL
-
Xác định được độ
ph
ứ
c
t
ạp và đa dạ
ng
c
ủ
a
các
h
ệ
th
ố
ng
ngu
ồ
n
d
ữ
li
ệu để
có
th
ể
xây
d
ự
ng
đượ
c
các
ch
ức năng trích xuấ
t
và
chuy
ển đổ
i
phù
h
ợ
p.
-
Xác định đượ
c
các
ki
ể
u
t
ả
i
và
th
ờ
i
gian
t
ả
i
cho
các
lo
ạ
i
d
ữ
li
ệu để có phương án phù hợ
p.
10
2.2.
Vùng
dữ
liệu
trung
gian
Trong
t
ấ
t
c
ả
các
ki
ế
n
trúc
kho
d
ữ
li
ệ
u,
luôn
có
m
ộ
t
vùng
ch
ứ
a
d
ữ
li
ệ
u
g
ọ
i
là
vùng
trung
gian
hay
còn
g
ọ
i
là
vùng
x
ử
lý.
D
ữ
li
ệ
u
đượ
c
chuy
ể
n
t
ừ
nhi
ề
u
ngu
ồ
n
vào
vùng
x
ử
lí
mà
không
thông
qua
(ho
ặ
c
r
ấ
t
ít)
công
đ
o
ạ
n
x
ử
lí
nào.
2.3.
Trích
xuất
dữ
liệu
2.3.1.
Xác
định
nguồn
dữ
liệu
Xác đị
nh
ngu
ồ
n
d
ữ
li
ệ
u
bao
g
ồ
m
vi
ệc xác đị
nh
t
ấ
t
c
ả
các
ngu
ồ
n
d
ữ
li
ệ
u
thích
h
ợ
p,
các
d
ữ
li
ệ
u
c
ầ
n
thi
ết để đưa vào kho dữ
li
ệ
u.
Hình
2.2.
Các
bước
xác
đị
nh
ngu
ồ
n
d
ữ
li
ệ
u
2.3.2.
Các
k
ỹ
thuật
trích
xuất
dữ
liệu
2.3.2.1
Các
lo
ạ
i
k
ỹ
thu
ậ
t
trích
xu
ấ
t
D
ữ
li
ệ
u
trong
h
ệ
th
ố
ng
ngu
ồ
n
có
th
ể rơi vào hai loạ
i.
Giá
tr
ị
hi
ệ
n
t
ạ
i.
H
ầ
u
h
ế
t
các
thu
ộ
c
tính
trong
các
h
ệ
th
ố
ng
ngu
ồn rơi vào loạ
i
này.
Ở
đây giá trị được lưu trữ
c
ủ
a
m
ộ
t
thu
ộ
c
tính
mô
t
ả
giá
tr
ị
c
ủ
a
thu
ộ
c
tính
ngay
th
ời điể
m
này
c
ủ
a
th
ờ
i
gian.
Các
giá
tr
ị
t
ạ
m
th
ờ
i
ho
ặ
c
nh
ấ
t
th
ờ
i.
Khi
các
giao
d
ị
ch
x
ả
y
ra,
các
giá
tr
ị
thay
đổi. Không có cách nào để
bi
ế
t
bao
lâu
giá
tr
ị
hi
ệ
n
t
ạ
i
s
ẽ
gi
ữ
nguyên
hay
s
ẽ thay đổ
i.
[...]... Mô hình kho dữ liệu chuyên đề DATA_CALL Hình 3.3 Kho dữ liệu chuyên đề DATA_CALL Chiều dữ liệu LAC_CELL_DIM: Chiều dữ liệu thông tin về vị trí của các cell BTS Chiều dữ liệu CALL_TYPE_DIM: Chiều dữ liệu thông tin về kiểu Chiều dữ liệu OWNER_DIM: Chiều dữ liệu thông tin về nhà mạng Chiều dữ liệu PROVINCE_DIM: Chiều dữ liệu thông tin về tỉnh thành Chiều dữ liệu ACTIVITY_TYPE_DIM: Chiều dữ liệu thông tin... thông tin kiểu giao dịch Chiều dữ liệu TIME_CALENDAR_DIM: Chiều dữ liệu thời gian Mô hình kho dữ liệu chuyên đề DATA_MTA Mô hình kho dữ liệu chuyên đề CDR 18 3.2.3.Nguồn dữ liệu 3.2.2.1 Dữ liệu từ hệ thống trả trước Nguồn dữ liệu: Dữ liệu được lưu trữ trong bảng dữ liệu DATA_CALL_HISTORY, DATA_MTA của hệ thống cơ sở dữ liệu của Vinaphone sử dụng hệ quản trị cơ sở dữ liệu ORACLE Tần xuất trích xuất:... Qua đó, có thể khẳng định xây dựng hệ thống ETL cho việc xây dựng hệ thống dữ liệu kinh doanh của doanh nghiệp là hết sức cần thiết đối với các doanh nghiệp Việc hiểu được tầm quan trọng và phương pháp xây dựng hệ thống ETL đóng vai trò quy t định trong việc xây dựng cho hệ thống kho dữ liệu nói riêng và các hệ thống dựa trên nền tảng kho dữ liệu nói chung 24 TÀI LIỆU THAM KHẢO [1] Arktos : towards... tươi dữ liệu và cập nhât dữ liệu Sau tải ban đầu, ta có thể duy trì kho dữ liệu và cập nhật nó với 2 phương thức: Cập nhật - ứng dụng cho dữ liệu thay đổi trong hệ thống nguồn Làm tươi – tải lại toàn bộ theo chu kỳ 2.5.3 Phương pháp tải với các bảng chiều Trong kho dữ liệu, ta sử dụng khóa sinh bởi hệ thống Bản ghi trong hệ thống nguồn có khóa của chúng Vì vậy, trước khi dữ liệu nguồn có thể đưa vào. .. việc trích rút dữ liệu - Ứng dụng phải đảm bảo tính mềm dẻo và linh động đối với các nguồn dữ liệu khác nhau - Cho phép theo dõi và cảnh báo về các thay đổi trong hệ thống dữ liệu nguồn cũng như vấn đề xảy ra trong quá trình khai thác 3.1.2 Phạm vi nguồn dữ liệu Hình 3.1 Mô hình hệ thố ng dữ liệu 16 - Dữ liệu tiêu thụ cuộc gọi và SMS - Dữ liệu tiêu thụ Data ( 3G+GPRS) - Dữ liệu CDR - Dữ liệu LACCELL... vào một tệp độc lập và sẽ được sử dụng để trích xuất dữ liệu cho kho dữ liệu việc tạo và duy trì trigger trong suốt các quá trình của hệ thống nguồn sẽ tăng thêm các chi phí tài nguyên và thời gian của hệ thống nguồn Nắm bắt trong các ứng dụng nguồn Kỹ thuật này được xem như nắm bắt dữ liệu ứng dụng hỗ trợ Nói cách khác, các ứng dụng nguồn được thực hiện để hỗ trợ cho việc nắm bắt dữ liệu cho kho dữ. .. các module chuyển đổi và tải dữ liệu để có thể tạo ra một bộ công cụ ETL hoàn chỉnh 23 KẾT LUẬN Luận văn nghiên cứu “NGHIÊN C ỨU QUY TRÌNH ETL TRONG KHO D Ữ LI Ệ U ỨNG D Ụ NG VÀO HỆ TH Ố NG D Ữ LI Ệ U KINH DOANH TRONG DOANH NGHIỆ P VI Ễ N THÔNG” đã được hoàn thành Phân tích công nghệ, cấu trúc, kiến trúc, và công cụ để xây dựng công cụ ETL phục vụ cho việc xây dựng kho dữ liệu Tìm hiểu các phương pháp,... trích xuất dữ liệu từ các nguồn dữ liệu với khuôn dạng khác nhau như Oracle, FoxPro, Excel Kết quả này cho thấy có thể áp dụng hệ thống cho hệ thống thực tế đang trong quá trình triển khai Trong tương tai học viên đề xuất phát triển tiếp các module chuyển đổi và module tải dữ liệu để tạo ra môt hệ thống ETL hoàn chỉnh phục vụ cho việc xây dựng kho dữ liệu không chỉ trong lĩnh vực viễn thông mà trong nhiều... trúc ứng dụng Hình 3.2 Kiến trúc ứng dụng Với yêu cầu cho phép mở rộng để đưa dữ liệu từ các nguồn khác nhau vào kho dữ liệu hệ thống trích xuất dữ liệu được thiết kế để việc mở rộng l thuận tiện nhất Ở đây các phương thức kết nối bao gồm - Kết nối dữ liệu từ hệ thống nguồn qua FTP, các tệp có định dạng Excel và FoxPro - Kết nối với dữ liệu Oracle qua kết nối cơ sở dữ liệu (ODBC, OCI) 17 3.2.2 Dữ liệu. .. trong dữ liệu gắn liền với thời gian như vậy đây là kiểu trích xuất định kỳ Nắm bắt thay đổi dữ liệu: Ở đây ta sử dụng phương pháp nắm bắt dữ liệu chậm sử dụng ngày tháng và nhãn thời gian Các luật trích xuất dữ liệu: *) Nguồn dữ liệu DATA_CALL_HISTORY - Chỉ lấy dữ liệu thuộc dạng thoại hay SMS - Các bản ghi dữ liệu lấy về phải có thông tin về dữ liệu trên các loại tài kho n khác rỗng *) Nguồn dữ liệu .
cứu
qu
y
trình
ETL
trong
kho
dữ
liệu
ứng
dụng
vào
hệ
thống
dữ
liệu
kinh
doanh
trong
doanh
nghiệp
viễn
thông
”
.
.
c
ủ
a
kho
d
ữ
li
ệ
u
[6].
Với mục đích nghiên cứu về
các
quá
trình
ETL
trong việc xây dựng kho dữ liệu, tôi chọn đề
tài
Nghiên
cứu
Ngày đăng: 17/02/2014, 08:47
Xem thêm: Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông, Nghiên cứu quy trình etl trong kho dữ liệu ứng dụng vào hệ thống dữ liệu kinh doanh trong doanh nghiệp viễn thông