tích hợp thông tin người dùng được trích rút từ các trang web cộng đồng vào một cơ sở dữ liệu người dùng chung

92 413 0
tích hợp thông tin người dùng được trích rút từ các trang web cộng đồng vào một cơ sở dữ liệu người dùng chung

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

MỤC LỤC DANH MỤC THUẬT NGỮ DANH MỤC HÌNH VẼ DANH MỤC BẢNG CHƢƠNG 1: ĐẶT VẤN ĐỀ 1.1 Phân tích trạng 1.2 Mục đích đề tài 1.3 Bố cục luận văn CHƢƠNG 2: TỔNG QUAN VỀ HỆ TÍCH HỢP THÔNG TIN CÁ NHÂN 10 2.1 Kiến trúc ETL 10 2.2 Hƣớng tới hệ tích hợp thông tin cá nhân 13 2.2.1 Biểu diễn ngƣời dùng 13 2.2.2 Hệ tích hợp thông tin cá nhân 17 2.3 Thảo luận .18 2.3.1 Ánh xạ liệu 18 2.3.2 Tích hợp liệu vào đích 21 CHƢƠNG 3: CÁC KỸ THUẬT GIẢI QUYẾT BÀI TOÁN 23 3.1 Ngôn ngữ luật .23 3.2 Chuyển đổi liệu 29 3.3 Tải liệu vào đích .33 3.4.1 Tính độ tƣơng quan hai ngƣời dùng 35 3.4.2 Giải thuật xác định ngƣời dùng giải xung đột 39 CHƢƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 43 Môi trƣờng cài đặt 43 4.1 4.1.1 Chuẩn bị liệu nguồn 43 4.4.2 Xây dựng cấu hình cho hệ tích hợp 47 4.2 Thử nghiệm đánh giá 52 CHƢƠNG 5: KẾT LUẬN 55 5.1 Các kết đạt đƣợc .55 5.2 Định hƣớng phát triển .56 TÀI LIỆU THAM KHẢO .57 PHỤ LỤC 58 DANH MỤC THUẬT NGỮ Thuật ngữ tiếng Anh ETL (Extract – Transform – Nghĩa tiếng Việt ETL trình lấy, trích liệu Trích chọn – Chuyển đổi – Tải Load) Source Nguồn Source Schema Lƣợc đồ nguồn Des (Destination) Đích Target schema Lƣợc đồ đích Extract Bóc tách Validate before transform Prepare before transform Transform Validate before load Prepare before load Chú giải nguồn, kiểm tra, biến đổi liệu để thực việc lƣu trữ liệu vào đích Cơ sở liệu nguồn Lƣợc đồ nguồn Cơ sở liệu đích Lƣợc đồ đích Quá trình trích chọn liệu Kiểm tra liệu Kiểm tra tính hợp lệ liệu, loại hợp lệ trƣớc bỏ liệu thô trƣớc đƣa vào chuyển đổi chuyển đổi Chuẩn bị trƣớc Chuẩn bị liệu trƣớc đƣa vào chuyển đổi chuyển đổi Chuyển đổi liệu Quá trình biến đổi liệu Kiểm tra liệu Kiểm tra tính hợp lệ liệu, loại hợp lệ trƣớc tải bỏ liệu thô trƣớc tải vào đích Chuẩn bị trƣớc Chuẩn bị liệu trƣớc tải vào đích tải liệu Load DB Tải liệu vào đích Tải liệu Cơ sở liệu Cơ sở liệu (Database) Person DB MongoDB Cơ sở liệu Cơ sở liệu Cơ sở liệu Mongo Mongo SK (Strong Key) Khóa mạnh WK (Weak Key) Khóa yếu NF (Normal Field) Cơ sở liệu ngƣời dùng ngƣời dùng Khóa có độ ảnh hƣởng mạnh Khóa có độ ảnh hƣởng thấp Trƣờng bình Trƣờng thông tin bình thƣờng thƣờng Trusted-index Chỉ số tin tƣởng Weight Trọng số Đánh giá mức độ tin tƣởng nguồn Mức độ quan trọng trƣờng DANH MỤC HÌNH VẼ Hình 1: Kiến trúc hệ tích hợp liệu 11 Hình 2: Mô hình ETL cho hệ tích hợp thông tin cá nhân 17 Hình 3: Mô hình ánh xạ 20 Hình 4: Luồng xác định ngƣời dùng 34 Hình - Cấu trúc liệu thu thập từ Rồng Bay 43 Hình - Cấu trúc liệu thu thập từ Vật Giá 44 Hình - Cấu trúc liệu thu thập từ Én Bạc 45 Hình - Cấu trúc liệu thu thập từ Violet 46 Hình 9- Cấu trúc liệu thu thập từ Tìm việc nhanh 47 Hình 10 - Giao diện chƣơng trình tích hợp - Loader 52 Hình 11 - Đồ thị tƣơng quan số lƣợng record đích thời gian thực 54 DANH MỤC BẢNG Bảng - Kết chạy chƣơng trình xung đột liệu 53 Bảng - Kết chạy chƣơng trình có xung đột liệu 53 Bảng - Bảng trusted-index nguồn 58 Bảng - Bảng trọng số trƣờng liệu 59 CHƢƠNG 1: ĐẶT VẤN ĐỀ 1.1 Phân tích trạng Ngày với phát triển Internet, trang web cộng đồng xuất ngày nhiều Chúng ta biết đến số trang web cộng động tiêu biểu giới nhƣ mạng xã hội facebook, linkln Ở Việt Nam, web cộng đồng đƣợc thể trang rao vặt thƣơng mại nhƣ Vật Giá, Rồng Bay, Én Bạc… Một thể khác web cộng đồng diễn đàn, ví dụ diễn đàn giáo dục nhƣ Violet, Sinh Viên IT Trên trang web cộng đồng đó, xuất nhiều thông tin cá nhân ngƣời dùng Ngƣời dùng đƣợc hiểu ngƣời sử dụng hay tham gia vào trang web Ví dụ ngƣời dùng trang Rồng Bay (http://rongbay.com/) công khai số thông tin nhƣ email, họ tên Ngƣời dùng trang Vật Giá (http://www.vatgia.com/), thông tin nhƣ email, họ tên, công khai số thông tin khác nhƣ giới tính, tỉnh, nick yahoo, skype… Một ngƣời khai báo thông tin nhiều trang nhƣng không thiết họ phải khai báo tất thông tin cá nhân tất trang web khác Mỗi trang quan tâm đến vài thông tin ngƣời dùng, thông tin ngƣời dùng trang trùng lặp bổ sung cho Cho nên, tổng hợp thông tin ngƣời dùng trang lại thu đƣợc thông tin đầy đủ ngƣời dùng Với nhiều tổ chức, doanh nghiệp, nhu cầu thu thập thông tin cá nhân ngƣời dùng mạng xuất ngày nhiều Nhiều doanh nghiệp cần thu thập, tổng hợp thông tin ngƣời dùng mạng để phục vụ mục đích thƣơng mại cụ thể Ví dụ nhƣ thống kê, phân loại đối tƣợng ngƣời dùng theo giới tính, độ tuổi hay khu vực cụ thể để đƣa chiến lƣợc kinh doanh phù hợp Bên cạnh đó, số doanh nghiệp mong muốn thu thập thông tin ngƣời dùng trang web khác để bổ sung thông tin mà trang web họ không có, nhằm mục đích có đƣợc thông tin tổng hợp ngƣời dùng để từ đƣa thông tin đến đối tƣợng ngƣời dùng cách phù hợp, hiệu Các quản quản lý nhà nƣớc hay tổ chức xã hội có nhu cầu xây dựng báo cáo liên quan đến số lƣợng lớn ngƣời dùng mạng Tuy nhiên, việc tìm kiếm đƣợc thông tin phù hợp có giá trị ngƣời dùng mạng tốn thời gian liệu nằm phân tán mạng không đƣợc xếp, phân loại nhƣ mong muốn Từ nảy sinh nhu cầu tích hợp, hợp liệu vào nguồn chung chứa toàn thông tin ngƣời dùng để tiện quản lý nhƣ phục vụ cho nhu cầu khai thác thông tin ngƣời dùng phát sinh hàng ngày Tích hợp thông tin ngƣời dùng việc kết hợp liệu ngƣời dùng nằm nhiều nguồn khác cung cấp cho nhìn tổng thể thông tin cá nhân ngƣời dùng Quá trình trở nên khó khăn liệu ngƣời dùng nguồn thƣờng không đồng cấu trúc nhƣ giá trị Thêm nữa, liệu lúc đƣợc làm nên ảnh hƣởng đến chất lƣợng trình tích hợp Toàn trình xử lý phải diễn cửa sổ thời gian xác định nên ảnh hƣởng đến hiệu tích hợp thông tin Sự phát triển nguồn liệu gây khó khăn tích hợp lƣu trữ đích Từ đó, toán đặt làm để tích hợp thông tin cá nhân ngƣời dùng vào sở liệu mang đầy đủ thông tin ngƣời dùng để từ xây dựng dịch vụ web cho phép kết xuất liệu thống kê 1.2 Mục đích đề tài Mục đích đề tài tích hợp thông tin ngƣời dùng đƣợc trích rút từ trang web cộng đồng vào sở liệu ngƣời dùng chung Việc trích rút thông tin đƣợc thực phạm vi luận văn Thông tin đƣợc trích rút từ nguồn web, lƣu vào sở liệu nguồn, nhiệm vụ đề tài tích hợp sở liệu nguồn vào sở liệu chung mang đầy đủ thông tin ngƣời dùng Trong trình tích hợp, nguồn cung cấp thông tin trùng lặp, dƣ thừa hay thông tin bổ sung cho Vì sở liệu chung phải linh hoạt lƣu trữ có khả thêm thuộc tính 1.3 Bố cục luận văn Phần luận văn đƣợc tổ chức nhƣ sau: Chƣơng 2: Tổng quan hệ tích hợp thông tin cá nhân Chƣơng trình bày sơ lƣợc lý thuyết tích hợp liệu tổng quan ETL Từ phân tích đƣa mô hình tổng quan hệ tích hợp thông tin cá nhân, chi tiết hoạt động nhƣ khía cạnh liên quan để hiểu rõ toán đề Chƣơng 3: Các kỹ thuật giải toán Trình bày chi tiết kỹ thuật giải vấn đề nêu chƣơng trƣớc Chƣơng 4: Cài đặt thử nghiệm Chƣơng trình bày chi tiết cách cài đặt hệ thống, bƣớc xây dựng công cụ tích hợp liệu Chú tới trình bày số kết thu đƣợc từ thử nghiệm thực tế rút số đánh giá cho hệ thống Chƣơng 5: Kết luận Trình bày tóm lƣợc kết đồ án đạt đƣợc đồng thời đƣa phƣơng hƣớng phát triển cho đề tài CHƢƠNG 2: TỔNG QUAN VỀ HỆ TÍCH HỢP THÔNG TIN CÁ NHÂN Tích hợp liệu việc kết hợp liệu từ nhiều nguồn khác cung cấp cho ngƣời dùng nhìn thống liệu Hai hƣớng tiếp cận độc lập đƣợc biết đến hệ tích hợp liệu khung nhìn ảo (virtual) kho liệu (materialized) Trong cách tiếp cận khung nhìn ảo, hệ tích hợp liệu truy cập đến nguồn truy vấn đƣợc thực Nó hoạt động nhƣ giao diện ngƣời sử dụng nguồn để có biểu diễn ảo nội dung liệu bên dƣới nguồn Trong đó, theo cách tiếp cận kho liệu, liệu nguồn đƣợc tổng hợp nơi gọi kho liệu, truy vấn đƣợc thực mà không cần truy cập vào sở liệu nguồn Do đó, truy vấn thƣờng hiệu Theo yêu cầu toán đặt ra, cách tiếp cận kho liệu phù hợp Phƣơng pháp phổ biến hệ thống xử lý tích hợp liệu theo cách tiếp cận kho liệu ETL Tiếp theo vào tìm hiểu kiến trúc tổng quan ETL 2.1 Kiến trúc ETL ETL (viết tắt Extract – Transform – Load) trình lấy, trích liệu nguồn, kiểm tra, biến đổi liệu để thực việc lƣu trữ liệu vào đích [4] Dƣới kiến trúc ETL tổng quát: 10 chuỗi đằng trƣớc param2 Nếu param1!="", param2!="": xóa bỏ param1, param2 chuỗi nằm param1 param2 Xóa bỏ tag html encode RemoveHtmlTag html Không Không Có, kiểu số Thêm param2 vào vị trí param1 Insert nguyên Có dƣơng Lấy giá trị nhóm thứ param2 Match khớp param1 Có, kiểu Optional, chuỗi định kiểu số dạng nguyên regular dƣơng, expression default="0"  param1: Tham số thứ nhất, thuộc kiểu expression Optional, default=""  param2: Tham số thứ hai, thuộc kiểu expression Optional, default phụ thuộc vào operator Lƣu ý:  PadLeft, PadRight: Nếu param2 truyền vào ký tự mà chuỗi lấy ký tự đầu tiên, bỏ ký tự sau  SubString: o param1 > độ dài chuỗi đầu vào chuỗi trả "" o giá trị param1+param2 > độ dài chuỗi đầu vào chuỗi trả chuỗi từ vị trí param1 đến hết  Replace: Nếu param1="" trả chuỗi đầu vào 78  Remove: o Nếu param1=param2="" trả chuỗi đầu vào o Nếu param1="" param2!="" không tìm thấy param2 chuỗi đầu vào trả chuỗi đầu vào o Nếu param1!="" param2="" không tìm thấy param1 chuỗi đầu vào trả chuỗi đầu vào o Nếu param1!="" param2!="" không tìm thấy param1 param2 chuỗi đầu vào trả chuỗi đầu vào  RemoveHtmlTag: Hiện xóa đƣợc thẻ script, style, xml nội dung bên nó, xóa comment thẻ mở thẻ đóng khác Tùy vào hệ thống mà gọi hàm EncodeHtml net thực replace   " ' < > & Lệnh toán học – math Chức năng: Thực hàm toán học giá trị chuỗi Yêu cầu giá trị chuỗi phải convert đƣợc dạng số Cú pháp: Trong đó:  output: Tên key đƣợc gán giá trị  input: Tên key cần xử lý toán học 79  function: Nhận số giá trị sau Ý nghĩa MathFunction Cần value Add K = InputField + Value Có Subtract K = InputField - Value Có Multiply K = InputField * Value Có Divide K = InputField / Value Có Invert K = / InputField Có Negate K = -InputField Không Floor Lấy số nguyên lớn nhỏ InputField Không Ceiling Lấy số nguyên nhỏ lớn InputField Không Round Làm tròn InputField với Value số sau dấu phảy Log Lấy logarit số tự nhiên InputField Không Log10 Lấy logarit số 10 InputField Không Square K = InputField * InputField Không Sqrt Lấy bậc hai InputField Không Power Lấy InputField mũ Value Sin K = sin(InputField) Không Cos K = sin(InputField) Không Min Lấy số bé InputField Value Có Max Lấy số lớn InputField Value Có 80 Optional, default="0" Có  value: Giá trị toán hạng thứ hai phƣơng thức có đối số, trƣờng kiểu expression Optional, default="0"  format: Chuỗi định dạng cho kết Optional Lƣu ý:  Nếu InputField chƣa tồn đƣợc lấy giá trị mặc định  Nếu Value rỗng đƣợc lấy giá trị mặc định  format viết theo cú pháp C# Lệnh xử lý ngày tháng – date Chức năng: Thực hàm xử lý ngày tháng giá trị chuỗi Yêu cầu giá trị chuỗi đầu vào phải convert đƣợc kiểu DateTime Cú pháp: Trong đó:  output: Tên key đƣợc gán giá trị  input: Tên key cần xử lý toán học  operator: Nhận giá trị sau DateOperator Ý nghĩa 81 Cần Cần Định dạng lại giá trị đầu vào Reformat thông qua format param1 param2 Không Không GetYear Lấy giá trị năm Không Không GetMonth Lấy giá trị tháng Không Không GetDay Lấy giá trị ngày tháng Không Không GetDayOfYear Lấy giá trị ngày năm Không Không GetDayOfWeek Lấy giá trị thứ tuần Không Không GetHour Lấy giá trị Không Không GetMinute Lấy giá trị phút Không Không GetSecond Lấy giá trị giây Không Không GetMilliSecond Lấy giá trị phần nghìn giây Không Không Lấy giá trị khác biệt giá trị đầu vào giá trị DateDiff param1 Param2 nhận giá trị sau: day, hour, minute, Có, kiểu ngày tháng Có second, millisecond Output = InputField cộng thêm AddYears param1 năm số nguyên Output = InputField cộng thêm AddMonths AddHours Có, kiểu số nguyên param1 tháng Output = InputField cộng thêm AddDays Có, kiểu Có, kiểu số nguyên param1 ngày Output = InputField cộng thêm 82 Có, kiểu Không Không Không Không param1 số nguyên Output = InputField cộng thêm AddMinutes số nguyên param1 phút Output = InputField cộng thêm AddSeconds Có, kiểu số nguyên param1 giây Output = InputField cộng thêm AddMilliSeconds Có, kiểu param1 phần nghìn giây Có, kiểu số nguyên Không Không Không  format: Chuỗi định dạng cho kết Optional  input-format: Chuỗi định dạng cho InputField để parse kiểu ngày tháng Optional  param1: Tham số thứ nhất, thuộc kiểu expression Optional  param2: Tham số thứ hai, thuộc kiểu expression Optional Lƣu ý:  Nếu input chƣa tồn sinh lỗi  Nếu input-format dùng hàm parse mặc định framework để parse chuỗi đầu vào sang kiểu ngày tháng  Datediff: param2 không nằm giá trị hợp lệ phát sinh lỗi Lệnh xử lý mảng – array Chức năng: Thực hàm xử lý kiểu liệu mảng Cú pháp: Trong đó:  output: tên key đƣợc gán giá trị  input: tên key kiểu mảng  operator: nhận giá trị sau Ý nghĩa ArrayOperator Push Đƣa giá trị param1 vào cuối mảng Cần Cần param1 param2 Có Không Không Không Không Không Không Không Có Không Lấy phần tử cuối Pop mảng loại bỏ phẩn tử khỏi mảng Lấy phần tử cuối Peer mảng nhƣng không loại bỏ phẩn tử khỏi mảng Lấy phần tử mảng Shift loại bỏ phẩn tử khỏi mảng Unshift Đƣa giá trị param1 vào đầu mảng Thêm giá trị param2 vào vị trí Có, kiểu số Insert param1 mảng nguyên Có Loại bỏ phần tử param1 Remove khỏi mảng trả vị trí phần Có Không Có Không tử mảng RemoveAll Loại bỏ tất phần tử param1 84 khỏi mảng trả số lƣợng phần tử mảng Loại bỏ phần tử vị trí param1 khỏi Có, kiểu số RemoveAt mảng trả phần tử nguyên Không Lấy mảng InputArray từ Có, kiểu số Có, kiểu số SubArray vị trí param1 đến param2 nguyên nguyên Có Không Có Không Có Không Không Không Lấy "True" param1 có Contains mảng, trái lại trả "False" Lấy vị trí xuất IndexOf param1 mảng Lấy vị trí xuất cuối LastIndexOf param1 mảng Length Lấy độ dài mảng Item Trả phần vị trí param1 Có, kiểu số nguyên Nối phần tử lại để tạo thành Join Không Có Không Không Không chuỗi Nối tất phần tử phân cách ToString dấu phảy, đầu cuối đƣợc bao []  param1: Tham số thứ nhất, thuộc kiểu expression Optional  param2: Tham số thứ hai, thuộc kiểu expression Optional Lƣu ý:  Các operator Push, Pop, Unshift, Insert, Remove, RemoveAt, RemoveAll làm thay đổi giá trị InputArray, trả về: 85 o Push, Unshift, Insert: Độ dài mảng sau thay đổi o Pop: Giá trị phần tử cuối o Remove: Trả vị trí phần tử bị loại bỏ o RemoveAt: Trả phần tử bị loại bỏ o RemoveAll: Trả số lƣợng phần tử bị loại bỏ  Pop, Peer, Shift: Trả null mảng rỗng  Insert: Nếu param1length param1=length  Remove: Nếu param1 mảng trả "-1"  RemoveAt: Nếu param1 không nằm [0, length) không thực trả null  SubArray: Nếu param1length lấy =length; param1 > param2 trả mảng rỗng Giá trị trả gán vào Complex  IndexOf, LastIndexOf: trả "-1" không tìm thấy  Item: Trả null param1 nằm [0, length)  Các operator Pop, Peer, Shift, RemoveAt, Item: Phần tử trả thuộc kiểu Complex type output đƣợc gán vào Complex, trái lại gán vào KvsData Lệnh xử lý xml – xml Chức năng: Thực hàm xử lý kiểu liệu xml Cú pháp: 86 Trong đó:  output: tên key đƣợc gán giá trị  input: tên key kiểu mảng  operator: nhận giá trị sau: Ý nghĩa XmlOperator Cần param1 Parse Phân tích chuỗi dang xml Có SelectOne Lấy node (kiểu xml) dựa xpath Có Lấy danh sách node (kiểu mảng xml) SelectMany dựa xpath Lấy phần tử (kiểu KvsData xml) dựa EvaluateOne việc thực thi xpath Có Có Lấy mảng phần tử (kiểu mảng EvaluateMany KvsData mảng xml) dựa việc thực thi xpath ToString Lấy giá trị InputXml Có Optional  param1: Optional, thuộc kiểu expression Tham số có giá trị tƣơng ứng với operator: o Parse: Chuỗi xml dùng để parse o SelectOne, SelectMany, EvaluateOne, EvaluateMany, ToString: Chuỗi xpath Lƣu ý:  SelectOne, SelectMany: Chỉ dùng để lấy element, không lấy đƣợc attribute giá trị đơn (sử dụng EvaluateOne, EvaluateMany để làm việc này) 87  EvaluateOne, EvaluateMany: Tùy vào xpath giá trị trả mà gán giá trị vào Complex hay KvsData Lệnh bóc tách – extract Chức năng: Dùng để bóc tách phần nội dung chuỗi đầu vào dựa vào chuỗi nhận dạng Nó cho phép đánh dấu vị trí khớp để lấy lại giá trị vị trí input=…{started-index}…{signal}…{start}{content}{end}… output={content} Cú pháp: … … … 88 Trong đó:  output: Tên key đƣợc gán giá trị  input: Tên key cần bóc tách liệu  operator: Nhận giá trị giống nhƣ operator lệnh set  separator: Chuỗi phân cách cho trƣờng hợp operator Append Prepend, tƣơng tự nhƣ separator lệnh set  trim: Cho biết có thực trim kết bóc tách hay không, nhận giá trị True False Optional, default="False"  decode-html: Cho biết có thực DecodeHtml cho kết bóc tách hay không, nhận giá trị True False Optional, default="False"  signal: Chuỗi nhận dạng làm dấu hiệu để khớp Optional  start: chuỗi nhận dạng đứng trƣớc liệu cần bóc tách  end: Chuỗi nhận dạng đứng sau liệu cần bóc tách  started-index: Vị trí bắt đầu tìm chuỗi nhận dạng signal start, thuộc kiểu expression, giá trị phải kiểu số nguyên Nếu started-index biểu thức "=abc" abc lấy tập MarkedPosition không lấy KvsData Keys Optional, default="0"  mark-signal-position: Đánh dấu vị trí khớp với chuỗi signal, giá trị vị trí khớp đƣa vào tập MarkedPosition Optional  mark-start-position: Đánh dấu vị trí khớp với chuỗi start, giá trị vị trí khớp đƣa vào tập MarkedPosition Optional  mark-content-position: Đánh dấu vị trí khớp bắt đầu chuỗi kết quả, giá trị vị trí khớp đƣa vào tập MarkedPosition Optional  mark-end-position: Đánh dấu vị trí khớp với chuỗi end, giá trị vị trí khớp đƣa vào tập MarkedPosition Optional 89  mark-last-position: đánh dấu vị trí kết thúc chuỗi end, giá trị vị trí khớp đƣa vào tập MarkedPosition Optional Lƣu ý:  Nếu không khớp đƣợc chuỗi đầu trả rỗng, giá trị đánh dấu trả -1  Nếu không định nghĩa signal mark-signal-position gán giá trị -1  Nếu started-index < lớn độ dài chuỗi đầu vào phát sinh lỗi Lệnh lấy giá trị đơn – single-value Chức năng: Cho phép lấy đƣợc giá trị số giá trị môi trƣờng Cú pháp: Trong đó:  output: Tên key đƣợc gán giá trị  name: Tên giá trị cần lấy, nhận giá trị sau: Ý nghĩa Name Kiểu giá trị Now Thời điểm Today Ngày hôm nay, phút giây DateTime DateTime ThisYear Năm Số nguyên ThisMonth Tháng Số nguyên ThisDay Ngày tháng Số nguyên 90 ThisWeekDay Thứ tuần Số nguyên ThisHour Giờ Số nguyên ThisMinute Phút Số nguyên ThisSecond Giây Số nguyên ThisMillisecond Phần nghìn giây Số nguyên Pi Số pi = 3.14159… Số thực E Số e = 2.71828… Số thực  format: chuỗi định dạng cho giá trị đầu ra, Optional Lệnh thực thi truy vấn – query Chức năng: Thực thi câu truy vấn sql, kết truy vấn trả đƣợc lấy làm kết đầu Cú pháp: … Trong đó:  output: Tên key đƣợc gán giá trị  sql: Câu truy vấn  default: Giá trị mặc định câu truy vấn gặp lỗi không trả giá trị Optional 91  sql-param: Các giá trị truyền vào cho câu truy vấn dƣới dạng parameter Optional o name: Tên parameter o data: Giá trị liệu parameter o type: Kiểu liệu Optional 92 [...]... tải dữ liệu 2.2 Hướng tới một hệ tích hợp thông tin cá nhân 2.2.1 Biểu diễn người dùng Do bài toán của ta là tích hợp dữ liệu ngƣời dùng từ nhiều nguồn vào một cơ sở dữ liệu chung gọi là dữ liệu đích, cho nên việc phân tích để biểu diễn dữ liệu đích về một định dạng chung là rất quan trọng, cần thiết phải làm Dữ liệu ở đây đƣợc hiểu là thông tin cá nhân của ngƣời dùng Có rất nhiều thông tin về ngƣời dùng, ... chứa thông tin về cấu trúc dữ liệu, ý nghĩa của dữ liệu, sử dụng dữ liệu, các luật kiểm tra chất lƣợng dữ liệu và các thông tin khác về dữ liệu Quá trình tích hợp bao gồm 3 bƣớc đó là: trích chọn dữ liệu (Extract), chuyển đổi dữ liệu (Transform) và tải dữ liệu (Load) Bƣớc 1: Trích chọn Mục đích của trích chọn là khai thác, thu thập hoặc trích xuất dữ liệu từ những nguồn dữ liệu Trong bƣớc này, chúng ta... này liên quan đến việc tải dữ liệu đã qua trích chọn và chuyển đổi vào một cơ sở dữ liệu đích Một số quy trình tải vào thực chất là chèn thêm bản ghi (record) mới hoặc cập nhật thêm thông tin cho một bản ghi nào đó Trong hệ tích hợp dữ liệu, một vấn đề nổi lên đó là cần phải phân tích định dạng dữ liệu để đƣa ra cách biểu diễn dữ liệu ở đích một cách hợp lý Biểu diễn dữ liệu đích ảnh hƣởng đến việc... lƣợng dữ liệu  Destination (Đích): Cơ sở dữ liệu đích  Control + Audit (Điều khiển + Kiểm soát): Bộ điều khiển và kiểm soát dữ liệu  Metadata (Siêu dữ liệu) : Bộ huấn luyện dữ liệu Dữ liệu từ các nguồn khác nhau đƣợc trích chọn, biến đổi và lƣu tạm thời vào các bảng tạm qua quá trình ETL Sau đó, dữ liệu đƣợc đƣa vào bộ kiểm tra chất lƣợng dữ liệu Dữ liệu đạt tiêu chuẩn sẽ đƣợc đƣa vào đích Dữ liệu. .. Kiến trúc hệ tích hợp dữ liệu Hình 1 trình bày các thành phần cơ bản của một hệ tích hợp dữ liệu, trong đó:  Source (Nguồn): Các cơ sở dữ liệu cục bộ  ETL (Extract - Transform – Load / Trích chọn – Chuyển đổi – Tải): Thực hiện kết nối tới nguồn, đọc dữ liệu và chuyển đổi dữ liệu và tải dữ liệu vào đích  Stage (Bảng tạm): Dùng để lƣu thông tin tạm thời  DQ (Data Quality / Chất lƣợng dữ liệu) : Bộ kiểm... đích, những trƣờng không có dữ liệu sẽ đƣợc gán giá trị mặc định Khi thu đƣợc một đối tƣợng trung gian các giá trị của một ngƣời thì thực hiện đẩy dữ liệu vào đích 2.3.2 Tích hợp dữ liệu vào đích Quá trình tích hợp dữ liệu là quá trình tải dữ liệu trong ETL Quá trình này thực hiện đẩy từng bộ dữ liệu biểu diễn cho từng ngƣời vào tập dữ liệu ở đích, nếu không tìm thấy ngƣời dùng nào giống với với nguồn... xạ dữ liệu trong Transform và việc tải dữ liệu vào đích 2.3.1 Ánh xạ dữ liệu Quá trình Transform trong mô hình ETL chính là thực hiện chuyển đổi dữ liệu từ cơ sở dữ liệu nguồn vào cơ sở dữ liệu đích Để làm đƣợc việc này chúng ta cần thông qua 18 một bƣớc trung gian để ánh xạ các thuộc tính tƣơng ứng của hai bên Một thuộc tính ở nguồn có thể sử dụng nhƣ một thuộc tính ở đích, trong trƣờng hợp khác, một. .. Mô hình ETL cho hệ tích hợp thông tin cá nhân Hình 2 mô tả các thành phần cấu thành nên hệ tích hợp và luồng hoạt động của nó Mô hình tích hợp bao gồm 7 thành phần đƣợc nhóm vào trên cơ sở mô hình ETL ở trên Thông tin đầu vào đƣợc lấy từ cơ sở dữ liệu nguồn (Source) và đƣợc đƣa qua một loạt các thành phần xử lý nhƣ trong quá trình ETL để tải dữ liệu vào đích (Person DB) Chi tiết các thành phần xử lý... những bộ dữ liệu khác nhau của ngƣời dùng trên các nguồn khác nhau Do đó, để quá trình tích hợp đƣợc linh hoạt trên các nguồn, ta đƣa thêm cấu hình (config) vào cùng với cơ sở dữ liệu nguồn làm đầu vào cho xử lý bên trong tích hợp Mỗi nguồn sẽ cần đƣa vào một cấu hình khác nhau thay đổi theo cấu trúc dữ liệu của nguồn 2.3 Thảo luận Hai vấn đề nổi lên trong quá trình tích hợp thông tin ngƣời dùng đó... biến đổi dữ liệu từ nguồn đã thu thập thành dạng tiêu chuẩn chúng ta cần o Validate before load: Xác thực, loại bỏ bớt dữ liệu không hợp lệ sau quá trình chuyển đổi ở bƣớc trƣớc đó Tránh trƣờng hợp dữ thừa các dữ liệu lỗi xảy ra trong quá trình chuyển đổi o Prepare before load: Chuẩn bị dữ liệu cho quá trình load  Load (L): Tải dữ liệu o Load: Thực hiện tải dữ liệu vào cơ sở dữ liệu đích Các thao

Ngày đăng: 23/11/2016, 04:14

Mục lục

  • danh muc thuat ngu

  • danh muc hinh ve

  • tai lieu tham khao

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan