Luận văn thạc sĩ Nghiên cứu kiến trúc hệ phân tán và ứng dụng xây dựng hệ thống quản lý thông tin đăng kiểm

99 624 0
Luận văn thạc sĩ Nghiên cứu kiến trúc hệ phân tán và ứng dụng xây dựng hệ thống quản lý thông tin đăng kiểm

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ VĂN TIÊN ỨNG DỤNG HỆ PHÂN TÁN ĐỂ TỐI ƯU THỜI GIAN XỬ LÝ CHO MÁY TÌM KIẾM LUẬN VĂN THẠC SĨ KỸ THUẬT ĐÀ NẴNG – Năm 2011 ii LỜI CAM ĐOAN Tôi xin cam ñoan ñây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn khoa học của PGS. TS. Lê Văn Sơn. Các số liệu và kết quả nêu trong luận là trung thực và chưa từng ñược ai công bố trong bất kỳ công trình nào khác. Người cam ñoan Lê Văn Tiên iii MỤC LỤC LỜI CAM ĐOAN i MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG vii DANH MỤC CÁC HÌNH vii MỞ ĐẦU 1 CHƯƠNG 1: TỔNG QUAN VỀ MÁY TÌM KIẾM 5 1.1 Giới thiệu một số máy tìm kiếm thông dụng 5 1.2 Kiến trúc và cơ chế hoạt ñộng của máy tìm kiếm 9 1.3 Bộ thu thập thông tin – Crawler 10 1.3.1 Các thủ thuật tìm kiếm của Crawler 11 1.3.2 Tính năng bắt buộc crawler phải tuân theo 13 1.3.3 Tính năng crawler nên tuân theo 13 1.3.4 Vấn ñề cơ bản cần giải quyết của Crawler 14 1.3.5 Xây dựng Crawler 15 1.3.6 Vấn ñề cần tránh 17 1.4 Bộ lập chỉ mục – Index 18 1.5 Bộ tìm kiếm thông tin – Search Engine 20 1.5.1 Tìm kiếm theo từ khóa 20 1.5.2 Tìm theo ngữ nghĩa 21 1.6 Cấu trúc lưu trữ dữ liệu index files 22 1.7 Kết luận 23 CHƯƠNG 2: HỆ PHÂN TÁN CHO MÁY TÌM KIẾM 25 2.1 Định nghĩa và các tính chất hệ phân tán 25 2.1.1 Định nghĩa 25 2.1.2 Tính chất 27 2.2 Truyền thông trong hệ phân tán 32 iv 2.2.1 Mô hình client – server 33 2.2.2 Mô hình RPC(Remote Procedure Call: gọi thủ tục từ xa) 34 2.2.3 Truyền thông ñiệp (MOM) 36 2.2.4 Truyền thông hướng dòng (SOM) 37 2.2.5 Truyền thông ña ñiểm (MultiCast) 37 2.3 Đồng bộ hóa tiến trình 38 2.3.1 Đặt vấn ñề 38 2.3.2 Các giải pháp ñồng bộ tiến trình 39 2.3.3 Kết luận 47 CHƯƠNG 3: ỨNG DỤNG HỆ PHÂN TÁN TỐI ƯU THỜI GIAN XỬ LÝ CHO MÁY TÌM KIẾM 48 3.1 Phân tích máy tìm kiếm trên hệ tập trung 48 3.1.1 Phân tích hoạt ñộng của máy tìm kiếm trên hệ tập trung 48 3.1.2 Một số hạn chế của máy tìm kiếm trên hệ tập trung 48 3.1.3 Các yếu tố ảnh hưởng ñến thời gian xử lý của máy tìm kiếm 49 3.1.4 Hướng giải quyết vấn ñề 50 3.2 Đề xuất phương thức hoạt ñộng của máy tìm kiếm trên hệ phân tán 52 3.2.1 Phương thức hoạt ñộng tổng thể của hệ thống 52 3.2.2 Phương thức liên kết các trạm trong hệ thống 53 3.2.3 Phương thức hoạt ñộng tại các trạm của hệ thống 54 3.2.4 Phương thức lưu trữ file index của hệ thống 57 3.3 Các vấn ñề phát sinh và cách giải quyết 58 3.3.1 Chọn lựa server xử lý chính 58 3.3.2 Vấn ñề ñồng bộ các tiến trình 61 3.3.3 Vấn ñề sự cố ñường truyền 64 3.3.4 Vấn add, remove các trạm 66 3.4 Phân tích hệ thống 69 3.4.1 Danh sách các tác nhân hệ thống 69 3.4.2 Sơ ñồ tác nhân (UC) 70 v 3.4.3 Biểu ñồ tuần tự 72 3.4.4 Biểu ñồ hoạt ñộng (activity) 74 3.4.5 Sơ ñồ lớp 77 3.4.6 Các bảng dữ liệu của hệ thống file index 77 3.4.7 Xây dựng hệ thống 79 3.4.8 Đề mô chương trình 84 KẾT LUẬN 87 TÀI LIỆU THAM KHẢO 89 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO). vi DANH MỤC CÁC TỪ VIẾT TẮT SE Máy tìm kiếm DS Hệ phân tán DNS Hệ thống tên miền MON Truyền thông hướng thông ñiệp SOM Truyền thông thướng dòng RPC Gọi thủ tục từ xa MDR Nhịp trôi lớn nhất của ñồng hồ WWV Thời gian quốc tế UTC Giờ phối hợp quốc tế P Tiến trình vii , DANH MỤC CÁC BẢNG Bảng 1.1. Bảng xếp hạng search engine năm 2009 5 Bảng 3.1. Bảng tiêu chí tối ưu máy tìm kiếm 50 Bảng 3.2. Bảng tiêu chí chọn server tối ưu 59 Bảng 3.3. Bảng phân tích ñộ rỗi khác nhau của các server trong hệ 59 Bảng 3.4. Bảng dữ liệu tbl_document 77 Bảng 3.5. Bảng từ khóa tbl_key_word 78 Bảng 3.6. Bảng chủ ñề tbl_topics 78 Bảng 3.7. Bảng loại dữ liệu tbl_data_type 78 viii DANH MỤC CÁC HÌNH Hình 1.1 Bảng xếp hạng search engine năm 2009 1 Hình 1.2 Giao diện của google search engine 6 Hình 1.3 Giao diện của xalo.vn search engine 8 Hình 1.4 Mô hình hoạt ñộng của máy tìm kiếm 9 Hình 1.5 Biểu ñồ trạng thái của một liên kết 17 Hình 1.6 Quá trình ñánh chỉ mục 18 Hình 1.7 Các bước phân tích tài liệu 19 Hình 1.8 Cấu trúc lưu trữ files index [12] 23 Hình 1.9 Cấu trúc dữ liệu inverted index [11] 23 Hình 2.1 Hệ thống máy ñơn 25 Hình 2.2 Các thực thể của hệ phân tán 26 Hình 2.3 Mô hình Client – Server 33 Hình 2.4 Mô hình Synchronous RPC 35 Hình 2.5 Mô hình Asynchronos RPC 36 Hình 2.6 Mô hình MOM 36 Hình 2.7 Mô hình multicast many-to-many 38 Hình 2.8 Mô hình trật tự từng phần 44 Hình 2. 9 Thứ tự các sự kiện tại của các tiến trình tại các trạm phát nhận 45 Hình 2. 10 Các thời gian ñánh dấu Lamport (Lamport timestamps) 46 Hình 2. 11 Ví dụ thời gian logic Lamport 47 Hình 3. 1 Mô hình hoạt ñộng của pha xử lý yêu cầu người dùng 50 Hình 3. 2 Các bước hoạt ñộng của máy tìm kiếm ứng dụng hệ phân tán 51 Hình 3.3 Mô hình hoạt ñộng tổng thể máy tìm kiếm ứng dụng hệ phân tán 52 Hình 3. 4 Mô hình liên kết các trạm trong hệ thống 54 Hình 3. 5 Mô hình hoạt ñộng của trạm các trạm con trong hệ thống 54 Hình 3. 6 Thuật toán xử lý của crawler 56 Hình 3. 7 Mô hình lưu trữ hệ thống files index tại mỗi trạm 57 ix Hình 3. 8 Hệ thống index file theo mô hình cây 58 Hình 3. 9. Sơ ñồ chọn server tối ưu 60 Hình 3. 10 Mô hình không ñồng bộ của hai tiến trình giữa hai trạm 61 Hình 3. 11.Kết quả sau khi ñồng bộ tiến trình theo thuật toán lamport 63 Hình 3. 12 Thuật toán kiểm tra tình trạng URL 64 Hình 3. 13 Mô hình sự cố ñường truyền 65 Hình 3. 14 Cấu trúc giao tiếp 2PC tuyến tính 66 Hình 3. 15 Thuật toán xử lý trạm remove khỏi hệ 68 Hình 3. 16 Thuật toán xử lý việc add các trạm 69 Hình 3. 17 biểu ñồ UC của người sử dụng 70 Hình 3. 18 Biểu ñồ UC của admin 71 Hình 3. 19 Biểu ñồ tuần tự xử lý yêu cầu người dùng 72 Hình 3. 20 Biểu ñồ tuần tự truy tìm thông tin tự ñộng 73 Hình 3. 21 Biểu ñồ tuần tự lập chỉ mục tự ñộng 73 Hình 3. 22 Biểu bồ hoạt ñộng xử lý yêu cầu người dùng 74 Hình 3. 23 Biểu ñồ hoạt ñộng truy tìm thông tin tự ñộng 75 Hình 3. 24 Biểu ñồ hoạt ñộng lập chỉ mục tự ñộng 76 Hình 3. 25 Mô hình quan hệ giữa các bảng dữ liệu 79 1 MỞ ĐẦU 1. Lý do chọn ñề tài Hơn 40 năm kể từ khi internet ra ñời cho ñến nay, nó mang lại rất nhiều tiện ích hữu dụng cho người sử dụng ñiển hình như hệ thống thư ñiện tử (email), trò chuyện trực tuyến (chat), máy truy tìm dữ liệu (search engine), các dịch vụ thương mại, chuyển ngân và các dịch vụ về y tế giáo dục Đi kèm với sự bùng nổ các dịch vụ trên internet là sự dùng nổ về số lượng website trên internet, hiện tại số lượng website ñã lên con số hàng tỉ và không ngừng tăng lên theo thời gian, ñứng ñầu là tên miền có ñuôi .com, theo thống kê mới nhất ñã lên tới 84.000.000 tên miền. Tên miền có ñuôi .vn cũng ñã lên tới 140.000 tên miền. Chính sự bùng nổ về số lượng website trên internet ñã bổ sung cho kho thông tin càng ngày càng khổng lồ hơn và ngày nay hầu như mọi kiến thức của mọi lĩnh vực ñều có thể tìm thấy trên internet. Vấn ñề ñặt ra ở ñây là làm thế nào ñể tìm kiếm một mẫu thông tin trong kho tàng thông tin khổng lồ như vậy một cách chính xác và nhanh nhất, lời giải cho câu hỏi ñó là sử dụng máy tìm kiếm (search engine) và hiện nay nhiều nhà dịch vụ ñã sử dụng nó rất thành công, ñiển hình như: Google, Yahoo, Mirosoft… Máy tìm kiếm ñã xuất hiện và ñược ñưa vào sử dụng từ rất sớm, nhưng ñể tối ưu hóa sao cho thời gian trả lời kết quả tìm kiếm nhanh nhất và chính xác nhất thì các chuyên gia cũng ñang ngày càng hoàn thiện. Trong thời gian gần ñây nhờ sự phát triển vượt bậc của lĩnh vực phần cứng CNTT và truyền thông, nhờ vậy mà một giải pháp mới cho các ứng dụng CNTT ñược ra ñời và ñang ñược các chuyên gia ñánh giá cao về lợi ích mà mó mang lại ñó là “Hệ phân tán - Distributed Systems”. Hệ phân tán là hệ thống xử lý thông tin bao gồm nhiều bộ xử lý hoặc bộ vi xử lý nằm tại các vị trí khác nhau ñược liên kết với nhau thông qua phương tiện viễn thông dưới sự ñiều khiển thống nhất của một hệ ñiều hành nhằm tăng tốc ñộ [...]... ñi u hành duy nh t và qu n lý toàn b thông tin trên thi t b nh c c b c a mình - H phân tán: 26 H tin h c phân tán (Distributed System) là h th ng không chia s b nh và ñ ng h , khác v i xu hư ng phân tán các tính toán trên nhi u b x lý c a h th ng ña x lý Như v y, h tin h c phân tán ñòi h i h th ng ph n c ng c a mình ph i trang b b nh c c b , các b x lý trao ñ i thông tin v i nhau thông qua các h th... h th ng cao + Tính m c a h th ng cao 3 3 Đ i tư ng và ph m vi nghiên c u - Nghiên c u mô hình ho t ñ ng t ng th c a máy tìm ki m và m t s gi i pháp tìm ki m thông d ng - Nghiên c u h phân tán ña server + Xây d ng h phân tán ña server + Lưu tr , truy xu t d li u trên h phân tán ña server - Nghiên c u, ng d ng h phân tán vào máy tìm ki m - Nghiên c u và áp d ng b ñ nh tuy n ưu tiên yêu c u (Request) ngư... u và thông tin có liên quan ñ n lu n văn - Phân tích, n m rõ quá trình ho t ñ ng c a máy tìm ki m - N m rõ cách xây d ng, truy xu t và lưu tr d li u trên h phân tán 4 - Phân tích, tìm hư ng gi i quy t cho các v n ñ n y sinh khi áp d ng h phân tán vào máy SE - Tri n khai xây d ng chương trình ch y trên h phân tán - Tri n khai xây d ng chương trình ch y trên h t p trung - Ki m th , ñánh giá k t qu và. .. nhau, có th có các ñ nh nghĩa khác nhau v h tin h c phân tán, nhưng ph bi n hơn c là ñ nh nghĩa sau: H tin h c phân tán (h phân tán) là h th ng x lý thông tin bao g m nhi u b x lý hay vi x lý n m t i các v trí khác nhau và ñư c liên k t v i nhau thông qua phương ti n vi n thông dư i s ñi u khi n th ng nh t c a m t h ñi u hành[2] T ñ nh nghĩa trên, h phân tán có các ưu ñi m căn b n so v i h t p trung,... cáp chuyên d ng, ñư ng ñi n tho i, cáp quang Như v y, h tin h c phân tán có th bao g m b n th c th như sau: Ph n c ng D li u Ph n m m Truy n thông Hình 2.2 Các th c th c a h phân tán M t tư tư ng l n c a h tin h c phân tán là phân tán hoá các quá trình x lý thông tin và th c hi n công vi c ñó trên các tr m khác nhau Đó là cơ s căn b n cho vi c xây d ng các ng d ng l n như thương m i ñi n t , giáo d... trong giai ño n CNTT hi n nay và tương lai Chính vì v y tôi ch n hư ng nghiên c u này và áp d ng “h phân tán ñ t i ưu th i gian x lý cho máy tìm ki m và l y tên ñ tài là “ ng d ng h phân tán ñ t i ưu th i gian x lý cho máy tìm ki m” 2 M c ñích và nghi m v nghiên c u c a ñ tài M c ñích c a ñ tài là nghiên c u áp d ng h phân tán vào máy tìm ki m nh m gi i quy t 3 yêu c u ñ t ra như sau: M t: Gi m th... thi t nghiên c u - Hi u ñư c quá trình ho t ñ ng và m t s gi i pháp xây d ng máy SE - Hi u ñư c b n ch t c a h phân tán và quá trình trao ñ i thông tin gi a các thành ph n trong h - Hi u thêm ngôn ng l p trình Java, Lucene và h qu n tr cơ s d li u My SQL - Hi u và v n d ng ñư c gi i pháp ng d ng h phân tán ñ t i ưu th i gian tìm ki m cho máy SE 5 Phương pháp nghiên c u - Thu th p, tìm hi u, phân tích... a vào các thông tin mà chúng có Tr lư ng thông tin này c a công c tìm ki m th c ch t là m t lo i cơ s d li u (database) c c l n Vi c tìm các tài li u s d a trên các t khóa (keyword) ñư c ngư i dùng gõ vào và tr v m t danh m c c a các trang Web có n i dung ch a t khóa mà nó tìm ñư c Máy tìm ki m ho t ñ ng d a vào 3 b chính: - B thu th p thông tin – Robot - B l p ch m c – Index - B tìm ki m thông tin. .. m: - Tìm ki m Web: d ch v tìm ki m thông tin t ng h p trên d li u g n 100 tri u trang văn b n ti ng Vi t hi n có trên các Website c a Vi t Nam - Tìm ki m Tin t c: d ch v t ng h p tin t c và tìm ki m thông tin trên d li u d ng tin t c ñư c t ng h p t g n 70 trang tin ñi n t hàng ñ u c a Vi t Nam 9 - Tìm ki m Di n ñàn: d ch v tìm ki m cho phép ngư i dùng tìm ki m thông tin t hơn 100 di n ñàn l n nh t c... m u thông tin, máy tìm ki m s phân tích yêu c u và g i ñ n server, server th c hi n so kh p yêu c u v i d li u trong kho index files và s p x p k t qu tìm ñư c theo th t t cao ñ n c a ñ chính xác, cu i cùng là hi n th k t qu cho ngư i dùng - Back-end: Bao g m b thu th p thông tin (Crawler) và b l p ch m c (indexer) B Crawler d a vào các robot tìm ki m s t ñ ng tìm ki m thông tin trên internet và chuy . tìm kiếm thông dụng - Nghiên cứu hệ phân tán ña server + Xây dựng hệ phân tán ña server + Lưu trữ, truy xuất dữ liệu trên hệ phân tán ña server - Nghiên cứu, ứng dụng hệ phân tán vào máy tìm. dụng hệ phân tán vào máy SE - Triển khai xây dựng chương trình chạy trên hệ phân tán - Triển khai xây dựng chương trình chạy trên hệ tập trung - Kiểm thử, ñánh giá kết quả và rút ra kết luận. CNTT hiện nay và tương lai. Chính vì vậy tôi chọn hướng nghiên cứu này và áp dụng hệ phân tán ñể tối ưu thời gian xử lý cho máy tìm kiếm và lấy tên ñề tài là ứng dụng hệ phân tán ñể tối ưu

Ngày đăng: 23/07/2015, 14:51

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan