ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ

26 383 0
ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ Khái phá luật kết hợp trong lĩnh vực khai phá dữ liệu Ứng dụng luật kết hợp vào việc phân tích, đánh giá kết quả của các bảng biểu điều tra dân số về trình độ học vấn, chuyên môn kỹ thuật giữa các vùng miền Việt Nam

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG MAI THỊ THANH NGA ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS. TS NGUYỄN BÁ TƯỜNG Phản biện 1: …………………………………………… Phản biện 2: …………………………………………… Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 MỞ ĐẦU 1. Lý do chọn đề tài Con người đang “ngập” trong dữ liệu, nhưng lại cảm thấy “đói” tri thức và thông tin hữu ích. Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị vì nó giúp những người điều hành và quản lý có một cái nhìn sâu sắc, chính xác, khách quan vào tiến trình kinh doanh trước khi ra quyết định. Khai thác những thông tin tiềm ẩn có tính dự đoán từ những cơ sở dữ liệu lớn - là một hướng tiếp cận mới với khả năng giúp các công ty chú trọng vào những thông tin có nhiều ý nghĩa từ những tập hợp dữ liệu lớn (databases, data warehouses, data repositories) mang tính lịch sử. Những công cụ khai phá dữ liệu có thể dự đoán những xu hướng trong tương lai và do đó cho phép doanh nghiệp ra những quyết định kịp thời được định hướng bởi tri thức mà khai phá dữ liệu đem lại. Sự phân tích dữ liệu một cách tự động và mang tính dự báo có ưu thế hơn hẳn so với sự phân tích thông thường dựa trên những sự kiện trong quá khứ của các hệ hỗ trợ ra quyết định (decision support systems - DSSs) truyền thống trước đây. Công cụ khai phá dữ liệu cũng có thể trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây được xem là tốn nhiều thời gian để xử lý. Giờ đây, khai phá dữ liệu đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và công nghệ tri thức. 2 Các kết quả điều tra về dân số giữa các vùng miền thì số liệu điều tra ngày một nhiều. Việc ứng dụng Công nghệ thông tin (CNTT) cụ thể là ứng dụng các luật trong khai phá dữ liệu (luật kết hợp) vào phân tích, đánh giá số liệu đã được điều tra là một chủ trương cần thiết, quan trọng. Sự nghiệp công nghiệp hóa, hiện đại hóa ngày càng sâu rộng và nhất là sự bùng nổ của thông tin toàn cầu… đang đặt ra những yêu cầu mới, đòi hỏi công tác điều tra phải dựa trên việc ứng dụng các thành tựu của CNTT. 2. Mục đích nghiên cứu - Khái phá luật kết hợp trong lĩnh vực khai phá dữ liệu - Ứng dụng luật kết hợp vào việc phân tích, đánh giá kết quả của các bảng biểu điều tra dân số về trình độ học vấn, chuyên môn kỹ thuật giữa các vùng miền Việt Nam 3. Đối tượng và phạm vi nghiên cứu - Khai phá dữ liệu - Khai phá luật kết hợp - Các bảng biểu của điều tra dân số 4. Phương pháp nghiên cứu - Tìm hiểu các tài liệu liên quan đến luật kết hợp, tập trung vào các thuật toán. Dựa trên các tài liệu thu thập từ nhiều nguồn (sách, báo, Internet,…) tổng hợp, phân tích và trình bày lại theo sự hiểu biết của bản thân. 3 - Ứng dụng độ tin cậy của luật kết hợp trên các dữ liệu điều tra dân số để đánh giá các qui luật phát triển giữa các vùng miền Việt Nam. Chương 1 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Giới thiệu Ở chương này đưa ra các vấn đề lý thuyết liên quan đến các khái niệm cơ bản cho đến các ứng dụng của Data Mining (DM). 1.2. Các khái niệm cơ bản Dữ liệu (Data): Có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta tập hợp hàng ngày trong công việc. Thông tin (Information): Là tập hợp của những mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc tính của một đối tượng nào đó. Tri thức (Knowledge): Là tập hợp những thông tin có liên hệ với nhau, có thể xem tri thức là sự kết tinh từ dữ liệu. Tri thức thể hiện tư duy của con người về một vấn đề. Khai phá tri thức từ cơ sở dữ liệu (KDD): Là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế. Tại sao phải DM? Bởi vì dữ liệu được thu thập hàng ngày là rất lớn: Từ các cơ sở dữ liệu khổng lồ, từ Internet. Theo các báo 4 cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các cơ sở dữ liệu là những tri thức quý giá. Khai phá dữ liệu (DM): Là một bước trong quy trình khám phá tri thức, nhằm:  Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn  Phân tích dữ liệu bán tự động  Giải thích dữ liệu trên các tập dữ liệu lớn 1.3. Quá trình khai phá dữ liệu 1.4. Các kỹ thuật khai phá dữ liệu 1.5. Các bài toán thông dụng trong khai phá dữ liệu 1.6. Các cơ sở dữ liệu phục vụ khai phá dữ liệu 1.7. Các ứng dụng của khai phá dữ liệu 1.8. Khai phá dữ liệu và các lĩnh vực liên quan 1.9. Các thách thức trong khai phá dữ liệu 1.10. Kết luận chương Trên cơ sở các lý thuyết đưa ra ở trên chúng ta hiểu thêm rằng DM là sự vận dụng học thuật vào các vấn đề thiết thực đang diễn ra. Là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật, hỗ trợ tích cực cho việc ra quyết định. Nghiên cứu nhằm xây dựng và cải thiện các kỹ thuật trong DM là một lĩnh vực hứa hẹn và phù hợp với điều kiện nghiên cứu ở Việt Nam. Một số hướng nghiên cứu về lý thuyết trong DM đang được nghiên cứu hiện nay: Áp dụng các chiến lược để cải thiện hiệu quả các giải thuật. Phát 5 triển các phiên bản mới của các giải thuật có khả năng giải quyết các tập dữ liệu lớn bằng kỹ thuật sử dụng bộ đệm. Song song và phân bố các giải thuật trong DM để tận dụng khả năng tính toán mạnh của tính toán lưới, Chương 2 - KHAI PHÁ LUẬT KẾT HỢP 2.1. Giới thiệu Ở chương này tập trung khai phá Association Rule - AR là tìm các mẫu phổ biến, sự kết hợp, sự tương quan, hay cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác. 2.2. Luật kết hợp 2.2.1. Giới thiệu - Khai phá AR là tìm các mẫu phổ biến, sự kết hợp, sự tương quan, hay các cấu trúc nhân quả giữa các tập đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác. - Các ứng dụng: AR có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và đầu tư, - Ví dụ về AR:  Confidence (Bia => Nem chua) = 60% Luật này có nghĩa: 60% khách hàng mua bia thì mua Nem chua. 6  Confidence(Thu nhập = 80.000.000_max => Tài khoản tiết kiệm=yes) = 100% Luật này có nghĩa: Nếu thu nhập lớn hơn hoặc bằng 80 triệu một tháng thì khách hàng có tài khoản tiết kiệm với độ tin cậy là 100%. Từ các AR được trích rút từ chính các cơ sở dữ liệu giao dịch, cơ sở dữ liệu khách hàng mà các siêu thị, các ngân hàng sẽ có chiến lược kinh doanh (sắp xếp các mặt hàng, số lượng các mặt hàng, ), chiến lược tiếp thị, quảng cáo,… để từ đó thúc đẩy hoạt động kinh doanh của mình. 2.2.2. Các khái niệm cơ bản - Định nghĩa độ hỗ trợ Định nghĩa 2.1: Gọi T(X) là tập giao dịch chứa tập mục X  I. Độ hỗ trợ của tập mục X  I, ký hiệu Sup(X) là tỷ số giữa số các giao dịch chứa X trên số tất các giao dịch. Hay Sup(X) = T XT )( ; Trong đó )(XT là số (lượng) các giao dịch chứa X và T là số lượng các giao dịch. Nhận xét: - Với mọi tập mục X  I, 0  Sup(S)  1. - Một tập mục X được gọi là tập mục k phần tử (k- itemset) nếu lực lượng của X bằng k (tức là |X|=k). 7 - Gọi X, Y  I là hai tập mục. Ta xét định nghĩa luật kết hợp X=>Y như sau: - Định nghĩa Luật kết hợp Định nghĩa 2.2: Một AR có dạng X  Y, trong đó X, Y là tập các mục, X, Y  I và X Y = . Đây là luật chỉ khả năng xuất hiện của Y khi X xuất hiện.  X được gọi là tiên đề .  Y được gọi là hệ quả của luật. Hai thông số quan trọng của AR là độ hỗ trợ (support) và độ tin cậy (confidence). Định nghĩa 2.3: Độ hỗ trợ (support) của luật kết hợp XY, ký hiệu Sup(X  Y) là tỷ số giữa số lượng các giao dịch chứa cả X và Y ( Y X  ) trên tổng số các giao dịch có trong cơ sở dữ liệu. Hay T YXT YXSup )( )(   Định nghĩa 2.4: Độ tin cậy (confidence) của luật X=>Y, ký hiệu conf(X  Y) là tỷ số giữa số lượng các giao dịch chứa cả X và Y ( Y X  ) trên số giao dịch có chứa X. )( )( )( XT YXT YXConf   - Ý nghĩa của độ hỗ trợ và độ tin cậy  Độ hỗ trợ của luật biểu diễn "sức mạnh" của luật. Luật có ảnh hưởng như thế nào trong toàn bộ hệ thống. sup(X  Y ) = P(X  Y ) 8  Độ tin cậy biểu diễn mức độ "đúng" của luật X  Y conf(X  Y ) = P(Y \ X) Công thức P(X  Y ) là xác suất chỉ khả năng xuất hiện của (X  Y ); P(Y \ X) là xác suất có điều kiện, có nghĩa là khả năng Y "xuất hiện " khi X đã "xuất hiện". Trong luật, chúng ta hiểu xác suất Y xuất hiện khi đã có X xuất hiện. Việc khai phá các AR từ cơ sở dữ liệu chính là việc tìm tất cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và minconf. Định nghĩa 2.5: Cho một tập mục X  I và một ngưỡng hỗ trợ tối thiểu minsup (được cho bởi người sử dụng). Tập mục X gọi là một tập mục phổ biến (Frequent Itemset hay Large Itemset) với độ hỗ trợ tối thiểu minsup khi và chỉ khi sup(X)  minsup. - Một vài tính chất liên quan đến tập phổ biến Tính chất 2.1: Nếu X  Y, X, Y là các tập mục thì sup(X) ≥ sup(Y) vì tất cả các giao dịch của D chứa Y thì cũng chứa X. Tính chất 2.2: Một tập mục X mà sup(X) < minsup thì mọi tập cha Y của X sẽ thỏa mãn sup(Y) ≤ sup(X) < minsup. Tính chất 2.3: [...]... DÂN SỐ 3.1 Giới thiệu AR được ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học, hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và đầu tư, Chương này đưa ra tổng quan về các bảng biểu của điều tra dân số và ứng dụng AR để phân tích đánh giá 3.2 Công tác điều tra dân số Năm 2009, cuộc Tổng điều tra dân số và nhà ở được thực hiện theo định số. .. 0,9 2,8 6,6 2,1 3.4 Các chỉ tiêu số liệu cần rút trích qua số liệu điều tra 3.5 Ứng dụng luật kết hợp vào dữ liệu điều tra dân số 3.5.1 Từ các bảng biểu đưa ra bảng dạng giao dịch trong khai phá dữ liệu và đánh giá sự phát triển kinh tế, văn hóa giữa các vùng miền Việt Nam 3.5.1.1 Quy luật thành thị hóa của các vùng miền 3.5.1.3 Quy luật trình độ chuyên môn kỹ thuật phụ thuộc vào các vùng miền 19 3.5.2... Phân tích, đánh giá thì chương trình sẽ cho kết quả phân tích, đánh giá như sau: Hinh 3.5 Kết quả phân tích, đánh giá trình độ học vấn giữa các vùng miền 22 Với menu Trình độ CMKT có giao diện như sau: Hình 3.6 Giao diện trình độ CMKT Với thông tin đầy đủ về trình độ CMKT giữa các vùng miền và nhấn nút Phân tích, đánh giá chương trình sẽ đưa ra kết quả như sau: Hình 3.7 Kết quả phân tích, đánh giá trình... dựa trên mẫu…, các phương pháp trên có thể áp dụng trên dữ liệu thông thường Trong luận văn trình bày chi tiết các vấn đề về khai phá luật kết hợp: từ các khái niệm cơ sở, bài toán xuất phát đến mô hình hình thức, các thuật toán khai phá luật kết hợp cơ sở luật kết hợp 24 Về thuật toán khai phá luật kết hợp, luận văn trình bày một số thuật toán tuần tự tiêu biểu về khai phá luật kết hợp như: Apriori,... tăng dân số bình quân năm thời kỳ 1999-2009 (%) thành thị 3,4 2,4 4,2 2,7 2,5 3,6 3,4 nông thôn 0,4 0,7 -0,2 -0,2 2,2 2,8 -0,1 Nguồn: Tổng cục Thống kê, "Tổng điều tra dân số và nhà ở Việt Nam 2009: Kết quả toàn bộ", NXB Thống kê, 8- 2001 3.3 Bảng số liệu điều tra dân số 17 Biểu 3.3: Số lượng Dân số, Dân số thành thị, tỷ trọng Dân số thành thị chia theo các vùng kinh tế - xã hội, 2009 Tổng Tổng số Tỷ... tổng điều tra năm 1999 3.2.1.5 Xử lý và tổng hợp số liệu 3.2.2 Mục đích, ý nghĩa của điều tra dân số Một yêu cầu hết sức quan trọng của cuộc Tổng điều tra dân số và nhà ở năm 2009 là phải bảo đảm chất lượng số liệu điều tra Thực tế triển khai cuộc Tổng điều tra dân số và nhà ở năm 2009 phản ánh kết quả của quá trình phát triển nguồn lực con người ở Tổng cục Thống kê Nhiều công việc của Tổng điều tra dân. .. Y} 2.2.4 Một số dạng luật kết hợp 2.2.4.1 Luật kết hợp Boolean và định lượng Boolean: Luật liên quan đến mối kết hợp giữa sự có xuất hiện và không xuất hiện của các phần tử Định lượng: Luật liên quan đến mối kết hợp giữa các phần tử hay thuộc tính định lượng 2.2.4.2 Luật kết hợp nhiều chiều Một chiều: Các thuộc tính hoặc tập thuộc tính trong luật chỉ quy về một đại lượng Nhiều chiều: Các thuộc tính... phát biểu bài toán khai phá AR Tiếp theo, nội dung chương này trình bày một số thuật toán cơ bản để phát hiện tập mục phổ biến và phát hiện AR từ các tập mục phổ biến đó Đây chính là cơ sở lý thuyết để từ đó chúng ta đi sâu tìm hiểu, cài đặt thử nghiệm thuật toán (thuật toán Apriori) sẽ áp dụng trong chương 3 14 Chương 3 ỨNG DỤNG VÀ THỬ NGHIỆM LUẬT KẾT HỢP PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU ĐIỀU TRA DÂN... giữa các vùng miền 23 Nếu nhấn chọn nút Thoát sẽ quay về giao diện chương trình chính 3.6 Kết luận chương Trên cơ sở lý thuyết của hai chương trên kết hợp với số liệu điều tra kinh tế văn hóa giữa các vùng miền, đưa ra được phân tích đánh giá trên số liệu đó để đưa ra các luật phù hợp với thực tế Chương trình thử nghiệm đã phản ánh được đầy đủ việc ứng dụng thành công AR vào khai phá dữ liệu KẾT LUẬN... giúp đỡ về tài chính và kỹ thuật từ các tổ chức quốc tế và nước ngoài ít hơn Ngay sau khi kết thúc bước điều tra thu thập thông tin, Thường trực Ban Chỉ đạo Trung ương đã thực hiện nhiều biện pháp để đánh giá, thẩm định kết quả Một số kết quả điều tra: 16 Biểu 3.1: Phân bố phần trăm diện tích Đất, Dân số và mật độ Dân số chia theo các vùng kinh tế - xã hội, 2009 Các vùng kinh tế - xã hội Toàn quốc . giữa các vùng miền thì số liệu điều tra ngày một nhiều. Việc ứng dụng Công nghệ thông tin (CNTT) cụ thể là ứng dụng các luật trong khai phá dữ liệu (luật kết hợp) vào phân tích, đánh giá số. ra những yêu cầu mới, đòi hỏi công tác điều tra phải dựa trên việc ứng dụng các thành tựu của CNTT. 2. Mục đích nghiên cứu - Khái phá luật kết hợp trong lĩnh vực khai phá dữ liệu - Ứng dụng. Apriori - TID 2.3.1.3. Thuật toán Apriori - Hybrid 2.3.1.4. Thuật toán FP-Growth (Frequent Pattern-Growth) 2.3.2. Thuật toán khai phá luật kết hợp song song 2.3.2.1. Thuật toán Count Distribution

Ngày đăng: 23/10/2014, 20:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan