TÌM HIỂU PHẦN MỀM WEKA ỨNG DỤNG TẠO LUẬT KẾT HỢP ĐỂ QUYẾT ĐỊNH CHO VAY VỐN TRONG NGÂN HÀNG

50 564 0
TÌM HIỂU PHẦN MỀM WEKA ỨNG DỤNG TẠO LUẬT KẾT HỢP ĐỂ QUYẾT ĐỊNH CHO VAY VỐN TRONG NGÂN HÀNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng     Đề tài:  !"#$% &'()* !+),-+-./ 012304567859:;5 <=3045>6?=60@5 ABABCD EF A-GHHIHHJI KHHLMIHM GVHD: PGS.TS.Đỗ Phúc Trang 1 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng ''   !" ##$%& '$%()*#+,-& .)()/012& '2/34 56,*789-: ;89,: ###<= #>2/3 ?@22/3 ;A7BCD=2EF/2/3 ;A7BCDG2EF/! ;A7BCDG2/3!" H235I GVHD: PGS.TS.Đỗ Phúc Trang 2 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng N" Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày càng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu tốt hơn. Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinh doanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình. Tất cả lý do đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết đó là phải có những kỹ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô đọng và có ích. Kỹ thuật Khai phá dữ liệu (Data mining ) ra đời như một kết quả tất yếu đáp ứng các nhu cầu đó. GVHD: PGS.TS.Đỗ Phúc Trang 3 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng 67O59GP-# B 6Q0R61:ST0@UTV9WX BH Y56596ZQ[6Q0R61:ST0@U Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (knowledge mining from databases),trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là như nhau. Tuy nhiên, trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL. Sau đây là một số quan niệm về khai phá dữ liệu (KPDL): KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ liệu khổng lồ. KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu. Quá trình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được phát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế. KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một tập hợp của các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những dự báo của các vật hay sự kiện mới. KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu không gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web. GVHD: PGS.TS.Đỗ Phúc Trang 4 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng 1.2. Nhiệm vụ khai phá dữ liệu là gì? Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàng đầu. Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của quá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằm vào mục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là: Phân cụm, phân loại, phân nhóm, phân lớp GNhiệm vụ là trả lời câu hỏi là một dữ liệu mới thu thập được sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách tự động. Khai phá luật kết hợp G Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu trúc của các bản ghi giao dịch. Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giao dịch đã sở hữu các tính chất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào đó. Khai phá luật kết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽ biết được các tính chất Y là những tính chất nào? Lập mô hình dự báo : Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường khác. Phân tích sự tiến hoá G Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các qui luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời gian. Phân tích sự tiến hoá có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, sánh mẫu theo chu kì và phân tích dữ liệu dựa trên tính tương tự. Hồi quy : Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực. Phân nhóm : Là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô tả dữ liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này vừa thuộc nhóm kia. GVHD: PGS.TS.Đỗ Phúc Trang 5 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Mô hình phụ thuộc : Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biến nào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó. Dò tìm biến đổi và phát hiện độ lệch : Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó. HB\1=:]59:ST0@U=^>6_[6Q0R61G Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhập trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình: CSDL quan hệ G Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ ( như Oracle, IBM, DB2, MS SQL, v.v ). CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác nhau. Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụ cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định. CSDL dạng giao dịch:Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các giao dịch. Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữ liệu về các giao dịch thanh toán của ngân hàng,v.v. Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không gian(ví dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán). CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và hướng đối tượng. CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó. GVHD: PGS.TS.Đỗ Phúc Trang 6 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng II. Các phương pháp khai phá dữ liệu Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, phân nhóm,… MBH67O59R61R`Ua5]R5:U=>025 Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng có thể được suy diễn từ kho thông tin đó. Có hai việc chính để thực hiện việc này là suy diễn và quy nạp. 67O59R61RbUa:0c5G Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ sở dữ liệu. Ví dụ như toán tử liên kết áp dụng cho hai bảng quan hệ, bảng đầu chứa thông tin về các nhân viên và các phòng ban, bảng thứ hai chứa thông tin về các phòng ban và các trưởng phòng. Như vậy sẽ suy ra mối quan hệ giữa các nhân viên và trưởng phòng. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật suy diễn. 67O59R61R`Ua5]RG Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu. Phương pháp này liên quan đến việc tìm kiếm các mẫu trong cơ sở dữ liệu. Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật. MBMda`Uae>fY563VTUg> Cây `Uae>fY5hG Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng GVHD: PGS.TS.Đỗ Phúc Trang 7 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng với giá trị của thuộc tính của đối tượng tới lá. Mô tả một mẫu đầu ra có thể của quá trình khai phá dữ liệu khách hàng xin vay vốn. ]2TUg>G Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê. Các luật có dạng Nếu P thì Q với P là mệnh đề đúng với phần dữ liệu trong cơ sở dữ liệu, Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương pháp tạo luật: Nếu giá 1 cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5%. Những luật như thế này được sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia. Chúng có thuận lợi là dễ hiểu đối với người sử dụng. Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô hình. Cho đến nay, đã có rất nhiều giải thuật suy diên sử dụng các luật và cây quyết định được áp dụng trong máy học và trong thống kê. MB\61>60@5=1=TUg>[e>6hR Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm được. Ta có thể lấy một số ví dụ đơn giản về luật kết hợp như sau: Sự kết hợp giữa hai thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B trong cùng bản ghi đó: A ⇒ B. GVHD: PGS.TS.Đỗ Phúc Trang 8 HVTH: Lê Nhựt Trường Nợ >= nNợ < n Không cho vay Thu nhập < t Thu nhập >= t Không cho vay Cho vay Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Cho một lược đồ R = {A 1 ,…A p } các thuộc tính với miền giá trị {0,1}, và một quan hệ r trên R. Một tập luật kết hợp trên r được mô tả dưới dạng X ⇒ B với X ⊆ R và B∈R\X. Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: nếu một bản ghi của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B cũng là 1 trong cùng bản ghi đó. Ví dụ như ta có tập cơ sở dữ liệu về các mặt hàng bán trong siêu thị, các dòng tương ứng với các ngày bán hàng, các cột tương ứng với các mặt hàng thì giá trị 1 tại ô (20/10, bánh mì) xác định rằng bánh mì đã được bán ngày hôm đó và cũng kéo theo sự xuất hiện giá trị 1 tại ô (20/10, bơ). Cho W⊆R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ của các dòng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của luật X ⇒ B trong r được định nghĩa là s(X∪{B},r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật là s(X∪{B},r)/s(X,r), ở đây X có thể gồm nhiều thuộc tính, B là giá trị không cố định. Nhờ vậy mà không xảy ra việc tạo ra các luật không mong muốn trước khi quá trình tìm kiếm bắt đầu. Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của số lượng các thuộc tính ở đầu vào. Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm kiếm các luật kết hợp. Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X ⇒ B sao cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu ta có thể tìm được hàng nghìn thậm chí hàng trăm nghìn các luật kết hợp. Ta gọi một tập con X ⊆ R là phổ biến trong r nếu thoả mãn điều kiện s(X,r) ≥ σ. Nếu biết tất cả các tập phổ biến trong r thì việc tìm kiếm các luật kết hợp rất dễ dàng. Vì vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập phổ biến này, sau đó tạo dựng dần các luật kết hợp bằng cách ghép dần các tập thuộc tính dựa trên mức độ phổ biến. Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng số các tập thường xuyên và nếu như một tập thường xuyên có kích thước K thì phải có ít nhất là 2 K GVHD: PGS.TS.Đỗ Phúc Trang 9 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng luật kết hợp. Thông tin về các tập thường xuyên được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp. MBi2j=kj=TUb>lm059 Kỹ thuật phân nhóm là kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm khác là xây dựng nên các hàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thành phần. Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal partitioning). Một ví dụ ứng dụng của phương pháp phân nhóm theo độ giống nhau là cơ sở dữ liệu khách hàng, ứng dụng của phương pháp tối ưu ví dụ như phân nhóm khách hàng theo số các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo hiểm. Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu. Khi các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ở dạng dễ hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng. MBJ]595lUm25 Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc toán học với khả năng lọc. Các phương pháp là kết quả của việc nghiên cứu mô hình học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được. Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng và triển khai nhưng GVHD: PGS.TS.Đỗ Phúc Trang 10 HVTH: Lê Nhựt Trường [...]... Mở kết quả ở vùng Associator output • View in separate window: Mở kết quả ở một cửa sổ khác • Save result buffer: Lưu kết quả vào bộ nhớ • Delete result buffer: Xóa kết quả GVHD: PGS.TS.Đỗ Phúc Trang 32 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Chương 3: ỨNG DỤNG TẠO LUẬT KẾT HỢP QUYẾT ĐỊNH CHO KHÁCH HÀNG VAY VỐN NGÂN HÀNG I Luật kết hợp. .. Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X ⇒ Y, trong đó X, Y ⊂ I là các tập mục gọi là itemsets, và X Y = φ Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c) Định nghĩa 2 : Độ hỗ trợ (support) của luật kết hợp X ⇒ Y là tỷ lệ phần. .. Trang 31 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Đây là nơi hiện thị kết quả của việc tạo luật kết hợp  Result list Vùng này chứa danh sách các kết quả đạt được sau khi thực hiện việc ttaoj luật kết hợp Trong danh sách này bạn có thể chọn một kết quả vào nhấp chuột phải vào kết quả đó sẽ xuất hiện một danh sách cho phép bạn chọn như hình... Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng  Name: Tên thuộc tính  Type: Kiểu dữ liệu của thuộc tính đó  Missing: cho biết số lượng và phần trăm tương ứng của số bản ghi có giá trị rỗng trong thuộc tính  Distinct: Cho biết số lượng các giá trị trong thuộc tính  Unique: cho biết số lượng và phần trăm tương ứng của các giá trị không bị lặp lại trong thuộc... hiện các thao tác để xử lý dữ liệu trước khi thực hiện những công việc khác như phân cụm, tạo cây quyết định, luật kết hợp Để thực hiện xử lý dữ liệu trước hết bạn click vào button , một cây thư mục đổ xuống, trong cây thưc mục đổ xuống như hình dưới đây: GVHD: PGS.TS.Đỗ Phúc Trang 18 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Từ cây thư mục... liệu vào Trong tab Preprocess có: − Nút GVHD: PGS.TS.Đỗ Phúc mở các file có sẵn trên máy Trang 15 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng − Nút mở file từ máy khác − Nút đọc dữ liệu từ một cơ sở dữ liệu − Nút Phần mềm tự tạo ra dữ liệu cho bạn theo những sự lựa chọn của bạn Sử dụng nút có thể đọc các tập tin ở nhiều định dạng như: định dạng... HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Chương 2: TỔNG QUAN PHẦN MỀM WEKA HỖ TRỢ KHAI PHÁ DỮ LIỆU I Giới thiệu về Weka Weka là môi trường thử nghiệm Khai phá dữ liệu, do các nhà khoa học thuộc trường Đại học Waitako, New Zealand, khởi xướng và được sự đóng góp của rất nhiều nhà nghiên cứu trên thế giới Weka là phần mềm mã nguồn mở, cung... button để kết thúc việc phân lớp GVHD: PGS.TS.Đỗ Phúc Trang 28 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng  Vùng Classifier: Vùng này cho biết tên của thuật toán phân loại đang được chọn, mặc định là zero Bạn có thể thay đổi thuật toán bằng cách click chuột vào trong vùng này và chọn một thuật toán mà bạn muốn Để thay đổi các thuộc tính cho thuật... sinh từ một file hoặc một bảng cơ sở dữ liệu Cách sử dụng Weka là thông qua giao diện đồ họa của nó GVHD: PGS.TS.Đỗ Phúc Trang 13 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Hình 1: Giao diện đồ họa của Weka Các phiên bản của Weka − WEKA 3.0: “book version”: Chỉ cho phép viết các câu lệnh − WEKA 3.2: “GUI version”- Graphical User interfaces... ARFF, định dạng CSV, định dạng C4.5 Khi mở một file từ mục open file sẽ hiện ra một cửa sổ như sau: Hình 3: Mở file trong Exporer GVHD: PGS.TS.Đỗ Phúc Trang 16 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng 1.2 Preprocess Trong cửa sổ của Preprocess có 4 vùng Vùng Filter Cho biết được giải thuật dùng để tiền xử lý dữ liệu đang được sử dụng Có . Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng luật kết hợp. Thông tin về các tập thường xuyên được sử dụng để ước lượng độ tin cậy của các tập luật kết hợp. MBi2j=kj=TUb>lm059 Kỹ. >= nNợ < n Không cho vay Thu nhập < t Thu nhập >= t Không cho vay Cho vay Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng Cho một lược đồ R = {A 1 ,…A p }. trên Internet do sự ứng dụng rộng rãi của nó. GVHD: PGS.TS.Đỗ Phúc Trang 6 HVTH: Lê Nhựt Trường Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng II. Các phương

Ngày đăng: 10/04/2015, 00:21

Từ khóa liên quan

Mục lục

  • 1.2. Nhiệm vụ khai phá dữ liệu là gì?

  • 1.3 Các dạng dữ liệu có thể khai phá:

  • II. Các phương pháp khai phá dữ liệu

    • 2.1 Phương pháp quy nạp (Induction)

    • 2.2 Cây quyết định và luật

    • 2.3 Phát hiện các luật kết hợp

    • 2.4 Gom cụm (clustering)

    • 2.5 Mạng neuron

    • III. Các ứng dụng của khai phá dữ liệu

    • I. Luật kết hợp

      • 1.1 Khái niệm về luật và luật kết hợp.

      • 1.2. Một số tính chất của tập mục phổ biến và luật kết hợp

      • 1.2.1. Một số tính chất với tập mục phổ biến:

      • 1.2.2. Một số tính chất với luật kết hợp:

      • 1.1 Thuận lợi

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan