Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y

39 954 0
Tiểu luận môn hệ hỗ trợ quyết định Tìm hiểu datamining qua bài báo và ứng dụng cây quyết định dự báo sức khỏe dựa vào việc xem mạch trong đông y

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN ĐỀ TÀI: Giảng viên hướng dẫn: PGS.TS. ĐỖ PHÚC Học viên thực hiện: 1. LÊ KIM NGA – CH1301040 2. NGUYỄN THÀNH THIỆN – CH1301059 Lớp: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 2 TPHCM, tháng 6/ 2014 MỤC LỤC MỤC LỤC 2 LỜI GIỚI THIỆU 4 PHẦN I: NỘI DUNG BÀI DỊCH 5 I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf” 5 1. Giới thiệu: 5 2. Một gian lận là gì? 7 3. Phương pháp tiếp cận khai phá dữ liệu: 8 3.1 Phân loại các ứng dụng khai phá dữ liệu: 10 3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính: 12 4. Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận: 15 5. Kết luận: 16 I.2. Những kiến thức thu thập được qua bài báo: 18 PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH 19 II.1. Giới thiệu sơ lược về khai phá dữ liệu: 19 1.Khai phá dữ liệu là gì? 19 2.Quá trình khai phá dữ liệu: 19 3.Chức năng của khai phá dữ liệu: 20 4.Các kỹ thuật khai phá dữ liệu: 20 5.Các dạng dữ liệu có thể khai phá được: 22 6.Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu: 22 7.Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu 23 II.2. Giới thiệu về khai phá dữ liệu sử dụng cây quyết định: 24 2.1. Cây quyết định: 24 2. 2. Các thuật toán khai phá dữ liệu bằng cây quyết định: 26 II.3. Xây dựng cây quyết định dự báo sức khỏe qua việc bắt mạch trong Đông y: 28 3.1. Giới thiệu sơ lược phương pháp bắt mạch trong Đông y: 28 3.2. Thu thập và tiền xử lý dữ liệu: 29 3.3. Xây dựng cây quyết định dựa vào thuật toán ID3: 32 II.4. Cài đặt thuật toán thử nghiệm: 36 4.1. Giao diện của chương trình: 36 4.2. Kết quả thử nghiệm với bộ dữ liệu đã cho ở bảng trên: 37 II.5. Kết luận và hướng phát triển: 38 TÀI LIỆU THAM KHẢO 39 HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 3 HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 4 LỜI GIỚI THIỆU Lời đầu tiên chúng em xin chân thành cảm ơn PGS.TS. Đỗ Phúc đã nhiệt tình giảng dạy và truyền đạt kiến thức cho chúng em với môn học Hệ hỗ trợ ra quyết định. Sau thời gian học tập và nghiên cứu về môn học này, nhóm chúng em gồm hai thành viên: LÊ KIM NGA – CH1301040 và NGUYỄN THÀNH THIỆN – CH1301059 thống nhất chọn một bài báo để tìm hiểu thông qua việc dịch và rút ra những kiến thức tiếp thu được của bài báo này. Đồng thời, chúng em chọn nội dung để viết thu hoạch và xây dựng ứng dụng với mục đích áp dụng khai phá dữ liệu sử dụng cây quyết định để dự báo một người “Có bệnh” hay “Không có bệnh” thông qua việc bắt mạch trong Đông Y. Nội dung bài thu hoạch của chúng em gồm các phần: Phần I: Nội dung bản dịch của bài báo; Phần II: Ứng dụng kỹ thuật khai phá dữ liệu dùng cây quyết định qua việc bắt mạch; Phân công công việc của từng thành viên: 1. Lê Kim Nga: − Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định; − Tìm hiểu về xem mạch trong Đông y và xây dựng bảng dữ liệu dựa vào các thông tin thu thập được; − Xây dựng và cài đặt thuật toán tính Gain, Entropy; − Dịch sơ lược bài báo và hỗ trợ việc thiết kế, hiệu chỉnh giao diện chương trình Demo; Viết báo cáo thu hoạch; 2. Nguyễn Thành Thiện: − Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định; − Xây dựng và cài đặt thuật toán ID3 và vẽ cây; − Thiết kế giao diện, tập tin dữ liệu đầu vào và chương trình chính; − Rà soát và điều chỉnh nội dung bản dịch của bài báo; Viết báo cáo thu hoạch; Do thời gian nghiên cứu có hạn và bản thân chúng em cũng còn nhiều hạn chế nên bài thu hoạch này chắc chắn sẽ không tránh khỏi phần sai sót. Chúng em mong nhận được lời góp ý của PGS.TS. Đỗ Phúc để hướng phát triển sắp tới của chúng em sẽ hoàn thiện và đạt kết quả tốt hơn. Chúng em chân thành cảm ơn! NHÓM HỌC VIÊN THỰC HIỆN HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 5 PHẦN I: NỘI DUNG BÀI DỊCH I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf” Áp dụng các kỹ thuật khai phá dữ liệu cho Kế toán tài chính Đề án Phát hiện gian lận Tóm tắt: kỹ thuật khai phá dữ liệu được cung cấp viện trợ lớn trong việc phát hiện gian lận kế toán tài chính, kể từ khi giao dịch với khối lượng dữ liệu lớn và phức tạp của dữ liệu tài chính là những thách thức lớn đối với ngành kế toán. Việc thực hiện các kỹ thuật khai phá dữ liệu để phát hiện gian lận sau dòng chảy thông tin truyền thống khai phá dữ liệu, bắt đầu với lựa chọn tính năng tiếp theo thu thập dữ liệu và quản lý trước, sau đó chế biến và đánh giá hiệu suất. Các phương pháp khai phá dữ liệu có khả năng phát hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trường hợp gian lận trong quá khứ để xây dựng các mô hình, trong đó xác định và phát hiện các nguy cơ gian lận. Báo cáo tài chính lừa đảo, một trong những hành vi gian lận tài chính, đã đạt tỷ lệ phổ biến trên toàn cầu. Sự sụp đổ của nhiều công ty tư nhân đã để lại một vết bẩn trên hiệu quả của quản trị doanh nghiệp, chất lượng của báo cáo tài chính, và độ tin cậy của chức năng kiểm toán. Gian lận báo cáo tài chính đã trở thành một vấn đề quan trọng của các doanh nghiệp trên thế giới. Mục đích của sự đóng góp này là để giới thiệu một số kỹ thuật khai phá dữ liệu để phát hiện gian lận và ngăn chặn các hoạt động gian lận trong thẻ tín dụng và viễn thông của một doanh nghiệp để tiết kiệm chi phí nhiều hơn, và cũng vì lợi ích chung của doanh nghiệp qua việc xác định bằng chứng pháp lý tiềm năng. Từ khóa chính: Khai phá dữ liệu; Kiểm toán; Phát hiện gian lận, gian lận tài chính, Tam giác gian lận. 1. Giới thiệu: Kiểm toán ngày nay đã trở thành một nhiệm vụ ngày càng cao và có nhiều bằng chứng rằng "book cooking" là thông lệ kế toán được áp dụng rộng rãi. Koskivaara gọi năm 2002, "năm khủng khiếp", từ việc xem sổ sách kế toán và tuyên bố rằng việc này vẫn đang tiếp diễn (Koskivaara, 2004). Một số ước tính nói rằng chi phí gian lận kinh doanh Mỹ hơn 400 tỷ USD mỗi năm (Wells, 1997). Spathis, Doumpos, và Zopounidis (2002) cho rằng gian lận báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua. Yêu cầu của việc phát hiện, xác định và gian lận báo cáo kế toán tài chính đã tăng lên [1]. Gian lận quản lý có thể được định nghĩa là sự gian lận có chủ ý của quản lý mà gây thiệt hại cho nhà đầu tư và các HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 6 chủ nợ thông qua tài liệu sai lệch báo cáo tài chính. Trong quá trình kiểm toán, kiểm toán viên phải đánh giá khả năng gian lận quản lý. Oxford Từ điển tiếng Anh [2] định nghĩa gian lận là "sai trái hoặc lừa dối hình sự có ý định dẫn đến lợi ích tài chính hoặc cá nhân". Trong tài liệu học thuật, gian lận được định nghĩa là dẫn đến sự lạm dụng của hệ thống tổ chức lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý trực tiếp [3]. Mặc dù các tài liệu còn thiếu một định nghĩa được chấp nhận của gian lận tài chính, nhà nghiên cứu đã xác định nó như là "Một hành động cố ý đó là trái pháp luật, nguyên tắc hay chính sách với mục đích để có được lợi ích tài chính trái phép "[4] và" cố ý sai sót trọng yếu hoặc thiếu sót của số lượng người sử dụng lừa gạt tài chính, đặc biệt là các nhà đầu tư và các chủ nợ " [5]. gian lận kế toán thực hiện bằng cách làm cho báo cáo tài chính kế toán giả mạo mà những con số thao túng bởi phóng đại tài sản, mục giả mạo liên quan đến doanh thu và lợi nhuận, chiếm đoạt tiền thuế, hoặc dư nợ phải trả, nợ, chi phí hoặc tổn thất [1]. Sự gian lận kế toán cũng được xác định bởi các chuyên gia kế toán là "có chủ ý và thực hiện không đúng các ghi chép số liệu trong báo cáo tài chính để đạt được một lợi nhuận hoạt động của công ty tốt hơn so với thực tế"[6]. Trong kinh tế, gian lận tài chính đang trở thành một vấn đề ngày càng nghiêm trọng và gian lận kế toán phát hiện một cách hiệu quả đã và đang là một nhiệm vụ quan trọng nhưng phức tạp cho các chuyên gia kế toán [7]. Kiểm toán nội bộ của các vấn đề tài chính trong các công ty đã trở thành một hoạt động ngày càng thường xuyên và có nhiều bằng chứng cho thấy "book cooking" là thông lệ kế toán được áp dụng trên toàn thế giới để thực hiện hành vi gian lận tài chính [8]. Việc phát hiện gian lận kế toán sử dụng thủ tục kiểm toán nội bộ truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể [9]. Thứ nhất, kiểm toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm của gian lận kế toán. Thứ hai, như các thao tác gian lận số liệu kế toán là rất hiếm khi xảy ra, hầu hết các kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện và ngăn chặn gian lận. Cuối cùng, những người quan tâm khác của bộ phận tài chính như Giám đốc tài chính (CFO), quản lý tài chính và kế toán đang cố tình tìm cách đánh lừa các kiểm toán viên nội bộ hay bên ngoài [10]. Trong khi biết những hạn chế của kiểm toán, quản lý tài chính và kế toán đã kết luận rằng thủ tục kiểm toán truyền thống và những tiêu chuẩn là không đủ để phát hiện gian lận. Những hạn chế của kiểm toán tài chính đề nghị cần bổ sung dữ liệu tự động thủ tục phân tích và các công cụ để phát hiện hiệu quả của báo cáo tài chính sai lệch. Nó là cần thiết để đưa vào hạch toán chi phí của việc phát hiện gian lận và các chi phí của hành vi lừa đảo, bởi vì ngăn chặn gian lận vài đô la có thể đòi hỏi một hệ thống rất tốn kém. Điều này có thể thực hiện bằng cách sử dụng một lớp quyết định trên hệ thống để quyết định các hành động có tính đến các yếu tố như số lượng giao dịch và rủi ro liên quan đến người sử dụng thực hiện các giao dịch. Sự phát triển của phương pháp phats hiện mới là HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 7 khó khăn hơn do sự hạn chế nghiêm trọng về quyền riêng tư và trao đổi ý tưởng. Hơn nữa, tập hợp dữ liệu không có sẵn và kết quả thường không được tiết lộ cho công chúng. Các chiến lược kiểm toán lập kế hoạch là một vấn đề phát hiện gian lận cùng với mục đích ngăn ngừa phân tích dữ liệu kiểm toán và xây dựng lịch sử mô hình lập kế hoạch kiểm toán có hiệu quả trong tương lai. Một ứng dụng tài chính và bảo hiểm theo vùng, nơi kiểm tra nhằm phát hiện trốn thuế và công khai gian lận. Một nghiên cứu trường hợp này được trình bày bởi Bonchi (1999) minh họa cách kỹ thuật dựa trên phân loại có thể được sử dụng để hỗ trợ công việc của các chiến lược kiểm toán lập kế hoạch. Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) được dựa trên phương pháp thống kê và phân tích liên kết trong để phát hiện sự cố xảy ra khi người bán cố gắng nâng giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầu bằng biệt/ bí danh hoặc thông qua các mối liên hệ. Ngoài gian lận, những nỗ lực phát hiện có thể được thúc đẩy hơn nữa bởi sự cần thiết để hiểu được hành vi của khách hàng để cho phép cung cấp dịch vụ phù hợp và cải thiện hoạt động. 2. Một gian lận là gì? Gian lận là hành vi cố ý có nghĩa là để tạo ra cho người khác một cái gì đó có giá trị, hoặc từ bỏ quyền hợp pháp. Nó là một xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gây nhầm lẫn. Gian lận có thể từ nhân viên trộm cắp nhỏ và hành vi không hiệu quả để chiếm đoạt tài sản và báo cáo gian lận tài chính. Trong bối cảnh tình huống khác nhau, gian lận có thể có các hình thức hơi khác nhau. ví dụ, hối lộ, tham ô, chứng khoán gian lận, gian lận chăm sóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gian lận internet, lừa đảo qua điện thoại, lừa đảo tịch thu nhà thế chấp, và trộm cắp danh tính - tất cả đều có đặc điểm riêng biệt của họ. Có ít nhất là nhiều loại gian lận như có nhiều loại của những người thực hiện nó. Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối. Một người nào đó cố ý nằm để có được một lợi ích bất hợp pháp, hoặc một lợi thế không công bằng. Một số ví dụ về gian lận bao gồm: • Bất kỳ hành động không trung thực hoặc gian lận; • Giả mạo hoặc thay đổi một phiếu, hối phiếu ngân hàng, hoặc tài liệu tài chính; • Biển thủ tài sản; • Cố ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài chính. • Mạo sử dụng ảnh hưởng trong một giao dịch kinh doanh để nhận được một lợi ích (chẳng hạn như hối lộ, lại quả, và thầu gian lận); • Trục lợi là kết quả của thông tin nội bộ; • Tiết lộ thông tin nội bộ cho người khác để cho họ để bảo đảm tăng bất hợp pháp. HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 8 Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà một người thận trọng xem xét hành nghề kinh doanh hợp lý và cần thiết cho các sự kiện và hoàn cảnh. Trường hợp lạm dụng không gian lận bất hợp pháp hoạt động, nhưng có hại, và họ cần phải được giảm thiểu. Tam giác gian lận là một mô hình để giải thích các yếu tố gây ra một người nào đó để gian lận nghề nghiệp. Nó bao gồm ba thành phần dẫn đến hành vi gian lận: 1. Nhận thức nhu cầu tài chính không chia sẻ 2. Cơ hội cảm nhận 3. Hợp lý hoá Hình 1: Tam giác Gian lận 3. Phương pháp tiếp cận khai phá dữ liệu: Khai phá dữ liệu phân tích khối lượng lớn các giao dịch và dữ liệu thanh toán và tìm ra mô hình, xu hướng và cụm đó tiết lộ gian lận. Các bước chính để thực hiện phương pháp này để phát hiện gian lận trong một tổ chức kinh doanh là: 1. Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi chúng thành mục tiêu khai phá dữ liệu; 2. Sưu tập dữ liệu và sự hiểu biết; 3. Làm sạch dữ liệu và chuẩn bị các thuật toán.; 4. Thiết kế thử nghiệm; 5. Đánh giá kết quả để xem xét quá trình. Vấn đề kỹ thuật liên quan là do: 1. Dữ liệu không hoàn hảo không thu thập cho mục đích khai phá dữ liệu, vì vậy họ không chính xác, không đầy đủ, và không liên quan dữ liệu, thuộc tính; HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 9 2. Dữ liệu cao chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn ví dụ lừa đảo, vì vậy bằng cách dự đoán tất cả các ví dụ được chính xác tỷ lệ thành công rất cao có thể đạt được mà không phát hiện bất kỳ gian lận; 3. Cơ hội cao hơn trên phù hợp khi xảy ra khi mô hình chính xác cao phát sinh từ mô hình phù hợp trong tập huấn luyện mà không phải là đáng tin cậy về mặt thống kê và không có sẵn trong các thiết lập điểm. Để xử lý với các dữ liệu sai lệch tập huấn luyện là chia thành từng miếng nơi phân phối là ít sai lệch (Chan, 1998). Một cách tiếp cận phát hiện điển hình bao gồm trong việc phát hiện outlier nơi các hành vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi xa bên ngoài phạm vi dự kiến nên được đánh giá chặt chẽ hơn. Kỹ thuật thống kê được sử dụng cho phương pháp này là: 1. Dự đoán và Phân loại • Thuật toán hồi quy: mạng neural, CART, hồi quy, GLM; • Phân loại các thuật toán (dự đoán biểu tượng Kết quả): Thanh, hồi quy logistic; 2. Phân nhóm và tìm kiếm sự kết hợp • Clustering / Các thuật toán phân nhóm: K-Means, Kohonen, Factor analysis; • Các thuật toán kết hợp: GRI, Capri Sequence. Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giám sát trên các dữ liệu được dán nhãn, phương pháp tiếp cận lai trên dán nhãn dữ liệu, phương pháp tiếp cận bán giám sát với pháp lý (không gian lận) dữ liệu, phương pháp tiếp cận không được giám sát với các dữ liệu không dán nhãn (Phua, 2005). Khung phân loại, được thể hiện trong hình 1, dựa trên một nghiên cứu tài liệu hiện có kiến thức về bản chất của khai phá dữ liệu nghiên cứu [19, 20], nghiên cứu phát hiện gian lận [18]. Một khung phân loại gian lận tài chính được đề xuất trong [7] dựa trên khung tội phạm tài chính của Văn phòng Liên bang Mỹ điều tra [21], đó là một trong những khuôn khổ được thiết lập cho phát hiện gian lận tài chính. Hình 2 bao gồm hai lớp, vòng đầu tiên bao gồm sáu lớp học ứng dụng khai phá dữ liệu về phân loại, phân nhóm, dự báo, phát hiện outlier, hồi quy, và trực quan [22,23], được hỗ trợ bởi một tập hợp các phương pháp tiếp cận thuật toán để trích xuất các mối quan hệ có liên quan trong các dữ liệu [14]. HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS. Đỗ Phúc 10 Hình 2: Khung khái niệm cho ứng dụng của khai phá dữ liệu để phát hiện gian lận kế toán tài chính. Một mô tả ngắn gọn về các khuôn khổ khái niệm với tài liệu tham khảo được cung cấp và các ứng dụng khai phá dữ liệu sáu lớp học (phân loại, phân nhóm, phát hiện outlier, dự báo, hồi quy và trực quan), mỗi thành phần được thảo luận chi tiết hơn trong các phần sau. 3.1 Phân loại các ứng dụng khai phá dữ liệu: Mỗi lớp ứng dụng khai phá dữ liệu được hỗ trợ bởi một tập hợp các phương pháp tiếp cận thuật toán để trích xuất các liên quan các mối quan hệ trong dữ liệu. Những cách tiếp cận có thể xử lý các lớp khác nhau của vấn đề. Các lớp được trình bày dưới đây. Phân loại (Classification)- Phân loại xây dựng và sử dụng một mô hình để dự đoán các nhãn phân loại các đối tượng không biết đến phân biệt giữa các đối tượng của các lớp khác nhau. Các nhãn phân loại được xác định trước, rời rạc và không có thứ tự [24]. Các tài liệu nghiên cứu mô tả rằng phân loại hoặc dự đoán là quá trình xác định một tập hợp các tính năng phổ biến (Mô hình), và đề xuất các mô hình mô tả và phân biệt các lớp dữ liệu hoặc các khái niệm [17]. Phân loại chung kỹ thuật bao gồm các mạng neural, kỹ thuật Naïve Bayes, cây quyết định và Support vector Machines. Như vậy nhiệm vụ phân loại được sử dụng trong việc phát hiện thẻ tín dụng, chăm sóc sức khỏe và bảo hiểm xe cộ, và gian lận của công ty, trong số các loại gian lận, và phân loại là một trong những mô hình học tập phổ biến nhất trong việc ứng dụng dữ liệu khai thác khoáng sản trong việc phát hiện gian lận. Phân nhóm (Clustering): Clustering được sử dụng để phân vùng các đối tượng vào các nhóm khái niệm có ý nghĩa trước đó chưa biết (tức là cụm), với các đối tượng trong một HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHÓA 8 [...]... định có thể được dùng để phân lớp bằng cách xuất phát từ gốc của c y và di chuyển theo các nhánh cho đến khi gặp nút lá Trên cơ sở phân lớp n y chúng ta có thể chuyển đổi về các luật quyết định C y quyết định được sử dụng để x y dựng một kế hoạch nhằm đạt được mục tiêu mong muốn Các c y quyết định được dùng để hỗ trợ q trình ra quyết định C y quyết định là một dạng đặc biệt của cấu trúc c y Tạo c y. .. (x ,y) = (x1, x2, x3, …,xk, y) Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng qt hóa x1, x2, x3, … là các biến sẽ giúp ta thực hiện cơng việc đó Ví dụ: C y quyết định phân lớp mức lương Hình 4 C y quyết định phân lớp mức lương 2.1.2 Ưu điểm của c y quyết định: So với các phương pháp khai phá dữ liệu khác, c y quyết định có một số ưu điểm sau: − C y quyết định. .. nằm viện) − C y phân loại (Classification tree): nếu y là một biến phân loại như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua) 2.1.4 Vấn đề x y dựng c y quyết định: Có nhiều thuật tốn khác nhau để x y dựng c y quyết định như: CLS, ID3, C4.5, SLIQ, SPRINT, EC4.5, C5.0…Nhưng nói chung q trình x y dựng c y quyết định đều được chia ra làm 3 giai đoạn cơ bản: a X y dựng c y: Thực hiện... đối dể hiểu − Đòi hỏi mức tiền xử lý dữ liệu đơn giản − Có thể xử lý với cả các dữ liệu rời rạc và liên tục − C y quyết định là một mơ hình hộp trắng − Kết quả dự đốn bằng c y quyết định có thể thẩm định lại bằng cách kiểm tra thống kê 2.1.3 Các kiểu c y quyết định: C y quyết định còn có hai tên khác: − C y hồi quy (Regression tree): ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho... loại và dự báo Mặt khác, c y quyết định còn có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các luật If-Then C y quyết định là cấu trúc biểu diễn dưới dạng c y Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của c y gọi là gốc (root) C y quyết. .. trong các hệ cơ sở dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề an tồn và bảo mật thơng tin trong khai phá dữ liệu II.2 Giới thiệu về khai phá dữ liệu sử dụng c y quyết định: 2.1 C y quyết định: 2.1.1 Giới thiệu chung: C y quyết định (decision tree) là một phương pháp rất mạnh và phổ... các thuật tốn di truyền được sử dụng trong các hệ thống phân loại để đại diện và mơ hình hóa các kiểm tốn viên hành vi ra quyết định trong một khung cảnh gian lận Thuật tốn di truyền cùng với hệ thống nhị phân vector hỗ trợ (BSVS) là dựa trên các vectơ hỗ trợ trong các m y vector hỗ trợ (SVM) được sử dụng để giải quyết vấn đề gian lận thẻ tín dụng mà có khơng được xác định tốt Fuzzy Logic là một kỹ thuật... một cách đệ quy tập mẫu dữ liệu huấn luyện cho đến khi các mẫu ở mối nút lá thuộc cùng một lớp HVTH: LÊ KIM NGA (CH1301040) và NGUYỄN THÀNH THIỆN (CH1301059) LỚP: CAO HỌC KHĨA 8 Hệ hỗ trợ ra quyết định GVHD: PGS.TS Đỗ Phúc 26 b Cắt tỉa c y: Là việc làm dùng để tối ưu hố c y Cắt tỉa c y chính là việc trộn một c y con vào trong một nút lá c Đánh giá c y: Dùng để đánh giá độ chính xác của c y kết quả Tiêu... được xem là một cải tiến của thuật tốn CLS Tuy nhiên thuật tốn ID3 khơng có khả năng xử lý đối với những dữ liệu có chứa thuộc tính số - thuộc tính liên tục (numeric attribute) và khó khăn trong việc xử lý các dữ liệu thiếu (missing data) và dữ liệu nhiễu (noisy data) II.3 X y dựng c y quyết định dự báo sức khỏe qua việc bắt mạch trong Đơng y: 3.1 Giới thiệu sơ lược phương pháp bắt mạch trong Đơng y: ... và được sử dụng cho các nhiệm vụ khai phá dữ liệu và m y học [8] Quyết định c y là những cơng cụ hỗ trợ quyết định tiên đốn rằng tạo lập bản đồ từ những quan sát đến những hậu quả có thể [24] Dự đốn được đại diện bởi lá và các liên từ các tính năng của các ngành C y quyết định thường được sử dụng trong thẻ tín dụng, bảo hiểm ơ tơ, và gian lận của cơng ty Phương pháp láng giềng gần nhất: phương pháp láng . dụng c y quyết định: 24 2.1. C y quyết định: 24 2. 2. Các thuật toán khai phá dữ liệu bằng c y quyết định: 26 II.3. X y dựng c y quyết định dự báo sức khỏe qua việc bắt mạch trong Đông y: 28 3.1 dùng c y quyết định; − Tìm hiểu về xem mạch trong Đông y và x y dựng bảng dữ liệu dựa vào các thông tin thu thập được; − X y dựng và cài đặt thuật toán tính Gain, Entropy; − Dịch sơ lược bài báo. hoạch và x y dựng ứng dụng với mục đích áp dụng khai phá dữ liệu sử dụng c y quyết định để dự báo một người “Có bệnh” hay “Không có bệnh” thông qua việc bắt mạch trong Đông Y. Nội dung bài thu

Ngày đăng: 21/05/2015, 08:12

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • LỜI GIỚI THIỆU

  • PHẦN I: NỘI DUNG BÀI DỊCH

    • I.1. Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf”

    • 1. Giới thiệu:

    • 2. Một gian lận là gì?

    • 3. Phương pháp tiếp cận khai phá dữ liệu:

      • 3.1 Phân loại các ứng dụng khai phá dữ liệu:

      • 3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính:

      • 4. Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận:

      • 5. Kết luận:

      • I.2. Những kiến thức thu thập được qua bài báo:

      • PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH

        • II.1. Giới thiệu sơ lược về khai phá dữ liệu:

          • 1. Khai phá dữ liệu là gì?

          • 2. Quá trình khai phá dữ liệu:

          • 3. Chức năng của khai phá dữ liệu:

          • 4. Các kỹ thuật khai phá dữ liệu:

          • 5. Các dạng dữ liệu có thể khai phá được:

          • 6. Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu:

          • 7. Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu.

          • II.2. Giới thiệu về khai phá dữ liệu sử dụng cây quyết định:

            • 2.1. Cây quyết định:

            • 2. 2. Các thuật toán khai phá dữ liệu bằng cây quyết định:

            • II.3. Xây dựng cây quyết định dự báo sức khỏe qua việc bắt mạch trong Đông y:

              • 3.1. Giới thiệu sơ lược phương pháp bắt mạch trong Đông y:

Tài liệu cùng người dùng

Tài liệu liên quan