Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng mô hình cây quyết định

Thông tin tài liệu

Vũ Thị Phương Thảo Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thông thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS. TS. Đỗ Văn Thành Năm bảo vệ: 2011

Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng mô hình cây quyết định Vũ Thị Phương Thảo Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thông thông tin; Mã số: 60 48 05 Người hướng dẫn: PGS. TS. Đỗ Văn Thành Năm bảo vệ: 2011 Abstract: Tổng quan về mô hình cây quyết định và thông tin không chắc chắn, giới thiệu khái niệm về cây quyết định, phân loại cây quyết định, ưu nhược điểm của cây quyết định trong việc giải quyết bài toán về phân loại, ra quyết định và phương pháp xây dựng cây quyết định. Trình bày khái niệm, phân loại, cách biểu diễn và ứng dụng của thông tin không chắc chắn. Phân tích những công cụ hỗ trợ xây dựng mô hình cây quyết định và lập kế hoạch sản xuất kinh doanh doanh nghiệp, trình bày tóm lược nội dung và quá trình ra quyết định với thông tin không chắc chắn; giới thiệu PrecisionTree 5.7, là công cụ để xây dựng cây quyết định nhằm xử lý thông tin không chắc chắn, hỗ trợ quá trình ra quyết định trong việc lập kế hoạch. Ra quyết định với thông tin không chắc chắn trong lập kế hoạch sản xuất kinh doanh của doanh nghiệp, ứng dụng mô hình cây quyết định trong lập kế hoạch sản xuất kinh doanh dựa trên tập dữ liệu giả định và trên tập dữ liệu thực tế được thu thập từ Công ty cổ phần May Thăng Long. Keywords: Công nghệ thông tin; Hệ thống thông tin; Mô hình cây quyết định Content MỞ ĐẦU Lập kế hoạch phát triển sản xuất kinh doanh là một trong những hoạt động rất quan trọng của doanh nghiệp. Thực tiễn cho thấy trong bối cảnh hoạt động của nền kinh tế thị trường có sự hội nhập kinh tế toàn cầu ngày càng sâu rộng, cạnh tranh ngày càng sâu sắc như ở nước ta hiện nay thì việc lập kế hoạch sản xuất kinh doanh doanh nghiệp càng trở lên quan trọng và trở thành yếu tố có ý nghĩa quyết định đến sự thành công hay thất bại của doanh nghiệp. Để nâng cao chất lượng kế hoạch sản xuất kinh doanh doanh nghiệp điều quan trọng là doanh nghiệp cần nắm bắt đầy đủ, kịp thời và xử lý, khai thác có hiệu quả các thông tin liên quan đến hoạt động sản xuất kinh doanh của doanh nghiệp, đến thị trường tiêu thụ sản phẩm hàng hoá và dịch vụ do doanh nghiệp tạo ra. Quá trình toàn cầu hoá và thông tin hoá diễn ra mạnh mẽ đã làm công tác lập kế hoạch phát triển sản xuất kinh doanh doanh nghiệp ngày càng phức tạp. Trong quá trình lập kế 2 hoạch, các doanh nghiệp phải xử lý một số lượng rất lớn thông tin, trong số đó có nhiều thông tin được biết không chắc chắn, để rút ra những tri thức mới và ra quyết định từ những tri thức này. Như vậy ngày càng có nhiều thông tin với tốc độ thay đổi rất nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có, đặc biệt trong đó có nhiều dữ liệu không chắc chắn. Các phương pháp quản trị và khai thác, phân tích dữ liệu truyền thống đã không đáp ứng được thực tế bùng nổ của thông tin và dữ liệu, đòi hỏi phải có phương pháp, kỹ thuật mới để tổng hợp, lưu trữ, xử lý và khai thác thông tin, dữ liệu. Lĩnh vực phát hiện tri thức từ các cơ sở dữ liệu đã được hình thành, trong đó khai phá dữ liệu (data mining) được xem là trung tâm của lĩnh vực nghiên cứu và ứng dụng này. Hiện tại, người ta đã xây dựng được khá nhiều kỹ thuật khai phá dữ liệu như phân cụm phân lớp dữ liệu, mạng nơtron, giải thuật di truyền, luật kết hợp, mạng Bayes, Trong các kỹ thuật này cây quyết định được coi là công cụ mạnh và phổ biến nhất, nó đặc biệt thích hợp cho những vấn đề khai phá dữ liệu nhằm hỗ trợ quá trình ra quyết định. Cây quyết định thực chất là công cụ hỗ trợ quyết định, có thể biểu diễn dữ liệu phức tạp theo một cấu trúc đơn giản hơn rất nhiều dưới dạng cây. Cây quyết định cũng có thể được sử dụng để xử lý thông tin không chắc chắn. Luận văn này nằm trong hướng khảo cứu, ứng dụng cây quyết định trong việc xử lý thông tin không chắc chắn nhằm rút ra tri thức mới, phục vụ ra quyết định trong quá trình lập kế hoạch phát triển sản xuất kinh doanh của doanh nghiệp. Không kể các phần mở đầu, kết luận, mục lục, danh mục bảng, hình và tài liệu tham khảo, luận văn gồm 3 chương nội dung chính, trong đó: Chƣơng 1: Tổng quan về mô hình cây quyết định và thông tin không chắc chắn sẽ giới thiệu một số khái niệm và vấn đề chung nhất về những vấn đề này. Cụ thể Chương I sẽ giới thiệu khái niệm về cây quyết định, phân loại cây quyết định, ưu nhược điểm của cây quyết định trong việc giải quyết bài toán về phân loại, ra quyết định và phương pháp xây dựng cây quyết định. Chương 1 cũng giới thiệu khái niệm, phân loại, cách biểu diễn và ứng dụng của thông tin không chắc chắn. Đó là những kiến thức cơ bản nhất, làm cơ sở để tìm khảo cứu và ứng dụng mô hình cây quyết định trong việc xử lý thông tin không chắc chắn nhằm hỗ trợ quá trình lập kế hoạch phát triển sản xuất kinh doanh doanh nghiệp ở các chương tiếp sau. Chƣơng 2: Công cụ hỗ trợ xây dựng mô hình cây quyết định và lập kế hoạch sản xuất kinh doanh doanh nghiệp sẽ trình bầy tóm lược nội dung và quá trình ra quyết định với thông tin không chắc chắn; giới thiệu PrecisionTree 5.7, là công cụ được luận văn sử dụng để xây dựng cây quyết định nhằm xử lý thông tin không chắc chắn, hỗ trợ quá trình ra quyết định trong việc lập kế hoạch. Chương này cũng trình bày khái niệm, lợi ích, quy trình, phân loại các hoạt động lập kế hoạch, các yếu tố chính tác động đến hoạt động lập kế hoạch và một số nội dung chủ yếu cần được ra quyết định trong quá trình lập kế hoạch sản xuất kinh doanh của doanh nghiệp. 3 Như đã biết, công việc của các nhà lập kế hoạch trước hết phải đánh giá được tính chất và mức độ không chắc chắn của môi trường kinh doanh để xác định giải pháp phản ứng của doanh nghiệp, xây dựng và triển khai các kế hoạch thích hợp. Luận văn khảo cứu quá trình lập kế hoạch sản xuất kinh doanh doanh nghiệp và đề xuất ứng dụng mô hình cây quyết định trong quá trình đó. Chƣơng 3: Ra quyết định với thông tin không chắc chắn trong lập kế hoạch sản xuất kinh doanh của doanh nghiệp sẽ trình bầy việc ứng dụng mô hình cây quyết định trong lập kế hoạch sản xuất kinh doanh dựa trên tập dữ liệu giả định và trên tập dữ liệu thực tế được thu thập từ Công ty cổ phần May Thăng Long. CHƢƠNG 1: TỔNG QUAN VỀ MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ THÔNG TIN KHÔNG CHẮC CHẮN Chương này giới thiệu tổng quan về mô hình cây quyết định và thông tin không chắc chắn. Luận văn trước hết trình bày lý thuyết chung nhất về cây quyết định như giới thiệu cây quyết định, phân loại, xây dựng và ứng dụng của cây quyết định. Sau đó trình bày về thông tin không chắc chắn, gồm khái niệm cơ bản, các cách biểu diễn thông tin không chắc chắn với lý thuyết xác suất, định lý Bayes, lý thuyết về yếu tố chắc chắn Standford và tập mờ. 1.1 Tổng quan về mô hình cây quyết định 1.1.1 Giới thiệu cây quyết định Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng [3,12] . Mỗi một nút trong (internal nút) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự báo của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định. Học bằng cây quyết định là phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại [12] . Giải thuật học cây quyết định gồm 2 bước lớn: xây dựng cây (Top-down), cắt nhánh (Bottom-up) để tránh học vẹt. Quá trình xây dựng cây được làm như sau: - Bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc, 4 - Nếu dữ liệu tại 1 nút có cùng lớp thì nút được cho là nút lá, nhãn của nút lá là nhãn của các phần tử trong nút lá (hay luật bình chọn số đông nếu nút lá có chứa các phần tử có lớp khác nhau), - Nếu dữ liệu ở nút quá hỗn loạn (các phần tử có lớp rất khác nhau) thì nút được cho là nút trong, tiến hành phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1 thuộc tính để thực hiện phân hoạch tốt nhất có thể. Quá trình xây dựng cây chủ yếu phụ thuộc vào việc chọn thuộc tính tốt nhất để phân hoạch dữ liệu. Chọn thuộc tính phân hoạch tốt theo nghĩa, cho ra kết quả là cây nhỏ nhất. Việc lựa chọn này dựa vào các heuristics: chọn thuộc tính sinh ra các nút thuần khiết nhất. 1.1.2 Các kiểu cây quyết định Theo tiêu chí phân loại dựa vào giá trị thuộc tính của cây, cây quyết định được chia thành 2 loại chính: 1.1.2.1 Cây hồi quy: ước lượng các hàm giá có giá trị là số thực thay vì được sử dụng cho các nhiệm vụ phân loại. Giá trị thuộc tính liên tục A cần được rời rạc hóa trong cây quyết định. Với các cách tiếp cận thông thường: ta coi thuộc tính chỉ có một cách rời rạc trong khoảng [ -∞,t] , [t,+∞] . Cần lựa chọn ngưỡng t: để với mỗi trường hợp của t tính toán độ tăng thông tin của A do sự rời rạc của t. Chọn t với độ tăng thông tin lớn nhất (t có thể biến đổi với các trường hợp của A trên cây). Các giá trị của t được xem xét: giá trị của A trong một số trường hợp của dữ liệu [3,8]. Nói cách khác với thuộc tính liên tục (thuộc tính dạng số) thì tập giá trị là không xác định trước. Chính vì vậy, trong quá trình phát triển cây, cần sử dụng kiểm tra dạng nhị phân: value(A) ≤ θ. Với θ là hằng số ngưỡng được lần lượt xác định dựa trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau (theo thứ tự đã sắp xếp) của thuộc tính liên tục đang xem xét trong tập dữ liệu [8]. 1.1.2.2 Cây phân loại Nếu biến phụ thuộc nhận giá trị phân loại, tức giá trị biểu trưng (symbol) được sắp thứ tự. Chẳng hạn như: giới tính (nam hay nữ), kết quả của một trận đấu (thắng hay thua), trình độ học lực (xuất sắc, giỏi, khá, trung bình, yếu) Khi đó các thuộc tính có giá trị rời rạc [3, 12]. Một cây quyết định phân loại là một mô hình phân loại (bộ phân loại) cho một biến lớp T khi biết các thuộc tính A. Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự báo giá trị phân lớp mẫu đó. Ngoài hai loại trên, một cây quyết định có thể được thể hiện gọn như một sơ đồ ảnh hưởng, tập trung sự chú ý vào các vấn đề và mối quan hệ giữa các sự kiện. 5 1.1.3 Ƣu điểm của cây quyết định So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp có một số ưu điểm chính sau: - Cây quyết định dễ hiểu. Người ta có thể hiểu mô hình cây quyết định sau khi được giải thích ngắn. - Việc chuẩn bị dữ liệu cho một cây quyết định là đơn giản hoặc không cần thiết, trong khi các kỹ thuật khác thường đòi hỏi phải chuẩn hóa dữ liệu, tạo thêm các biến giả và loại bỏ các giá trị khuyết thiếu. - Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là tên thể loại (giá trị phân loại). - Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống cho trước trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả quá phức tạp để có thể hiểu được. 1.1.4 Nhƣợc điểm của cây quyết định Cây quyết định khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục, không thích hợp lắm với những bài toán với mục tiêu là dự báo giá trị của các thuộc tính như lãi suất ngân hàng, tín dụng, …. [3] * Dễ xẩy ra lỗi khi có quá nhiều lớp * Chi phí tính toán để xây dựng mô hình cây quyết định cao: 1.1.5 Ứng dụng của cây quyết định Một trong những ứng dụng của cây quyết định là được sử dụng để phân lớp dữ liệu. Tuy có nhiều kỹ thuật phân lớp khác đã được đề xuất như: phân lớp Bayes, phân lớp K - hàng xóm gần nhất, mạng nơron, phân tích thống kê,…, nhưng phân lớp cây quyết định vẫn được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá dữ liệu [4]. 1.1.5.1 Sử dụng để phân lớp dữ liệu Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc đến lá và lá biểu diễn dự báo giá trị phân lớp mẫu đó. 1.1.5.2 Sử dụng trong các mô hình dự báo Cây quyết định có thể xử lý tốt các thuộc tính có giá trị liên tục. Do đó có thể được sử dụng để xây dựng mô hình với các hàm nhận giá trị liên tục. 1.1.5.3 Sử dụng để biểu diễn các vấn đề ra quyết định 6 1.1.6 Xây dựng và ứng dụng cây quyết định Xây dựng và ứng dụng cây quyết định là quá trình nhiều bước gồm: tạo lập, cắt tỉa cây quyết định, sau đó trích rút ra các luật, sử dụng các thủ tục suy diễn để rút ra tri thức thu được. Sau đây luận văn trình bày về các quá trình trên. 1.1.6.1 Thủ tục tạo lập cây quyết định Quá trình tạo cây quyết định gồm hai giai đoạn [3, 12] * Giai đoạn thứ nhất phát triển cây quyết định: Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp theo cách thức chia để trị cho tới khi đạt được cây quyết định với tất cả các lá được gán nhãn lớp. Thuật toán xây dựng cây quyết định Luận văn trình bày giải thuật quy nạp xây dựng cây quyết định ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng rất thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu diễn tri thức học được của nó, vì cách tiếp cận của nó trong việc quản lý tính phức tạp, vì cách sử dụng phương pháp heuristic để chọn lựa các ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu [3, 12]. Đầu vào: Một tập hợp các mẫu. Mỗi mẫu bao gồm các thuộc tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó. Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai. * ID3 xây dựng cây quyết định theo giải thuật sau: Function induce_tree(tập_mẫu, tập_thuộc_tính) begin if mọi mẫu trong tập_mẫu đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đó else if tập_thuộc_tính là rỗng then return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_mẫu else begin chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại; xóa P ra khỏi tập_thuộc_tính; với mỗi giá trị V của P begin 7 tạo một nhánh của cây gán nhãn V; Đặt vào phân_vùng V các ví dụ trong tập_mẫu có giá trị V tại thuộc tính P; Gọi induce_tree(phân_vùng V , tập_thuộc_tính), gắn kết quả vào nhánh V end end end Sau khi xây dựng được cây quyết định, bước tiếp theo là cắt tỉa nhánh của cây. * Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định: 1.1.6.2 Ứng dụng trích rút luật từ cây quyết định Tri thức trong cây quyết định có thể được chiết xuất và trình bày dưới dạng các luật phân loại IF-THEN. . Luật suy diễn Một công thức H được xem là hệ quả logic (logical consequence) của một tập công thức G ={G 1 , .,G m } nếu trong bất kỳ minh họa nào mà {G 1 , .,G m } đúng thì H cũng đúng, hay nói cách khác bất kỳ mô hình nào của G cũng là mô hình của H [4] . . Trong các hệ dựa trên luật, có hai phương pháp luận lập luận cơ bản: Lập luận tiến, và lập luận lùi Lập luận tiến Tư tưởng cơ bản của lập luận tiến là áp dụng luật suy diễn Modus Ponens tổng quát. Trong mỗi bước của thủ tục lập luận tiến, người ta xét một luật trong cơ sở luật. Đối sánh mỗi điều kiện của luật với các sự kiện trong cơ sở sự kiện, nếu tất cả các điều kiện của luật đều được thoả mãn thì sự kiện trong phần kết luận của luật được xem là sự kiện được suy ra. Nếu sự kiện này là sự kiện mới (không có trong bộ nhớ làm việc), thì nó được đặt vào bộ nhớ làm việc. Quá trình trên được lặp lại cho tới khi nào không có luật nào sinh ra các sự kiện mới. Lập luận lùi Trong lập luận lùi, người ta đưa ra các giả thuyết cần được đánh giá. Sử dụng lập luận lùi, giả thuyết đưa ra hoặc là được chứng minh, hoặc là bị bác bỏ (bởi các sự kiện trong bộ nhớ làm việc). Lập luận lùi cho phép ta tìm ra các phép thế biến mà giả thuyết đưa ra trở thành đúng (là hệ quả logic của cơ sở tri thức). Do đó trong hệ dựa trên luật chúng ta có thể sử dụng lập luận lùi để tìm ra các câu trả lời cho các câu hỏi được đặt ra bởi người sử dụng. procedure Backward_Chaining (Hyp, ); begin H  giả thuyết đầu tiên trong danh sách Hyp; 8 for mỗi luật R = (Conds, Q) do if H hợp nhất với Q bởi phép thế  1 then 1. Loại H khỏi danh sách Hyp; 2. Thêm các điều kiện của luật Conds vào danh sách Hyp; 3. áp dụng phép thế  1 vào các giả thuyết trong danh sách Hyp; 4. Lấy hợp thành của các phép thế  và  1 để nhận được phép thế  mới, tức là    1 ; if Hyp = [ ] then cho ra  else Backward_Chaining (Hyp, ); end; 1.2 Tổng quan về thông tin không chắc chắn Sự không chắc chắn là một thuật ngữ được sử dụng theo những cách khác nhau trong một số lĩnh vực, bao gồm vật lý, triết học, thống kê, kinh tế, tài chính, bảo hiểm, tâm lý học, xã hội học, kỹ thuật, và khoa học thông tin. Áp dụng đối với dự báo của các sự kiện trong tương lai, các phép đo vật lý đã được thực hiện, hoặc chưa biết. 1.2.1 Khái niệm Sự không chắc chắn: là trạng thái có hiểu biết hạn chế về những hiện tượng tự nhiên- kinh tế -xã hội, không thể mô tả chính xác tình trạng hiện hành cũng như kết quả trong tương lai của chúng [1,7] . 1.2.2 Phân loại sự không chắc chắn Sự không chắc chắn có thể được chia thành các bộ phận được xác định rõ và không rõ nét, gồm đối tượng và chủ thể không chắc chắn. Không chắc chắn cũng được xác định có thể được phân tích với lý thuyết xác suất. Sự thiếu rõ ràng có thể được chia thành đặc trưng không và bất hòa. Đặc trưng không thể được phân tích với lý thuyết khả năng và bất hòa có thể được phân tích với bản thể học. Không chắc chắn (uncertainty) Đối tượng không chắc chắn (objective uncertainty) Chủ thể không chắc chắn (subjective uncertainty) Nhận thức không chắc chắn (epistemological uncertainty) Bản thế không chắc chắn (ontological uncertainty) Đạo đức không chắc chắn ( moral uncertainty) Quy tắc không chắc chắn (rule uncertainty) Tri thức hướng dẫn quyết định (knowledge guided decision) Lý trí hướng dẫn quyết định (Quasi-rational decision) Quy tắc hướng dẫn quyết định (rule guided decision) Trực giác hướng dẫn quyết định (intuition guiđe decision) 9 Hình 4 : Phân loại tư duy của sự không chắc chắn 1.2.3 Ứng dụng thông tin không chắc chắn Trên thực tế có rất nhiều lĩnh vực có sử dụng các thông tin không chắc chắn vào giải quyết vấn đề như: - Sự không chắc chắn được tham gia vào tất cả các đo lường, chẳng hạn như đo khoảng cách, nhiệt độ, mức độ phụ thuộc vào công cụ hoặc kỹ thuật được sử dụng để làm cho đo lường. Sự không chắc chắn được sử dụng thiết kế các trò chơi, đáng chú ý nhất là trò chơi về cờ bạc, nơi mà “cơ hội” là trọng tâm trò chơi. - Trong khoa học, dự báo các sự kiện trong tương lai nên được hiểu là có một loạt các giá trị dự kiến, giá trị không chắc chắn. - Trong dự báo thời tiết hiện nay bao gồm dữ liệu về mức độ sự không chắc chắn trong thông tin để dự báo thời tiết. - Trong đánh giá rủi ro và quản lý rủi ro. 1.2.4 Đo lƣờng không chắc chắn Đo lường không chắc chắn là một khái niệm trung tâm xác định số lượng phân tán hợp lý của thuộc tính đến một kết quả đo lường. Như vậy không chắc chắn cũng có thể được gọi là một phép đo lỗi. 1.2.5 Biểu diễn thông tin không chắc chắn Luận văn trình bày việc biểu diễn thông tin theo hai hướng tiếp cận.Tiếp cận thứ nhất là tiếp cận thống kê, trong hướng tiếp cận này sẽ trình bày hai phương pháp: lý thuyết xác suất Bayesian và lý thuyết về đại số hệ số chắc chắn. Tiếp cận thứ hai là biểu diễn thông tin không chắc chắn theo logic mờ [4,7] . 1.2.5.1 Tiếp cận thống kê đối với tính không chắc chắn. Ở đây, luận văn trình bày lý thuyết xác suất như là cơ sở toán học cho sự biểu diễn tri thức không chắc chắn. Người ta sử dụng số p, 0  p  1, là xác suất của một sự kiện hoặc xác suất của một mệnh đề để biểu diễn khả năng một sự kiện có thể xảy ra hoặc khả năng một mệnh đề có thể đúng. * Công thức Bayes đƣợc phát biểu nhƣ sau: Ký hiệu P(h | e) là xác suất khẳng định giả thuyết h đúng cho trước bằng chứng e. 10 Điểm quan trọng của lý thuyết Bayes là các con số ở vế phải của công thức dễ dàng xác định, ít nhất là khi so sánh với vế trái *Công thức Bayes tổng quát Trong thực tế có nhiều giả thuyết cạnh tranh nhau, vì vậy công thức Bayes tổng quát nhất là: * Mạng xác suất Mô hình được đề suất là mạng xác suất: mạng xác suất là một đồ thị có hướng, không có chu trình và thoả mãn các điều kiện sau: - Các đỉnh của đồ thị là các biến ngẫu nhiên; - Mỗi cung từ đỉnh X đến đỉnh Y biểu diễn sự ảnh hưởng trực tiếp của biến ngẫu nhiên X đến biến ngẫu nhiên Y (hay Y phụ thuộc trực tiếp vào X). Đỉnh X được gọi là đỉnh cha của Y; - Tại một đỉnh được cho phân phối xác suất có điều kiện của đỉnh đó khi cho trước các cha của nó. Các xác suất này biểu diễn hiệu quả mà các cha tác dụng vào nó. Mô hình tổng quát hơn để biểu diễn vấn đề quyết định là mạng quyết định (decision network hay còn gọi là influence diagram). Mạng quyết định là mở rộng của mạng xác suất bằng cách đưa thêm vào các đỉnh quyết định và các đỉnh lợi ích. 1.2.5.2 Đại số hệ số chắc chắn Stanford Khi suy luận với tri thức heuristic, các chuyên gia có thể đưa ra các ước lượng niềm tin hữu ích về các kết luận. Họ ước lượng các kết luận bằng các thuật ngữ như “có nhiều khả năng”, “không chắc”, “hầu như chắc chắn” hay “có thể”. * Lý thuyết về đại số hệ số chắc chắn Stanford Lý thuyết về độ chắc chắn Stanford [7,13] đưa ra một số giả thiết đơn giản cho việc tạo ra các độ đo niềm tin và có một số quy tắc đơn giản tương đương cho việc kết hợp những niềm tin này khi chương trình tiến đến kết luận của nó. Giả thiết thứ nhất là tách “niềm tin ủng hộ” ra khỏi “niềm tin chống lại” một quan hệ: Gọi MB(H | E) là độ đo của niềm tin và MD(H | E) là độ đo của sự hoài nghi vào khả năng đúng của giả thuyết H, khi có bằng chứng E Giá trị của các độ đo này chỉ rơi vào một trong hai trường hợp: 0 < MB(H | E) < 1 trong khi MD(H | E) = 0, hoặc: 0 < MD(H | E) < 1 trong khi MB(H | E) = 0 hệ số chắc chắn CF:

Ngày đăng: 26/11/2013, 20:10

Xem thêm: Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng mô hình cây quyết định, Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng mô hình cây quyết định

Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng mô hình cây quyết định

Thông tin tài liệu

Hình ảnh liên quan

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan