Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka cho bộ dữ liệu forset fires dataset

4 674 15
Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka cho bộ dữ liệu  forset fires dataset

Đang tải... (xem toàn văn)

Thông tin tài liệu

I – Giới thiệu bài toánTheo Hiệp hội bảo tồn thế giới (IUCN) các vụ cháy rừng đang đặt ra mối đe dọa cho các khu vực phong phú về đa dạng sinh học, và một trong các nguyên nhân chính của mối đe dọa này là khí hậu thay đổi, nó hủy hoại môi trường sinh thái, gây thiệt hại nặng nề về kinh tế, ảnh hưởng trực tiếp tới môi trường sống của con người. Có nhiều nguyên nhân dẫn tới cháy rừng là do điều kiện thời tiết khí hậu và do sự bất cẩn hay thiếu ý thức của con người gây ra, hàng năm, trên toàn thế giới có hàng triệu héc-ta rừng bị phá hủy. Bồ Đào Nha là một trong những nước chịu ảnh hưởng nặng nề do nạn cháy rừng gây ra. Từ năm 1980 đến năm 2005, đã có hơn 2.7 triệu ha rừng bị phá hủy. Đặc biệt, các vụ cháy rừng năm 2003 và 2005 đã ảnh hưởng tới 4.6 % và 3.1% diện tích lãnh thổ với 21 và 18 người chết.Nhanh chóng phát hiện ra các đám cháy rừng là một trong những yếu tố quan trọng để kiểm soát và chữa cháy rừng hiệu quả, giảm thiểu tối đa các thiệt hại. Phương pháp truyền thống trong công tác phát hiện và dự báo cháy rừng là thực hiện sự giám sát của con người, tuy nhiên chi phí khá tốn kém và hiệu quả lại thấp (ảnh hưởng bởi yếu tố chủ quan) đã thúc đẩy các nghiên cứu phát triển các giải pháp cảnh báo cháy rừng tự động. Các giải pháp đã được phát triển có thể được phân thành 3 loại chính: sử dụng vệ tinh (satellite-based) , sử dụng các máy quét hồng ngoại / khói và sử dụng các hệ thống cảm biến. Tuy nhiên sử dụng vệ tinh phải chi trả phí dịch vụ, chậm trễ trong việc định vị khu vực cháy và không áp dụng được trong nhiều trường hợp (như khi có nhiều mây mù che tầm nhìn của vệ tinh…). Sử dụng các máy quét có chi phí lắp đặt và bảo trì các trang thiết bị cũng rất đắt đỏ. Do vậy, cần phải phát triển các giải pháp hiệu quả hơn trong việc dự báo cảnh báo và giảm thiểu về mặt chi phí. Các trạm khí tượng được xây dựng, những dữ liệu về các vụ cháy rừng đã được thu thập liên tục và áp dụng các thuật toán tính toán xử lý bộ dữ liệu ấy để đưa ra dự báo tốt nhất (bộ dữ liệu gồm những thông tin về thời tiết như độ ẩm, gió, lượng mưa,…- những nguyên nhân trực tiếp và chủ yếu gây ra cháy rừng) với chi phí thấp. Vào những năm 1970, các nhà khoa học Canada đã xây dựng được hệ thống tính toán dự báo, cảnh báo cháy rừng Fire Weather Index (FWI) với đầu vào là những dữ liệu được thu thập như gió, lượng mưa, độ ẩm, nhiệt độ. Hệ thống này vẫn còn thô sơ nhưng cũng đáp ứng được phần nào nhu cầu cấp thiết của thực tế, nên ngay sau đó nó đã được áp dụng rộng rãi ở các nước khác. Mặc dù khí hậu ở vùng Địa Trung Hải khác với ở Canada, nhưng hệ thống FWI vẫn có thể áp dụng được ở đây, trong đó bao gồm cả Bồ Đào Nha.Kỹ thuật Khám phá tri thức trong cơ sở dữ liệu hay còn gọi là khai phá dữ liệu (Data Mining - DM) được phát triển và ứng dụng rộng rãi ở nhiều ngành, có tính hiệu quả cao, hỗ trợ việc ra các quyết định nhanh chóng và có độ chính xác cao. Nó đã được áp dụng trong nhiệm vụ phát hiện các đám cháy. Kỹ thuật này sử dụng các dữ liệu được ghi nhận theo thời gian thực và không hề tốn kém. Ở bài tiểu luận này chúng ta sẽ sử dụng bộ dữ liệu đã được thu thập từ các vụ cháy rừng đã xảy ra ở vùng phía Bắc Bồ Đào Nha, với mục đích là dự đoán diện tích của các vụ cháy rừng (kích thước đám cháy). Một số thí nghiệm đã được tiến hành sử dụng 5 kỹ thuật DM: Hồi quy, Cây quyết định (Decision Trees), Random Forest (RF), Mạng nơ-ron và Support Vector Machine (SVM). Các giải pháp đã được đề xuất chỉ sử dụng 4 biến thời tiết ( mưa, gió, nhiệt độ và độ ẩm ) kết hợp với SVM và nó có khả năng dự đoán diện tích của các đám cháy nhỏ.II – Forest Fire DataHệ thống Fire Weather Index (FWI) là hệ thống dự báo, cảnh báo cháy rừng bao gồm 6 thành phần: Fine Feul Moisture Code (FFMC), Duff Moisture Code (DMC), Drought Code (DC), Initial Spread Index (ISI), Builup Index (BUI) và FWI.

ỨNG DỤNG PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRONG DỰ BÁO, CẢNH BÁO CHÁY RỪNG I – Giới thiệu bài toán Theo Hiệp hội bảo tồn thế giới (IUCN) các vụ cháy rừng đang đặt ra mối đe dọa cho các khu vực phong phú về đa dạng sinh học, và một trong các nguyên nhân chính của mối đe dọa này là khí hậu thay đổi, nó hủy hoại môi trường sinh thái, gây thiệt hại nặng nề về kinh tế, ảnh hưởng trực tiếp tới môi trường sống của con người. Có nhiều nguyên nhân dẫn tới cháy rừng là do điều kiện thời tiết khí hậu và do sự bất cẩn hay thiếu ý thức của con người gây ra, hàng năm, trên toàn thế giới có hàng triệu héc-ta rừng bị phá hủy. Bồ Đào Nha là một trong những nước chịu ảnh hưởng nặng nề do nạn cháy rừng gây ra. Từ năm 1980 đến năm 2005, đã có hơn 2.7 triệu ha rừng bị phá hủy. Đặc biệt, các vụ cháy rừng năm 2003 và 2005 đã ảnh hưởng tới 4.6 % và 3.1% diện tích lãnh thổ với 21 và 18 người chết. Nhanh chóng phát hiện ra các đám cháy rừng là một trong những yếu tố quan trọng để kiểm soát và chữa cháy rừng hiệu quả, giảm thiểu tối đa các thiệt hại. Phương pháp truyền thống trong công tác phát hiện và dự báo cháy rừng là thực hiện sự giám sát của con người, tuy nhiên chi phí khá tốn kém và hiệu quả lại thấp (ảnh hưởng bởi yếu tố chủ quan) đã thúc đẩy các nghiên cứu phát triển các giải pháp cảnh báo cháy rừng tự động. Các giải pháp đã được phát triển có thể được phân thành 3 loại chính: sử dụng vệ tinh (satellite-based) , sử dụng các máy quét hồng ngoại / khói và sử dụng các hệ thống cảm biến. Tuy nhiên sử dụng vệ tinh phải chi trả phí dịch vụ, chậm trễ trong việc định vị khu vực cháy và không áp dụng được trong nhiều trường hợp (như khi có nhiều mây mù che tầm nhìn của vệ tinh…). Sử dụng các máy quét có chi phí lắp đặt và bảo trì các trang thiết bị cũng rất đắt đỏ. Do vậy, cần phải phát triển các giải pháp hiệu quả hơn trong việc dự báo cảnh báo và giảm thiểu về mặt chi phí. Các trạm khí tượng được xây dựng, những dữ liệu về các vụ cháy rừng đã được thu thập liên tục và áp dụng các thuật toán tính toán xử lý bộ dữ liệu ấy để đưa ra dự báo tốt nhất (bộ dữ liệu gồm những thông tin về thời tiết như độ ẩm, gió, lượng mưa,…- những nguyên nhân trực tiếp và chủ yếu gây ra cháy rừng) với chi phí thấp. Vào những năm 1970, các nhà khoa học Canada đã xây dựng được hệ thống tính toán dự báo, cảnh báo cháy rừng Fire Weather Index (FWI) với đầu vào là những dữ liệu được thu thập như gió, lượng mưa, độ ẩm, nhiệt độ. Hệ thống này vẫn còn thô sơ nhưng cũng đáp ứng được phần nào nhu cầu cấp thiết của thực tế, nên ngay sau đó nó đã được áp dụng rộng rãi ở các nước khác. Mặc khí hậu ở vùng Địa Trung Hải khác với ở Canada, nhưng hệ thống FWI vẫn có thể áp dụng được ở đây, trong đó bao gồm cả Bồ Đào Nha. 1 Kỹ thuật Khám phá tri thức trong cơ sở dữ liệu hay còn gọi là khai phá dữ liệu (Data Mining - DM) được phát triển và ứng dụng rộng rãi ở nhiều ngành, có tính hiệu quả cao, hỗ trợ việc ra các quyết định nhanh chóng và có độ chính xác cao. Nó đã được áp dụng trong nhiệm vụ phát hiện các đám cháy. Kỹ thuật này sử dụng các dữ liệu được ghi nhận theo thời gian thực và không hề tốn kém. Ở bài tiểu luận này chúng ta sẽ sử dụng bộ dữ liệu đã được thu thập từ các vụ cháy rừng đã xảy ra ở vùng phía Bắc Bồ Đào Nha, với mục đích là dự đoán diện tích của các vụ cháy rừng (kích thước đám cháy). Một số thí nghiệm đã được tiến hành sử dụng 5 kỹ thuật DM: Hồi quy, Cây quyết định (Decision Trees), Random Forest (RF), Mạng nơ-ron và Support Vector Machine (SVM). Các giải pháp đã được đề xuất chỉ sử dụng 4 biến thời tiết ( mưa, gió, nhiệt độ và độ ẩm ) kết hợp với SVM và nó có khả năng dự đoán diện tích của các đám cháy nhỏ. II – Forest Fire Data Hệ thống Fire Weather Index (FWI) là hệ thống dự báo, cảnh báo cháy rừng bao gồm 6 thành phần: Fine Feul Moisture Code (FFMC), Duff Moisture Code (DMC), Drought Code (DC), Initial Spread Index (ISI), Builup Index (BUI) và FWI. Hình 1 – Cấu trúc của hệ thống FWI 2 Trong đó FFMC – biểu diễn tính dễ cháy của nhiên liệu đốt qua đánh giá độ ẩm của nhiên liệu. DMC – biểu diễn mức độ tiêu thụ nhiên liệu trung bình. DC – biểu diễn mức độ hạn hán. Ba yếu tố này ảnh hưởng đến cường độ cháy của đám cháy. ISI – biểu diễn tỉ lệ lan rộng của đám cháy, nó kết hợp với những ảnh hưởng của gió và FFMC. BUI – biểu diễn tổng số nhiên liệu có sẵn sàng cháy. FWI – chỉ số cường độ cháy, được suy ra từ 2 thành phần Fuel Moisture Code và Fire Behavior, giá trị càng cao cho thấy mức độ cháy có thể xảy ra càng nghiêm trọng. Trong bài tiểu luận sẽ sử dụng dữ liệu của các vụ cháy rừng ở Công viên sinh thái Montensinho, miền Bắc nước Bồ Đào Nha (hình 2). Công viên này có hệ thực vật cao, động vật đa dạng, nhiệt độ trung bình hằng năm vào khoảng 8 – 12 o C. Bộ dữ liệu được sử dụng để phân tích trong bài được thu thập từ tháng 1/2000 đến tháng 12/2003 và đượ xây dựng bằng cách sử dụng 2 nguồn. Cơ sở dữ liệu thứ nhất được thu thập bởi các thanh tra chịu trách nhiệm mọi hỏa hoạn xảy ra tại Montesinho. Bản đồ của công viên được chia lưới có kich thước 9x9, mỗi khi có cháy rừng xảy ra, các thanh tra sẽ đánh dấu tọa độ cập nhật dữ liệu về đám cháy bao gồm những thông tin về không gian, thời gian, 6 thành phần của hệ thống FWI và tổng diện tích rừng bị cháy. Cơ sở dữ liệu thứ 2 được thu thập bởi các trạm khí tượng, bao gồm các yếu tối về thời tiết (như gió, lượng mưa,…), sau 30 phút dữ liệu được cập nhật một lần. Hai cơ sở dữ liệu được cập nhật đã được lưu trữ và được tích hợp thành một bộ dữ liệu có tất cả 517 bản ghi. Hình 2 – Bản đồ công viên Montensinho 3 Các thuộc tính của dataset: Thuộc tính Mô tả X Tọa độ theo chiều X trên bản đồ, giá trị từ 1 đến 9 Y Tọa độ Y theo chiều Y, giá trị từ 1 đến 9 month tháng của năm, viết tắt từ "jan" đến "dec" day ngày của tuần, viết tắt từ "mon" đến "sun" FFMC FFMC code của hệ thống FWI, giá trị từ 18.7 đến 96.2 DMC DMC code, giá trị từ 1.1 đến 291.3 DC DC code, giá trị từ 7.9 đến 860.6 ISI ISI code, giá trị từ 0.0 đến 56.10 temp nhiệt độ, từ 2.2 đến 33.3 ( độ C) RH độ ẩm, từ 15.0 đến 100 (%) wind sức gió từ 0.40 đến 9.40(km/h) rain lượng mưa, từ 0.0 đến 6.4 (mm/m2) are Tổng diện tích bị cháy, từ 0.00 đến 1090.84 (ha) - Number of Instances: 517 - Number of Attributes: 12 + output attribute - Missing Attribute Values: None Ở đây are chính là biến đầu ra tương ứng với node FWI của hệ thống cảnh báo FWI. III – Xác định thuật toán để giải quyết bài toán Theo phân tích ở trên ta có thể dễ dành xác định được bài toán cần giải quyết là dạng bài toán phân lớp (classification) và dự đoán (prediction), bởi ta cần dự đoán được diện tích rừng có thể bị cháy sau khi có các số liệu đầu vào. Bước tiền xử lý dữ liệu Ở đây có hai thuộc tính month và day ta sẽ mã hóa về kiểu số, tương ứng như sau: month: jan – 1, feb – 2,…, dec – 12; day: mon – 2, tue – 3, …,sun – 8. Bước phân lớp và dự đoán IV – Kết quả thí nghiệm trên Weka http://archive.ics.uci.edu/ml/datasets/Forest+Fires 4 . tích bị cháy, từ 0.00 đến 1090.84 (ha) - Number of Instances: 517 - Number of Attributes: 12 + output attribute - Missing Attribute Values: None Ở đây. Kỹ thuật Khám phá tri thức trong cơ sở dữ liệu hay còn gọi là khai phá dữ liệu (Data Mining - DM) được phát triển và ứng dụng rộng rãi ở nhiều ngành, có

Ngày đăng: 13/12/2013, 11:33

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan