Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG

Thông tin tài liệu

Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG Tổng quan về lọc thông tin. Năm 1982, J.Denning nêu ra vấn đề về quá tải thông tin: khả năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khan nghiêm trọng bởi sự gia tang không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử.

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN Đề tài: CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG Giáo viê : PGS,TS. Trịnh Nhật Tiến Học viên: Mai Văn hà HÀ NỘI - 05/2014 1 LỌC THÔNG TIN THEO NỘI DUNG Mục lục 1. Tổng quan về lọc thông tin. Năm 1982, J.Denning nêu ra vấn đề về quá tải thông tin: khả năng lựa chọn thông tin hữu ích của người dùng máy tính sẽ gặp khó khan nghiêm trọng bởi sự gia tang không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua các hệ thống giao dịch điện tử. 1.1 Lọc thông tin Là việc nghiên cứu các quá trình lọc bỏ những thông tin không thích hợp và cung cấp thông tin thích hợp đến với mỗi người dùng. Thông tin được cung cấp có thể là văn bản, tragn web, phim, ảnh, dịch vụ hoặc bất kỳ dạng thông tin nào được sản sinh ra trừ các phương tiện truyền thông. Lọc thông tin có cùng chung mục tiêu với học máy ( machine learning ): cung cấp thông tin cần thiết cho người dùng dựa trên những gì có thể học từ những kinh nghiệm của cộng đồng trong quá khứ 2 1.2 Một số ứng dụng của lọc thông tin: • Lọc kết quả tìm kiếm trong các máy tìm kiếm ( search engine) • Lọc email dựa trên nội dung thư, hồ sơ người dùng … • Lọc thông tin văn bản trên các máy chủ để cung cấp thông tin cho tập thể hay cá nhân thích hợp. • Loại bỏ những trang thông tin có ảnh hưởng không tốt. • Dùng trong các hệ tư vấn (RS) của thương mại điện tử. 1.3 Xu hướng lọc thông tin: Lọc thông tin được tiếp cận theo hai xu hướng chính:  Lọc dựa trên tri thức: o Hệ thống tiến hành lọc thông tin bằng cách sử dụng tập luật được xây dựng trước. o Mỗi luật biểu diễn nhu cầu thông tin người dùng hoặc một mẫu thông tin cần lọc. Mỗi quyết định lọc sẽ được thự hiện nếu những điều kiện của luật đưa ra được thỏa mãn. o Các luật do người dùng cung cấp,dựa trên kinh nghiệm hay chi thức của mình. o Ưu điểm: hệ thống đơn giản hơn do không cần sử dụng kỹ thật học tự động. o Nhược điểm: đòi hỏi chi phí nhiều thời gian cùng với kinh nghiệm của các chuyên gia. Tuy nhiên nguồn dữ liệu vào thường không có cấu trúc và luôn trong trạng thái biến động, do đó việc cập nhật các luật không thể được thực hiện tự động  Lọc dựa trên dữ liệu: o Các quy tắc lọc được xây dựng từ dữ liệu mà hệ thống thu thập được bằng các kỹ thuật thống kê hay các thuật toán học máy. Nó cho phép tự động cập nhật các quy tắc lọc và không lệ thuộc vào tri thức chuyên gia. Phương pháp này dựa trên dữ liệu có khả năng thích nghi cao và tận dụng được nguồn dữ liệu. o Do việc thu thập dữ liệu ngày càng nhanh và dễ dàng hơn mà lọc dựa trên dữ liệu đang là cách tiếp cận chính của lọc thông tin. 1.4 Các kỹ thuật lọc được phát triển dựa trên nền tảng từ • Lĩnh vực truy vấn thông tin ( information retrieval ) • Tách thông tin ( Information Extraction ) • Phân loại thông tin ( Information Classification ) 1.5 Kiến trúc tổng quát của một hệ thống lọc thông tin • Thành phần phân tích dữ liệu ( data analyser component ): thu thập dữ liệu và phân tích chúng, biểu diễn dữ liệu theo một khuân dạng thích hợp. • Thành phần mô hình người dùng ( user model component ): để lấy thông tin về người dùng ( như giới tính, nơi sinh sống, thông tin người dùng đã truy cấn trước đó … ) để tạo lên hồ sơ người dùng. Sau đó hồ sơ người dùng được chuyển đến thành phần học để thực hiện nhiệm vụ huấn luyện. • Thành phần học ( Learning component ): thực hiện huấn luyện trên tập hồ sơ theo một thuật toán học máy cụ thể. Thuật toán học lấy dữ liệu từ thành phần mô tả 3 người dùng. Kết quả quá trình học được truyền lại cho bộ phận lọc để hực hiện nhiệm vụ tiếp theo. • Thành phần lọc ( filtering component ): Có nhiệm vụ xem xét sự phù hợp giữa người dùng với biểu diễn dữ liệu. Nếu dữ liệu phù hợp với hồ sơ người dùng, dữ liệu sẽ được cung cấp cho người dùng đó. Trong trường hợp ngược lại, hệ thống loại bỏ thông tin khỏi danh sách các thông tin được phân bổ cho người dung. Người dùng nhận được thông tin sẽ xem xét, đánh giá, phản hồi lại cho thành phần học để phục vụ quá trình lọc tiếp theo. 1.6 Sự khác biệt giữa truy vấn thông tin và lọc thông tin So sánh theo Lọc thông tin Truy vấn thông thin Kiểu người dùng Quan tâm đến người dùng thường xuyên sử dụng hệ thống, có hồ sơ rõ rang, có mối quan tâm tới hệ thống và luôn nhận được thông tin thích hợp từ hệ thống ở mọi thời điểm. Đáp ứng nhu cầu cho tất cả người dùng tại mọi thời điểm mà không cần quan tâm họ là ai. Biểu diễn nhu cầu thông tin Biểu diễn nhu cầu người dùng lâu dài dưới dạng hồ sơ người dùng. Nó ghi lại đặc trưng thông tin cá nhân, các đặc trưng liên quan đến lịch sử truy cập, thói quen sử dụng thông tin của người dùng… Biểu diễn nhu cầu người dùng bấy kỳ dưới dạng một câu truy vẫn. Mục tiêu hệ thống Quan tâm đến các phương án gỡ bỏ dữ liệu hơn là việc nỗ lực tìm kiếm thêm dữ liệu  đây là phương pháp giảm tải thông tin. Phương pháp cung câp thông tin thích hợp cho mỗi người dùng phù hợp với truy vấn của người dùng này. Cơ sở dữ liệu Cung cấp thông tin trên CSDL động, có cấu trúc khác nhau và thường xuyên biến đổi. Cung cấp thông tin trên các CSDL tĩnh. Phạm vi tương tác Quan tâm đến sự tương đồng theo sở thích, thói quen, đặc Không quan tâm đến sự tương tác giữa những người dùng với 4 trưng xã hội … của tập thể người dùng. Hệ thống luôn có 1 mô hình người dùng để giữ lại những đặc trưng cần thiết cho mỗi người dùng. nhau. 2. Phương pháp lọc theo nội dung 2.1 Lọc theo nội dung Là phương pháp thực hiện dựa trên việc so sánh nội dung thông tin nhằm tìm ra những thông tin tương tự với thông tin mà người dùng đã từng quan tâm để giới thiệu cho họ những thông tin này. Các phương pháp tiếp cận cho lọc theo nội dung có nguồn gốc từ truy vấn thông tin, trong đó mỗi sản phẩm được biểu diễn bằng một hồ sơ sản phẩm, mỗi người dùng được biểu diễn bằng một hồ sơ người dùng. Phương pháp dự đoán nội dung ngueyen bản của sản phẩm thực hiện dựa trên việc xem xét các hồ sơ sản phẩm có mức độ phù hợp cao với hồ sơ người dùng. 2.2 Bài toán lọc theo nội dung Cho P = {p1, p2, … , pn } là tập gồm N sản phẩm. • Nội dung sản phẩm p ∈ P được ký hiệu là Content(p) được biểu diễn thông qua tập K đặc trưng nooijd ung của P. • Tập các đặc trưng sản phẩm p được xây dựng bằng kỹ thuật truy vẫn thông tin để dự đoán những sản phẩm khác tương tự với p Cho U = {u1, u2, … , um } là tập gồm M người dùng. • Mỗi người dùng u ∈ U, gọi ContentBasedProfile(u) là hồ sơ người dùng u. Nó là lịch sử truy cập hoặc đánh giá của người đó đối với các sản phẩm. • ContentBasedProfile(u) được xây dựng bằng cách phân tích nooijd ung các sản phẩm mà người dùng u đã từng truy nhập hoặc đánh giá dựa trên các kỹ thuật truy vấn thông tin. Bài toán lọc theo nội dung: dự đoán những sản phẩm mới có nội dung thích hợp với người dùng dựa trên tập hồ sơ sản phẩm Content(p) và hồ sơ người dùng ContentBasedProfile(u). 2.3 Các phương pháp lọc theo nội dung Có 2 xu hướng lọc nội dung: • Lọc dựa trên bộ nhớ • Lọc dựa trên mô hình. a. Lọc dựa rên bộ nhớ: Sử dụng toàn bộ tập hồ sơ sản phẩm và tập hồ sơ người dùng để thực hiện huấn luyện và dự đoán. 5 Các sản phẩm mới được tính toán và so sánh với tất cả hồ sơ người dùng. Những sản phẩm có mực độ tương tự cao nhất sẽ được dùng để tư vẫn cho người dùng. Để lọc theo cách này, ta cần: • Biểu diễn content(p) dưới dạng vector trọng số các đặc trưng nội dung. • Tính độ tương tự giữa hồ sơ người dùng và hồ sơ sản phẩm. Phương pháp biểu diến hồ sơ sản phẩm: Phép đo tần suất kết hợp với tần suất xuất hiện ngược ( term frequency / inverse document frequency ): • Gọi là số lần đặc trưng nội dung xuất hiện trong sản phẩm pj. Khi đó tần xuất TFi,j của đặc trưng nội dung trong sản phẩm pj được xác định theo công thức: Trong đó là số lần xuất hiện nhiều nhất của đặc trưng nội dung ki trong sản phẩm pj. Tuần suất xuất hiện ngược IDFi, kết hợp với tuần suất TFi,j cho phép ta chú ý nhiều hơn đến những đặc trưng nội dung có trong sản phẩm này nhưng ít xuất hiện trong các sản phẩm khác. Phương pháp xác định tuần suất xuất hiện ngược: • Giả sử hệ có N sản phẩm cần được phân bổ hoặc tư vấn cho người dùng. • Đặc trưng nội dung ki xuất hiện trong ni sản phẩm.  Tần suất xuất hiện ngược IDFi của đặc trưng nội dung ki có tần suất xuất hiện trong sản phẩm pj là TFi,j được xác định theo công thức : Trong công thức này, nếu ni ≅ N hay đặc trưng ki xuất hiện trong đại đa số các sản phẩm cần phân bố đến người dùng thì trọng số  những đặc trưng nội dung có trong mọi sản phẩm thì đặc trưng đó không chứa nhiều thông tin phản ánh sản phẩm. 6 • Mức độ quan trọng của đặc trưng nội dung ki được xác định theo công thức: Nếu đặc trưng nội dung chỉ xuất hiện trong một sản phẩm thì và   những đặc trưng nội dung chỉ xuất hiện ở 1 loại sản phẩm thì nó chứa nhiều nội dung quan trọng đối với sản phẩm.  Theo cách này, mỗi sản phẩm pj ∈P được biểu diễn như một vector trọng số các đặc trưng nội dung trong đó K là số lượng đặc trưng nội dung của toàn bộ sản phẩm. Phương pháp biểu diễn hồ sơ người dùng: Mỗi hồ sơ người dùng ContentBasedProfile(u) được biểu diễn bằng một vector trọng số các đặc trưng nội dung trong đó mỗi biểu thị mức độ quant rọng của đặc trưng nội dung k đối với người dùng u. Vector trọng dố được tính toán từ vector hồ sơ sản phẩm đã được người dùng thường xuyên truy cập hoặc đánh giá. Xác định mức độ tương tự: Các vector trọng số ContentBasedProfile(u) và Content(p) có cùng số chiều và ước lượng theo cùng một phương pháp. Việc xác định mức độ thích hợp của mỗi sản phẩm p ∈P cho người dùng u được xem xét theo mức độ giống nhau giữa vector hồ sơ người dùng u ∈U và vector hồ sơ sản phẩm p ∈ P. Phương pháp ước lượng mức độ giống nhau giữa vector hồ sơ người dùng u ∈U và vector hồ sơ sản phẩm p ∈ P là: tìm cosin của hai vector trọng số và : 7 • Trong đó: K là số lượng đặc trưng nội dung của hệ thống. • Nếu cosin này gần với 1 ( hay góc tạo bởi 2 vector là nhỏ ) thì mức độ tương tự giữa hồ sơ người dùng và hồ sơ sản phẩm là cao. Ngược lại, nếu cosin gần tới 0 ( hay góc tạo bởi 2 vector lớn ) thì mức độ phù hợp của sản phẩm với hồ sơ người dùng càng thấp.  Với cách đo này, nếu người dùng u truy nhập nhiều sản phẩm liên quan cùng tới 1 chủ đề nào đó thì hệ thống lọc theo nội dung sẽ phân bố các sản phẩm của chủ đề đó cho người dùng u. Ngoài cách dung cosin còn có các cách dùng khoảng cách Euclid, độ tương quan Pearson … b. Lọc nội dung dựa vào mô hình Đây là phương pháp sử dụng tập hồ sơ sản phẩm và tập hồ sơ người dùng đê xây dựng lên mô hình huấn luyện. Mô hình dự đoán sẽ sử dụng kết quả của mô hình huấn luyện để sinh ra tư vấn cho người dùng. Trong cách này, lọc nội dung có thể sử dụng các kỹ thuật học máy như mạng Bayes, phân cụm, cây quyết định, mạng noron nhân tạo để dự đoán. Pazzani và Billsus: Sử dụng bộ phân lại Bayes dựa trên những đánh giá “thích” hay “không thích” của người dùng để phân loại sản phẩm. Trong đó, cách ước lượng sản phẩm pj có thuộc lớp Ci hay không dựa trên tập các đặc trưng nội dung của sản phẩm đó: Giả thuyết rằng các cặp đặc trưng nội dung xuất hiện độc lập nhau  xác suất trên tương ứng với: 8 Vì và có thể được ước lượng dựa trên tập dữ liệu huấn luyện  sản phẩm pj được xem là thuộc lớp Ci nếu có giá trị cao nhất thuộc lớp này. 3. Chương trình demo 3.1 Kịch bản demo Demo chương trình tìm kiếm các movies phù hợp với từng người dùng, dựa trên các đánh giá của người dùng này với các movies mà họ đã xem trước đó. Từ các thông tin cá nhân ( đánh giá của người dùng với movies đã xem ) hệ thống tiến hành phân tích thông tin, lọc tìm các movies tương ứng ( cùng thể loại và được đánh giá nhiều, là các movies mới … ) và đưa cho người dùng một danh sách các movies mà họ có thể thích. 3.2 Phần mềm demo Xử dụng hệ thống phần mêm mã nguồn mở là PredictionIO: PredictionIO là một mã nguồn mở về "Machine Learning Server". Nó cho phép các lập trình viên và kỹ sư dữ liệu xây dựng các ứng dụng thông minh. Với PredictionIO, bạn có thể thêm vào ứng dụng của bạn các tính năng sau: • Dự đoán hành vi người dùng. • Cung cấp các video, tin tức, giao dịch, quảng cáo và tuyển dụng được cá nhân hoá. • Giúp người dùng khám phá các sự kiện thú vị, tài liệu, các ứng dụng và nhà hàng. • Cung cấp dịch vụ phù hợp với sở thích của người dùng. • Và nhiều hơn nữa PredictionIO được xây dựng trên công nghệ mã nguồn mở, hỗ trợ Hadoop, Mahout, Cascading và Scalding natively. a) Cài đặt PredictionIO - Môi trường cài đặt: sử dụng server Linux, cài CentOS 6.4 - Yêu cầu về môi trường cài đặt: o Java 6 ( hoặc bản mới hơn ) o Python o MongoDB 2.2 ( download hoặc xem hướng dẫn cài đặt trên linux tại đường link: http://www.mongodb.org/) o Hadoop: các phiên bản Hadoop 1 hoặc mới hơn ( có thể xem tại: http://docs.prediction.io/current/installation/install-predictionio-on- linux.html#hadoop2 ) o curl o gzip o tar o unzip o zip - Download bản cài đặt o Download bản “PredictioinIO Binaries” tại: http://prediction.io/download o Thực hiện các lệnh để giải nén: $ unzip PredictionIO-<version>.zip 9 $ cd PredictionIO-<version> - Cấu hình cho Hadoop: o Tạo key cho authenticate trong hadoop, thực hiện lần lượt các lệnh:  $ ssh localhost  $ ssh-keygen -t dsa -P '<nhập_mật_khẩu_của_user_hiện_tại>' -f ~/.ssh/id_dsa  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys o Cấu hình thông số của hadoop:  Trong file conf/hadoop/hdfs-site.xml thêm vào nội dung sau: <property> <name>dfs.name.dir</name> <value>/path_to_big_storage_for_namenode</value> </property> <property> <name>dfs.data.dir</name> <value>/path_to_big_storage_for_datanode</value> </property> - Cài đặt PredictionIO o Chạy lệnh:  $ bin/setup-vendors.sh  Nếu hệ thống yêu cầu cung cấp Java installation path thì gõ vào JAVA_HOME path của Java đã được cài trên máy. o Sau đó gõ tiếp lệnh:  $ bin/setup.sh - Khởi động PredictionIO: o Gõ lệnh: $ bin/start-all.sh - Truy cập vào đường link để xem kết quả cài đặt Prediction: o http://localhost:9000/ - Để truy cập vào hệ thống Prediction, cần tạo account, trên terminal sử dụng lệnh: o bin/users o Nhập vào các thông tin cần thiết. b) Xây dựng một Moview Recommendation App - Cài đặt SDK cho PredictionIO băng cách chạy lệnh: o $ pip install predictionio Hoặc lệnh: o $ easy_install predictionio - Download source code để xây dựng app, lần lượt chạy các lệnh: o $ git clone https://github.com/PredictionIO/PredictionIO-Python-SDK.git o $ git checkout master - Tạo một app mới: Vào trang quản trị ( http://localhost:9000 ) và tạo một app mới, lấy tên “My Movie App” 10 [...]... đỉnh v nào đó của đồ thị, thì chẳng có cách nào khác là phải duyệt tất cả các cạnh, lọc ra những cạnh có chứa đỉnh v và xét đỉnh còn lại Điều đó khá tốn thời gian trong trường hợp đồ thị dày (nhiều cạnh) III Danh sách kề Để khắc phục nhược điểm của các phương pháp ma trận kề và danh sách cạnh, người ta đề xuất phương pháp biểu diễn đồ thị bằng danh sách kề Trong cách biểu diễn này, với mỗi đỉnh v của... m < 6n), cách biểu diễn bằng danh sách cạnh sẽ tiết kiệm được không gian lưu trữ, bởi nó chỉ cần 2m ô nhớ để lưu danh sách cạnh Trong một số trường hợp, ta phải xét tất cả các cạnh của đồ thị thì cài đặt trên danh sách cạnh làm cho việc duyệt các cạnh dễ dàng hơn (Thuật toán Kruskal chẳng hạn) Nhược điểm của danh sách cạnh: Nhược điểm cơ bản của danh sách cạnh là khi ta cần duyệt tất cả các đỉnh... đi ra khỏi nó; bán bậc vào ký hiệu deg-(v) là số cung đi vào đỉnh đó Định lý: Giả sử G = (V, E) là đồ thị có hướng với m cung, khi đó tổng tất cả các bán bậc ra của các đỉnh bằng tổng tất cả các bán bậc vào và bằng m: deg (v) = deg + (v) = m v V v V Chứng minh: Khi lấy tổng tất cả các bán bậc ra hay bán bậc vào, mỗi cung (u, v) bất kỳ sẽ được tính đúng 1 lần trong deg+(u) và cũng được tính đúng... diễn này, với mỗi đỉnh v của đồ thị, ta cho tương ứng với nó một danh sách các đỉnh kề với v Với đồ thị G = (V, E) V gồm n đỉnh và E gồm m cạnh Có hai cách cài đặt danh sách kề phổ biến: Cách 1: (Forward Star) Dùng một mảng các đỉnh, mảng đó chia làm n đoạn, đoạn thứ i trong mảng lưu danh sách các đỉnh kề với đỉnh i: Ví dụ với đồ thị sau, danh sách kề sẽ là một mảng A gồm 12 phần tử: 1 2 2 3 3 5 Đoạn 1... nhiều cách khác nhau, dùng cách nào thì tuỳ Chẳng hạn nếu biểu diễn bằng ma trận kề mà cho nhập dữ liệu cả ma trận cấp n x n (n là số đỉnh) thì khi nhập từ bàn phím sẽ rất mất thời gian, ta cho nhập kiểu danh sách cạnh cho nhanh Chẳng hạn mảng A (nxn) là ma trận kề của một đồ thị vô hướng thì ta có thể khởi tạo ban đầu mảng A gồm toàn số 0, sau đó cho người sử dụng nhập các cạnh bằng cách nhập các cặp... Như trên định nghĩa đồ thị G = (V, E) là một cấu trúc rời rạc, tức là các tập V và E hoặc hữu hạn, hoặc là tập đếm được, có nghĩa là ta có thể đánh số thứ tự 1, 2, 3 cho các phần tử của tập V và E Hơn nữa, đứng trên phương diện người lập trình cho máy tính thì ta chỉ quan tâm đến các đồ II Các khái niệm thị hữu hạn (V và E là tập hữu hạn) mà thôi, chính vì vậy từ đây về sau, nếu không chú... đỉnh với một đỉnh khác kề nó Nhược điểm của danh sách kề Về lý thuyết, so với hai phương pháp biểu diễn trên, danh sách kề tốt hơn hẳn Chỉ có điều, trong trường hợp cụ thể mà ma trận kề hay danh sách cạnh không thể hiện nhược điểm thì ta nên dùng ma trận kề (hay danh sách cạnh) bởi cài đặt danh sách kề có phần dài dòng hơn IV Nhận xét Trên đây là nêu các cách biểu diễn đồ thị trong bộ nhớ của máy tính,... deg-(v) Từ đó suy ra kết quả Một số tính chất của đồ thị có hướng không phụ thuộc vào hướng của các cung Do đó để tiện trình bày, trong một số trường hợp ta có thể không quan tâm đến hướng của các cung và coi các cung đó là các cạnh của đồ thị vô hướng Và đồ thị vô hướng đó được gọi là đồ thị vô hướng nền của đồ thị có hướng ban đầu Lê Minh Hoàng - Tập bài giảng chuyên đề Lý thuyết đồ thị 6 Đ2 Biểu diễn... nhiều Thứ hai: để tiết kiệm thời gian nhập liệu, chương trình quy định dữ liệu về đồ thị sẽ được nhập từ file văn bản GRAPH.INP Trong đó: Dòng 1 ghi số đỉnh n và số cạnh m của đồ thị cách nhau 1 dấu cách m dòng tiếp theo, mỗi dòng có dạng hai số nguyên dương u, v cách nhau một dấu cách, thể hiện có cạnh nối đỉnh u và đỉnh v trong đồ thị 4 2 1 6 7 3 8 5 Đồ thị G và file GRAPH.INP tương ứng GRAPH.INP... ta cũng buộc phải xét tất cả các đỉnh và kiểm tra điều kiện trên dẫn tới lng phí thời gian Lê Minh Hoàng - Tập bài giảng chuyên đề Lý thuyết đồ thị 7 cạnh, Trong trường hợp đồ thị có n đỉnh, m cạnh, ta có thể biểu diễn đồ thị dưới dạng danh sách trong cách biểu diễn này, người ta liệt kê tất cả các cạnh của đồ thị trong một danh mỗi phần sách, tử của danh sách là một cặp (u, v) tương . VÀ BẢO MẬT THÔNG TIN Đề tài: CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG Giáo viê : PGS,TS. Trịnh Nhật Tiến Học viên: Mai Văn hà HÀ NỘI - 05/2014 1 LỌC THÔNG TIN THEO NỘI DUNG Mục lục 1. Tổng. dùng. nhau. 2. Phương pháp lọc theo nội dung 2.1 Lọc theo nội dung Là phương pháp thực hiện dựa trên việc so sánh nội dung thông tin nhằm tìm ra những thông tin tương tự với thông tin mà người dùng đã. PredictionIO-<version>.zip 9 $ cd PredictionIO-<version> - Cấu hình cho Hadoop: o Tạo key cho authenticate trong hadoop, thực hiện lần lượt các lệnh:  $ ssh localhost  $ ssh-keygen -t dsa -P

Ngày đăng: 19/10/2014, 20:55

Xem thêm: Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG, Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG, a. Lọc dựa rên bộ nhớ:, b. Lọc nội dung dựa vào mô hình

Tiểu luận môn học AN TOÀN VÀ BẢO MẬT THÔNG TIN CÁC PHƯƠNG PHÁP LỌC THÔNG TIN THEO NỘI DUNG

Thông tin tài liệu

Từ khóa liên quan

Mục lục

1. Tổng quan về lọc thông tin.

1.1 Lọc thông tin

1.2 Một số ứng dụng của lọc thông tin:

1.3 Xu hướng lọc thông tin:

1.4 Các kỹ thuật lọc được phát triển dựa trên nền tảng từ

1.5 Kiến trúc tổng quát của một hệ thống lọc thông tin

1.6 Sự khác biệt giữa truy vấn thông tin và lọc thông tin

2. Phương pháp lọc theo nội dung

2.1 Lọc theo nội dung

2.2 Bài toán lọc theo nội dung

2.3 Các phương pháp lọc theo nội dung

a. Lọc dựa rên bộ nhớ:

b. Lọc nội dung dựa vào mô hình

3. Chương trình demo

3.1 Kịch bản demo

3.2 Phần mềm demo

a) Cài đặt PredictionIO

b) Xây dựng một Moview Recommendation App

Tài liệu cùng người dùng

Tài liệu liên quan