PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG ỨNG CORRESPONDENCE ANALYSIS (CA)

20 1.9K 13
PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG ỨNG  CORRESPONDENCE ANALYSIS (CA)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Correspondence Analysis- CA BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THỰC PHẨM MÔN XỬ LÍ SỐ LIỆU THỰC NGHIỆM  TIỂU LUẬN PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS (CA) GVHD: Trần Thị Hồng Cẩm Nhóm: Nhóm - Phạm Văn Đông Phạm Văn Luân Hà Trung Phương Hoàng Anh Đức Lớp: 05DHDB2 2022140345 2022140331 2022140357 2022140322 Buổi: Thứ – tiết 9+10 – phòng B107 TP HCM, tháng năm 2016 Nhóm Page Tp.HCM, Tháng 05/2014 Correspondence Analysis- CA Danh sách nhóm và bảng phân công nhiệm vụ - - - Nhóm Page Correspondence Analysis- CA MỤC LỤC Nhóm Page Correspondence Analysis- CA CHƯƠNG 1: GIỚI THIỆU CHUNG Trong việc nghiên cứu đặc tính khác của cùng một sản phẩm hay của sản phẩm khác để đưa kết luận, đánh giá về sự tương quan ảnh hưởng lẫn giữa yếu tố hay sự ảnh hưởng của chúng đến một giá trị khác… Người phân tích sản phẩm gặp nhiều khó khăn việc thu thập và xử lí số liệu ban đầu Bởi với từng sản phẩm khác và từng người thử – phép thử khác sẽ cho rất nhiều kết quả đánh giá khác Ví dụ: Khảo sát về đặt tính cảm quan của một loại nước giải khát mới được thực hiện đánh giá với 50 người thử,cho một số kết quả đánh sau: - Về màu sắc: vàng cam, cam, vàng - Về mùi hương: hương cam, hương chanh, hương thơm - Về vị ngọt: thấp, trung bình, cao - …… Mỗi tính chất có số người cùng đánh giá khác Với một loạt những kết quả đánh giá rất khó để đưa kết luận chính xác về đặc tính của sản phẩm Do đó những dữ liệu ban đầu - “bộ dữ liệu thô” cần được xử lí, tóm tắt, mã hóa, phân tích…thành dạng đơn giản và khoa học hơn, giúp ta dễ dàng tiếp cận và có thể rút kết luận từ kết quả đã được xử lí và phân tích Một số những phương pháp phân tích số liệu thường được sử dụng là Phân tích tương ứng Correspondence Analysis- CA Correspondence Analysis- CA là một phân tích thành phần chính tổng quát phù hợp cho việc phân tích dữ liệu định tính Ban đầu, CA được tạo để phân tích “bảng dự phòng”, về sau nó được sử dụng linh hoạt cho nhiều bảng dữ liệu khác.có thể hiểu đơn giản Correspondence Analysis- CA là phương pháp trực quan để phân tích dữ liệu được biểu diễn bảng dữ liệu chiều (contingency table) hay đa chiều, giúp đơn giản hình thức phân tích nghiên cứu Nhóm Page Correspondence Analysis- CA Mục tiêu của phân tích tương ứng CA là chuyển đổi một bảng dữ liệu thành hai bộ yếu tố điểm: Một cho hàng và một cho cột Điểm yếu tố phải là điểm đại diện tốt nhất của cấu trúc tương tự của hàng và cột bảng Ngoài ra, yếu tố điểm có thể được vẽ bản đồ, hiển thị thông tin cần thiết của bảng dữ liệu gốc Trong bản đồ này, tọa độ của điểm hiển thị yếu tố tương tự hàng và cột bảng dữ liệu Điều đặc biệt là điểm yếu tố của hàng và cột có cùng phương sai và, đó, cả hàng và cột có thể được đại diện thuận tiện cùng một bản đồ nhất Như vậy kết quả của CA là bản đồ điểm (Map of Points) Trong đó điểm biểu diễn cho dòng (rows) và cột (columns) của bảng Sự hiển thị hàng và cột của một bảng là điểm một bản đồ không gian, với một giải thích hình học cụ thể vị trí của điểm một phương tiện để giải thích những điểm tương đồng và khác biệt giữa hàng , sự giống và khác giữa cột và sự liên kết giữa hàng và cột Các kết quả cung cấp thông tin tương tự thực tiễn sản xuất, giúp chúng ta phát hiện được mối quan hệ tìm ẩn ảnh hưởng lẫn của yếu tố được phân tích bảng Nhóm Page Correspondence Analysis- CA CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH Một số khái niệm bản 2.1 Profile: Tần suất tương đối bảng dữ liệu thống kê (Row and column profiles) Dùng để xác định tọa độ của điểm bản đồ Masses (marginal distribution): Đo lường độ quan trọng của điểm Centroid (tâm): Trọng số trung bình của vị trí Projection: Phép chiếu lên không gian Inertia: Tổng bình phương khoảng cách của điểm đến centroid Đặc điểm dữ liệu đầu vào (input) 2.2 Như đã giới thiệu ở phần trên, dữ liệu thu thập ban đầu là “tập dữ liệu thô”, chủ yếu là dữ liệu dạng văn bản (các nhận định và đánh giá ) Do đó, những dữ liệu này cần được xử lí và tóm tắt lại để thuận tiện và dễ dàng cho trình phân tích Các dữ liệu dạng văn bản này cần được đồng nhất về mặt ngữ nghĩa Do dữ liệu dạng văn bản thường rất đa dạng và phong phú về mặt ngữ nghĩa (nghĩa của từ) Như ở ví dụ trên, khảo sát đặc tính của một loại nước giải khát…do cách cảm nhận của những người khác và cách kết luận tự nên sẽ dẫn đến những đánh giá có sự khác về mặt từ ngữ lại cùng diễn tả một tính chất chung như: “vàng”, “vàng vàng”, “vàng nhạt”,…cùng mang một ý nghĩa giống là “vàng”; hay “ngòn ngọt”, “ngọt dịu”, “hơi ngọt”… cùng diễn đạt tính chất trung bình của vị ngọt…hơn thế nữa, nhận xét và đánh giá của một người hoàn toàn có thể bị chi phối bởi yếu tố tâm lí, được xem là dữ liệu ngẫu nhiên – tự phát Do đó, việc đồng nhất dữ liệu dạng văn bản là việc làm cần thiết giúp giảm mức độ phức tạp của dữ liệu đầu vào Phân tích tương ứng là hiệu quả nhất nếu điều kiện sau đây: - Ma trận dữ liệu là đủ lớn, để kiểm tra trực quan hoặc phân tích thống kê đơn giản không thể tiết lộ cấu trúc của nó Nhóm Page Correspondence Analysis- CA - Các biến là đồng nhất, đó nó làm cho cảm giác để tính toán khoảng cách thống kê giữa hàng hoặc cột - Ma trận dữ liệu là một ưu tiên "vô định hình", tức là cấu trúc của nó, hoặc là không biết hoặc chưa được hiểu rõ Nhóm Page Correspondence Analysis- CA CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA 3.1 Cách bố trí dữ liệu đầu vào bảng dự phòng Trong phương pháp phân tích tương ứng này, “bộ dữ liệu thô” ban đầu cần được tóm tắt và hệ thống hóa vào một bảng dữ liệu thống kê (bảng ngẫu nhiên) Ở bảng thống kê này chúng ta quan tâm đến hai biến: một là biến tương ứng với lời đánh giá của những người được khảo sát (biến đặc tính), biến thứ hai tương ứng với sản phẩm được đánh giá Các biến dữ liệu được bố trí bảng sau: - Các hàng i (rows): chứa dữ liệu tương ứng với sản phẩm được đánh giá - Các cột j (colums): chứa dữ liệu tương ứng với từ ngữ dùng để mô tả đặc tính của sản phẩm - Các điểm giao giữa hàng i và cột j: chứa dữ liệu ghi nhận tần số tương quan giữa i và j, tức số lần đánh giá được lập lại đối với một đặc tính của từng sản phẩm Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của nhãn hiệu kem đánh (Brand A, Brand B, Brand C và Brand D) tại khu vực (Region 1, Region và Region 3) được điều tra ngẫu nhiên từ 120 người sau: Brand A Brand B Brand C Brand D Total Region Region Region Total 5 15 15 40 25 5 40 30 5 40 40 35 25 20 120 Nhóm Page Correspondence Analysis- CA 3.2 Tiền xử lí dữ liệu đầu vào 3.2.1 χ2 Tính toán Câu hỏi đặt là liệu bạn có chắc chắn dữ liệu bảng dự phòng độc lập với nhau? Để khắng định điều đó chúng ta cần kiểm tra χ2 , để xem tab chéo có lệch đáng kể giữa hàng và cột Việc kiểm tra được mô tả chính thức bởi ma trận (i x j), F =[fij] Chúng ta nhận được ma trận tương ứng P từ F cách chia mục của nó: P = [ pij] =[, where n = (1) Tiếp theo, xác định hàng và cột tổng: (2) Các χ2 Thống kê, X2 được tính: (3) µij là ước tính giá trị giả định độc lập của đầu ra: µij = pi+ p+j (4) Nếu hàng và cột thực sự là độc lập (tức là, "theo giả thuyết null"), X2 nên theo một χ2 phân phối với (I-1)x(J-1) bậc tự Chúng ta có thể so sánh giá trị thực tế tính toán cho ví dụ tab chéo với phân phối của mình theo giả thuyết Nhóm Page Correspondence Analysis- CA 3.2.2 χ2 Khoảng cách Theo mục đích của phân tích tương ứng, sự khác biệt giữa bản phân phối của biến hàng ngang của bảng chéo (bảng dự phòng) được đo χ2 khoảng cách, đó có trọng lượng khoảng cách Euclide giữa hàng bình, với trọng lượng tỉ lệ nghịch với bậc hai của tổng số cột Trong biểu tượng, χ2 khoảng cách giữa hàng i và hàng k được cho bởi biểu thức: (5) χ2 khoảng cách giữa mẫu văn bản sử dụng ma trận tương ứng và hiển thị chúng một bảng nhỏ gọn hợp lý (sau nhân rộng lên 100 và làm tròn số) Từ phương trình (5) kể từ tổng hàng cho trọng tâm là (theo định nghĩa của P ), χ2 khoảng cách hàng i với trọng tâm là: (7 ) Bây giờ với µij được định nghĩa (4): (8) Vẽ một tương tự với khái niệm vật lý của quán tính góc cạnh, phân tích tương ứng xác định quán tính của một hàng sản phẩm của tổng hàng (được gọi là khối lượng của hàng) và bình phương khoảng cách của nó với trọng tâm pi+diz2 So sánh biểu thức diz2 (5) với định nghĩa của χ2 Thống kê (3), nó sau đó tổng quán tính của tất cả hàng một ma trận ngẫu nhiên χ2 Thống kê chia n , Một số lượng được gọi là mean-square contingency Pearson, ký hiệu ɸ2 : Nhóm Page 10 Correspondence Analysis- CA (9 ) Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ họa của nó phân tích tương ứng Để tham khảo tương lai, chúng ta có thể tính toán ɸ2 cho dữ liệu của chúng ta Nhóm Page 11 Correspondence Analysis- CA CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUA Giới thiệu một số phần mền thông dụng 4.1 Trong phương pháp phân tích tương ứng CA có nhiều phần mềm hỗ trợ nhằm giảm bớt công đoạn tính toán và giúp hiện thị kết quả thuận tiện cho người phân tích Sau là một số phần mềm hỗ trợ phân tích: Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là - một chương trình máy tính phục vụ công tác thống kê Phần mềm SPSS hỗ trợ xử lý và phân tích dữ liệu sơ cấp - là thông tin được thu thập trực tiếp từ đối tượng nghiên cứu, thường được sử dụng rộng rãi nghiên cứu điều tra xã hội học và kinh tế lượng Phần mền R: là một ngôn ngữ lập trình và môi trường phần mềm dành cho tính - toán và đồ họa thống kê Đây là một bản hiện thực ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme R Ross Ihaka và Robert Gentleman tạo tại Đại học Auckland, New Zealand Phần mềm XLSTAT: là phần mềm ứng dụng dùng Excel, giúp hỗ trợ tính - toán và đồ họa thống kê CA, PCAvà MCA,… 4.2 Phần mềm XLSTAT Ví dụ: Bảng dự phòng sau khảo sát về tần suất sử dụng của nhãn hiệu kem đánh (Brand A, Brand B, Brand C và Brand D) tại khu vực (Region 1, Region và Region 3) được điều tra ngẫu nhiên từ 120 người sau: Nhóm Page 12 Correspondence Analysis- CA Tota Region Region Region l 5 15 15 40 25 5 40 30 5 40 40 35 25 20 120 Brand A Brand B Brand C Brand D Total Sau khởi động XLSTAT và chọn biểu tượng Correspondence Analysis Chọn vùng liệu để phân tích và bấm OK để thực CA Vấn đề quan trọng là giải thích kết mà CA sinh để tìm tri thức hữu ích ẩn chứa liệu Khai phá tri thức từ kết quả CA Sau giải thích từng bước kết quả sinh bởi CA nhằm giúp bạn có thể phát hiện tri thức ẩn chứa dữ liệu từ Contingency table ban đầu 4.2.1 Rows and Column Profile Nhóm Page 13 Correspondence Analysis- CA Kết quả cuối cùng của CA là bản đồ điểm (Map of Points), đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành điểm bản đồ Profile được tính là tần suất tương đối của dòng (Rows profile) và cột (Columnsprofile) Contingency table Profile của dòng và cột được dùng để xác định tọa độ của điểm bản đồ Vì vậy dòng hoặc cột có profile gần giống sẽ được đặt gần bản đồ Sau là Profile của dòng và cột được CA sinh từ bảng dự phòng (Contingency Table) 4.2.2 Brand A Brand B Brand C Brand D Mean Row Profile Region Region Region 12.5% 12.5% 75.0% 14.3% 71.4% 14.3% 60.0% 20.0% 20.0% 75.0% 25.0% 0.0% 40.4% 33.2% 27.3% Sum 100% 100% 100% 100% 100% Brand A Brand B Brand C Brand D Sum Colum Profile Region Region Region 12.5% 12.5% 75.0% 12.5% 62.5% 12.5% 37.5% 12.5% 12.5% 37.5% 12.5% 0.0% 100% 100% 100% Mean 33.3% 29.2% 20.8% 16.7% 100% Kiểm định sự phụ thuộc giữa dòng (rows) và cột (columns) Contingency Table Bước đầu tiên phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa dòng và cột bảng dữ liệu ban đầu Nhóm Page 14 Correspondence Analysis- CA CA tự động kiểm tra mối qua hệ này Với dữ liệu ví dụ trên, kết quả kiểm định giả thuyết được CA sinh sau: Test of independence between the rows and the columns: Chi-square (Observed value) Chi-square (Critical value) DF p-value alpha 79.607 12.592 < 0.0001 0.05 Test interpretation: H0: The rows and the columns of the table are independent Ha: There is a link between the rows and the columns of the table As the computed p-value is lower than the significance level α=0.05, one should reject the null hypothesis H0, and accept the alternative hypothesis H1 The risk to reject the null hypothesis H0 while it is true is lower than 0.01% Giả thuyết H0 (Null hypothesis): Các dòng và cột bảng dự phòng là độc lập (Nói cách khác là không có sự phụ thuộc giữa dòng và cột bảng) Giả thuyết H1 (giả thuyết đối): Có mối liên hệ giữa dòng và cột bản Kết quả kiểm định cho thấy P-value 100/3 =33.3%) Chú ý rằng, Theo đóng góp của dòng (Brands) thì Brand A xác định F1 và theo đóng góp của cột (các Regions) thì F1 được xác định bởi Region 3, vì vậy rõ ràng Brand A kết hợp mạnh mẽ với Region Hay nói cách khác nhãn hiệu kem đánh Brand A được sử dụng nhiều nhất ở Region (xem dữ hiệu Contingency Table và bản đồ phần sau) Nhóm Page 17 Correspondence Analysis- CA 4.2.5 Biểu diễn trực quan bản đồ kết quả CA Ví trí của dòng (trong trường hợp này là nhãn hiệu kem đánh Brand A,B,C,D) Brand A Brand B Brand C Brand D Mean Row Profile Region Region Region 12.5% 12.5% 75.0% 14.3% 71.4% 14.3% 60.0% 20.0% 20.0% 75.0% 25.0% 0.0% 40.4% 33.2% 27.3% Sum 100% 100% 100% 100% 100% Những nhãn hiệu có profile càng giống thì được đặt càng gần và nhãn hiệu có profile càng khác thì được đặt càng xa đồ thị Trong ví dụ này ta thấy Brand C và D được đặt gần vì profile của chúng gần giống (60%, 75%) và Brand A được đặt xa Brand C và D vì Profile của Brand A (12.5%) khác xa so với Profile của Brand C và Trục F1 được xác định bởi Brand A nên vị trí của Brand A rất gần trục F1 đồ thị Thêm vào đó, nếu profile của một brand càng khác biệt so với tâm (centroid – trung bình của profile) thì nó sẻ nằm càng xa gốc tọa độ (origin) Tương tự, ví trí của cột (trong trường hợp này là Regions) được biểu diễn sau Nhóm Page 18 Correspondence Analysis- CA Phát hiện kết hợp giữa hàng và cột (trong ví dụ này là giữa nhãn hiệu kem đánh và khu vực) Nhắc lại rằng, kết quả của CA là bản đồ điểm (Map of Points) Trong đó điểm biểu diễn cho dòng (rows) và cột (columns) của bảng Vị trí của điểm cho biết sự tương tự (similarities) giữa dòng, sự tương tự giữa cột và sự kết hợp (association) giữa dòng và cột bảng Bản đồ sau cho ta biết sự tương tự giữa Brands với sự tương tự giữa Regions với và sự kết hợp giữa Brands và Regions Trong ví dụ này, bản đồ mà CA sinh cho thấy Brand A và Region được đặt rất gần bản đồ và gần trục F1, điều đó cho biết có một sự kết hợp mạnh mẽ giữa Brand A với Region Nói cách khác Region sử dụng chủ yếu kem đánh Brand A (Điều này rõ ràng vì Contingency table 75% người sử dụng kem đánh Brand A thuộc Region 3) Tương tự, Brand B được đặt gần Region Brand C và D được đặt gần Region nói Brand B được tiêu thụ chủ yếu ở Region Brand C và D được tiêu thụ chủ yếu ở Region 4.2.6 Đánh giá chất lượng bản đồ Để đánh giá chất lượng của việc biểu diễn trực quan bản đồ điểm, người ta dựa vào phần trăm inertia mà trục giải thích được Tiêu chí để đánh giá là: Tổng tích lũy của (hay n chiều đầu tiên) giải thích được phần trăm của inertia càng cao thì chất lượng biểu diễn càng cao Nhóm Page 19 Correspondence Analysis- CA Trong ví dụ này, trục giải thích 100% inertia (trục thứ nhất giải thích 61.8% và trục thứ giải thích 38.2% của inertia) Xem hình KẾT LUẬN Phân tích tương ứng được áp dụng rất rộng rãi rất nhiều lĩnh vực phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,… CA cho phép phát hiện tri thức tiềm ẩn khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ điểm) Một điều quan trọng nữa là tri thức phát hiện được rất dễ hiểu và dễ sử dụng Có rất nhiều công cụ cho phép triển khai CA SPSS, XLMINER, … XLSTAT triển khai CA trực tiếp từ Spreadsheet của Excel và hỗ trợ cho việc biểu diễn trực quan kết quả phân tích CA bản đồ rất mạnh giúp dễ dàng phát hiện tri thức hữu ích từ dữ liệu Nhóm Page 20 [...].. .Correspondence Analysis- CA (9 ) Tổng quán tính của một bảng được sử dụng để đánh giá chất lượng của đại diện đồ họa của nó trong phân tích tương ứng Để tham khảo trong tương lai, chúng ta có thể tính toán ɸ2 cho dữ liệu của chúng ta Nhóm 9 Page 11 Correspondence Analysis- CA CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC... HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUA Giới thiệu một số phần mền thông dụng 4.1 Trong phương pháp phân tích tương ứng CA có khá nhiều phần mềm hỗ trợ nhằm giảm bớt các công đoạn tính toán và giúp hiện thị kết quả thuận tiện hơn cho người phân tích Sau đây là một số phần mềm hỗ trợ phân tích: Phần mềm SPSS (viết tắt của Statistical Package for the Social Sciences) là... đánh giá là: Tổng tích lũy của 2 (hay n chiều đầu tiên) giải thích được phần trăm của inertia càng cao thì chất lượng biểu diễn càng cao Nhóm 9 Page 19 Correspondence Analysis- CA Trong ví dụ này, 2 trục giải thích 100% inertia (trục thứ nhất giải thích 61.8% và trục thứ 2 giải thích 38.2% của inertia) Xem hình trên KẾT LUẬN Phân tích tương ứng được áp dụng... Region 3) được điều tra ngẫu nhiên từ 120 người như sau: Nhóm 9 Page 12 Correspondence Analysis- CA Tota Region 1 Region 2 Region 3 l 5 5 15 15 40 5 25 5 5 40 30 5 5 0 40 40 35 25 20 120 Brand A Brand B Brand C Brand D Total Sau khi khởi động XLSTAT và chọn biểu tượng Correspondence Analysis Chọn vùng dữ liệu để phân tích và bấm OK để thực hiện CA Vấn đề quan trọng là giải thích kết quả... thích các chiều (các trục - axis) Phần này phân tích sự đóng góp của các dòng và cột và việc xác định các chiều của không gian biểu diễn Đóng góp của các dòng (trong trường hợp này là 4 nhãn hiệu kem đánh răng) Kết quả sinh ra bởi CA như sau: Contributions (rows): Weight (relative) Nhóm 9 Page 16 F1 F2 Correspondence Analysis- CA 0.62 0.01 Brand A 0.333 6 0.07 5 0.63... cho các dòng (rows) và các cột (columns) của bảng Vị trí của các điểm cho biết sự tương tự (similarities) giữa các dòng, sự tương tự giữa các cột và sự kết hợp (association) giữa dòng và cột trong bảng Bản đồ sau đây cho ta biết sự tương tự giữa các Brands với nhau cũng như sự tương tự giữa các Regions với nhau và sự kết hợp giữa các Brands và các Regions Trong... 16.7% 100% Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table Bước đầu tiên trong phân tích CA là kiểm định giả thuyết về sự phụ thuộc giữa các dòng và các cột trong bảng dữ liệu ban đầu Nhóm 9 Page 14 Correspondence Analysis- CA CA tự động kiểm tra mối qua hệ này Với dữ liệu trong ví dụ trên, kết quả kiểm định giả thuyết... dữ liệu từ Contingency table ban đầu 4.2.1 Rows and Column Profile Nhóm 9 Page 13 Correspondence Analysis- CA Kết quả cuối cùng của CA là bản đồ các điểm (Map of Points), trong đó mỗi hàng (row) và mỗi cột (column) được biểu diễn thành 1 điểm trong bản đồ Profile được tính là tần suất tương đối của các dòng (Rows profile) và các cột (Columnsprofile) trong Contingency... của một brand càng khác biệt so với tâm (centroid – trung bình của các profile) thì nó sẻ nằm càng xa gốc tọa độ (origin) Tương tự, ví trí của các cột (trong trường hợp này là các Regions) được biểu diễn như sau Nhóm 9 Page 18 Correspondence Analysis- CA Phát hiện các kết hợp giữa các hàng và cột (trong ví dụ này là giữa các nhãn hiệu kem đánh răng và các khu... hình trên KẾT LUẬN Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,… CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm) Một điều quan trọng nữa là các tri thức phát

Ngày đăng: 18/05/2016, 11:12

Mục lục

  • PHƯƠNG PHÁP CORRESPONDENCE ANALYSIS (CA)

  • CHƯƠNG 1: GIỚI THIỆU CHUNG

  • CHƯƠNG 2: ĐẶC ĐIỂM DATA/ DỮ LIỆU CẦN PHÂN TÍCH

    • 2.1. Một số khái niệm cơ bản

    • 2.2. Đặc điểm dữ liệu đầu vào (input)

    • CHƯƠNG 3: CÁCH BỐ TRÍ DỮ LIỆU TRONG DATA

      • 3.1. Cách bố trí dữ liệu đầu vào trong bảng dự phòng

      • CHƯƠNG 4: PHẦN MỀN HỖ TRỢ VÀ CÁCH ĐỌC KẾT QUẢ

        • 4.1. Giới thiệu một số phần mền thông dụng

        • 4.2. Phần mềm XLSTAT

          • 4.2.1. Rows and Column Profile

          • 4.2.2.  Kiểm định sự phụ thuộc giữa các dòng (rows) và cột (columns) trong Contingency Table

          • 4.2.3. Xác định số chiều của không gian dùng để biểu diễn các điểm

          • 4.2.4. Giải thích các chiều (các trục - axis)

          • 4.2.5. Biểu diễn trực quan bằng bản đồ kết quả CA

          • 4.2.6. Đánh giá chất lượng của bản đồ

          • KẾT LUẬN

Tài liệu cùng người dùng

Tài liệu liên quan