nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược sau đó áp dụng các phương pháp hồi quy tuyến tính bội

30 0 0
Tài liệu đã được kiểm tra trùng lặp
nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược sau đó áp dụng các phương pháp hồi quy tuyến tính bội

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOAĐẠI HỌC QUỐC GIA TP HCM

Trang 2

BÁO CÁO PHÂN CÔNG NHIỆM VỤ VÀ KẾT QUẢ THỰCHIỆN ĐỀ TÀI CỦA TỪNG THÀNH VIÊN NHÓM 12:

lượng mô hình hồi quy bội- Phương

Trang 4

MỤC LỤC:

Phần 1 Tóm tắt đề tài

1 Mục tiêu nghiên cứu……… 4

Phần 2 Cơ sở lý thuyết 1.Hồi quy tuyến tính……… 4

2.Mô hình hồi quy bội……… …5

2.1 Định nghĩa……… 5

2.2 Mục đích hồi quy tuyến tính bội……….….5

3.Các dạng mô hình hồi quy tuyến tính bội……… …… 5

4.Phương pháp ước lượng mô hình hồi quy bội- Phương pháp bình phương nhỏ nhất (OLS)……… …… 6

5.Hệ số xác định bội R2 và hệ số xác định hiệu chỉnh……….…… 7

6.Hệ số hồi quy……… 8

6.1 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F……….8

6.2 Ước lượng khoảng cho hệ số hồi quy……… 8

6.3 Kiểm định giả thiết cho các hệ số hồi quy……… ……….9

6.4 Dự báo mô hình hồi quy tuyến tính bội……… 9

Phần 3.Thực hiện xử lý số liệu……….……10

1 Hoạt động 1 1.1 Đọc dữ liệu (import data) 1.2 Làm sạch dữ liệu (Data cleaning) 1.3 Làm rõ dữ liệu (Data visualization) 1.4 Xây dựng mô hình hồi quy tuyến tính để nghiên cứu tác động của các yếu tố khác nhau ảnh hưởng đến số lượng hành khách nghành hàng không, chẳng hạn như thời gian trong năm hoặc trong ngày, giá vé hoặc số lượng chuyến bay do một hãng hàng không cung cấp 1.5 Thực hiện xu hướng lựa chọn nghành hàng không của khách hàng Phần 4 Tài liệu tham khảo……… ………28

Trang 5

PHẦN NỘI DUNG

Phần 1 Tóm tắt đề tài

1 Mục tiêu nghiên cứu

Ở hoạt động 1, bản báo cáo trình bày việc áp dụng phương pháp phân tích hồi quy tuyến tính bội vào việc phân tích mẫu dữ liệu là tập tin “Air_Traffic_Passenger_Statistics.csv” chứa thông tin về số liệu hành khách lưu thông của hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và đến Nó cũng bao gồm thông tin về hoạt động, loại giá, nhà ga, khu vực lên máy bay và số lượng hành khách Từ kết quả thu được rút ra những nhận xét về tác động của các thuộc tính đó đối với sự thay đổi về số lượng hành khách nghành hàng không Để thu được kết quả phân tích, nhóm đã sử dụng các hàm cơ bản của ngôn ngữ lập trình R và vận dụng linh hoạt giải quyết từng nhiệm vụ cụ thể đặt ra Kết quả thu được trình bày dưới dạng bảng số liệu tính toán hoặc đồ thị cung cấp một cái nhìn trực quan về khảo sát nhằm so sánh, đối chiếu giữa ảnh hưởng của các yếu tố khác nhau dẫn đến sự thay đổi về nhu cầu nghành hàng không của khách hàng Trong bản báo cáo này, trước hết nhóm sẽ nêu cơ sở lý thuyết và tính toán các giá trị thống kê mô tả để có một cái nhìn sơ lược, sau đó áp dụng các phương pháp hồi quy tuyến tính bội.

1 Hồi quy tuyến tính

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập Mô hình với một biến phụ thuộc với hai hoặc nhiều biến độc lập đước gọi là hồi quy bội (hay còn gọi là hồi quy đa biến) Ví dụ: Chỉ tiêu của hộ gia đình về thực

Trang 6

phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đàu người, trình dộ giáo dục, ; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm, độ tuổi,…

2 Mô hình hồi quy bội 2.1 Định nghĩa

Hồi quy là một mô hình thống kê được sử dụng để dự đoán giá trị của biến phụ thuộc (dependence variable) hay còn gọi là biến kết quả dựa vào những giá trị của ít nhất 1 biến độc lập (independence variable) hay còn gọi là biến nguyên nhân Nếu mô hình hồi quy phân tích sự phụ thuộc của 1 biến phụ thuộc vào 1 biến độc lập gọi là hồi quy đơn, nếu có nhiều biến độc lập gọi là hồi quy bội Hồi quy tuyến tính là mô hình hồi quy trong đó mối quan hệ giữa các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp nhất với dữ liệu) Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến tính bội Thuật ngữ tuyến tính dùng để chỉ các bản chất của các thông số của tổng thể là tuyến tính (bậc nhất) Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục.

2.2 Mục đích hồi quy tuyến tính bội

Mục tiêu của giải thuật hồi quy tuyến tính là dự đoán giá trị của một hoặc nhiều biến mục tiêu liên tục (continuous target variable) Y dựa trên một véc-tơ đầu vào X Về cơ bản thì ta sẽ có một tập huấn luyện chứa các cặp X, Y tương ứng và nhiệm vụ của ta là phải tìm giá trị Y ứng với một đầu vào X mới Để làm điều này ta cần tìm được quan hệ giữa X và Y để từ đó đưa ra được dự đoán Hay nói cách trừu tượng hơn là ta cần vẽ được một đường quan hệ thể hiện mối quan hệ trong tập dữ liệu.

3.Các dạng mô hình hồi quy tuyến tính bội a Dạng quan sát của mô hình

Yi=β12X2i+β3X3 i+ βkXki+εi∀i , i=1,2 , n Trong đó

Trang 7

Yi, X2 i, X3 i, , Xkilà các quan sát thứ i của Y , X2, X3, , Xkβ1 là hệ số chặn (hệ số tự do)

β23, , βklà các hệ số hồi quy riêng hay còn gọi là hệ số của các biến số độc lập

εi là sai số ngẫu nhiên có kì vọng 0 và phương sai là σ2

Mục tiêu: ước lượng những tham số β1, β2, , βk

b Dạng ma trận của mô hình

Trong đó: Y là n-vector quan sát

β là p vector các hệ số hồi quy ε là n vector sai số ngẫu nhiên

4.Phương pháp ước lượng mô hình hồi quy bội- Phương pháp bình phương nhỏ nhất (OLS)

Ta đặt: Yi kí hiệu giá trị thực của biến y tại quan sát Ŷi kí hiệu giá trị của hàm hồi quy mẫu εi kí hiệu Yi−Ŷi

Với các giả thuyết, cần dựa vào dữ liệu (Yi, X2i, X3i, Xki),(i=1,n)

quan sát để tìm được ước lượng vecto hệ số

β=(β1, β2, ,βk)T của mô hình quy bội

Trang 8

Kí hiệu: ^β=(^β1, ^β2, , ^βk)Tlà ước lượng của β, khi đó ta có phương trình hồi quy mẫu ^Yi= ^β1+^β2X2i+ ^β3X3i+ + ^βkXki+^ε(i=1,n)

+)Ta cần tìm hệ số 12, , βk)sao cho tổng các phần dư ∑

Trong mô hình hồi quy bội có tính chất như sau Đường hồi quy bội đi qua điểm (Y , X2, X3, , Xk)

Tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng Đo

i=1n

(Yi−Y )2

Tổng bình phương các phần dư (các sai số) giữa các giá trị quan sát Y

i=1n

(Yi−Y )2

bội kí hiệu: R2được xác định bởi công thức R2=SSR

SST=1−SSESST

Tính chất của hệ số xác định R2 có tính chất sau 0≤ R2≤ 1

Trang 9

-Nếu số biến độc lập càng tăng thì hệ số R2 càng lớn, hay nói cách khác R2

là một hàm tăng theo biến giải thích

Tính phù hợp của mô hình hồi quy tăng lên khi có nhiều biến giải thích trong mô hình Tuy nhiên người ta luôn muốn dùng một số lượng biến giải thích vừa đủ sao cho vẫn có được mô hình phù hợp mà không quá tốn kém khi phải thu thập thông tin của nhiều biến giải thích Hơn nữa nhiều khi đưa thêm một số biến độc lập vào mô hình thì tác động riêng phần của các biến độc lập đó tới biến phụ thuộc thạt sự không có ý nghĩa thống kê.Cần có tiêu chuẩn đánh giá sự phù hợp của mô hình, trong đó có cân nhắc đến số lượng biến giải thích của mô hình Một trong số các tiêu chuẩn như vậy là hệ số xác định hiệu chỉnh R2 của R2

R2=1−(1−R2) (n−1)(n−k)

R2 có các tính chất như sau Nếu k>1thì R2≤ R2≤ 1

R2≥0 nhưng R2có thể âm Khi R2nhận giá trị âm thì để cho tiện đường người ta lại gán cho nó giá trị bằng 0

6.Hệ số hồi quy

6.1 Quan hệ giữa hệ số xác định và tiêu chuẩn kiểm định F

Trong mô hình quy bội Yi=β12X2i+β3X3i+ βkXki+εi∀i ,i=1,2 , nMô hình được gọi là không có hiệu lực giải thích, hay nói cách khác không giải thích được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng bằng không Vì vậy để kiểm định sức mạnh hay mức ý nghĩa của mô hình ta cần kiểm định bài toán sau:

Khi giả thuyết thống kê F có phân phối Fisher với k-1 và n-k bậc tự do Vậy với mức ý nghĩa α ta có quy tắc kiểm định:

Thống kê F cũng là tiêu chuẩn thống kê cho bài toán kiểm định 6.2 Ước lượng khoảng cho hệ số hồi quy

Trang 10

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1,β2, ,βk mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy, cần phải biết phân bố xác suất của β1,β2, ,βk Các phân bố này phụ thuộc vào phân bố của các εi

Với các giả thuyết OLS, εi có phân phối N(0,σ2) Các hệ số ước lượng tuân theo phân phối chuẩn:

^βjN (βj,Se(^βj))

Se(^β¿¿j) T (n−k)¿

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu Trong đó: k là số hệ số có trong phương trình hồi quy đa biến:

2∑εi2 n−k

ứng với mức ý nghĩa α/2 Khoàng tin cậy 1-α của βj là:

6.3 Kiểm định giả thiết cho các hệ số hồi quy

Tiêu chuẩn kiểm định: ti=βi-β*i

6.4 Dự báo mô hình hồi quy tuyến tính bội

Trang 11

Một trong những ứng dụng quan trọng của hồi quy là dự báo, bài toán đặt ra là dựa vào mô hình hồi quy hãy dự báo giá trị của Y khi biết giá trị của X là X* Xét mô hình hồi quy:

https://www.kaggle.com/datasets/thedevastator/airlines-traffic-passenger-statistics/data chứa thông tin về số liệu thống kê hành khách không lưu của hãng hàng không Nó bao gồm thông tin về các hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và cũng bao gồm thông tin về loại hoạt động, loại giá, nhà ga, khu vực lên máy bay từ đó đánh giá, xây dựng mô hình dự đoán cho số lượng hành khách lên máy bay

2 Thực hiện:

(a) Tìm hiểu thông tin dữ liệu - Các biến có trong bộ dữ liệu:

Operating Airline

Published Airline

Trang 12

Price Category Code The price category of the fare (String)

Adjusted Activity

Adjusted Passenger

(b) Đọc dữ liệu và xóa bỏ các dữ liệu không cần thiết và chuyển các giá trị

Trang 13

for (cot in cac_cot_dinh_tinh) {

1) Thống kê các định lượng: Tính các giá trị thống kê mô tả ( trung bình, độ lệch chuẩn, trung vị, max, min, Q1 và Q3) cho các biến Xuất kết quả dưới

Trang 14

2) Trực quan hóa dữ liệu và nhận xét về phân bố các biến:

hist(du_lieu$Operating.Airline,xlab="Operating.Airline",main="Histogram of Operating.Airline",ylim=c(0,3500),col="blue",labels=T)

hist(du_lieu$Published.Airline,xlab="Published.Airline",main="Histogram of Published.Airline",ylim=c(0,4000),col="blue",labels=T)

Trang 15

hist(du_lieu$GEO.Summary,xlab="GEO.Summary",main="Histogram of GEO.Summary",ylim=c(0,10000),col="blue",labels=T)

hist(du_lieu$GEO.Region,xlab="GEO.Region",main="Histogram of GEO.Region",ylim=c(0,10000),col="blue",labels=T)

Trang 16

hist(du_lieu$Price.Category.Code,xlab="Price.Category.Code",main="Histog ram of Price.Category.Code",ylim=c(0,20000),col="blue",labels=T)

hist(du_lieu$Terminal,xlab="Terminal",main="Histogram of Terminal",ylim=c(0,20000),col="blue",labels=T)

Trang 20

plot(Passenger.Count~GEO.Region,data=du_lieu,xlab="GEO.Region",ylab= "Passenger.Count",main="Plot of Passenger.Count and GEO.Region

",col="blue")

Trang 23

Nhận xét:

+ Nhìn vào biểu đồ histogram, ta thấy đa số các biến không có phân phối chuẩn do đồ thị bị

lệch về một bên hoặc không có dạng hình chuông.

+ Dựa vào biểu đồ phân tán (plot), ta thấy có rất nhiều điểm chưa tập trung thành một vệt thẳng Điều này thể hiện mối tương quan tuyến tính chưa rõ giữa các biến được vẽ.

(e) Xác định mối quan hệ giữa độ nhám và các biến giải thích/ dự báo - Xét mô hình hồi quy tuyến tính gồm biến Passenger.Count là biến phụ thuộc và các biến còn lại là biến độc lập:

model_1<-

lm(Passenger.Count~Operating.Airline+Published.Airline+GEO.Summary+ GEO.Region+ Price.Category.Code+Terminal+Boarding.Area,data=du_lieu) summary(model_1)

Trang 24

- Từ kết quả thu được ta có đường thẳng hồi quy ước lượng bởi phương trình: Residuals (sai số hồi quy): là khoảng chênh lệch giữa giá trị thực tế và giá trị dự báo tìm được từ phương trình hồi quy Ta lấy lần lượt các giá trị thực nghiệm của các biến độc lập thay vào phương trình hồi quy để tính được giá trị price dự báo Tiếp theo ta lấy giá trị price thực tế trừ đi giá trị price dự báo ở từng quan sát sẽ thu được sai số hồi quy Dựa vào dữ liệu thống kê, ta thấy có tổng cộng 501 quan sát nên sẽ có 501 sai số hồi quy ứng với mỗi quan sát

R2 và R2 hiệu chỉnh: R2 = 0.253 ; R2 hiệu chỉnh =0.2526 Chúng đều có cùng ý nghĩa giải thích sự biến thiên của một biến phụ thuộc bởi bao nhiêu % từ sự biến thiên các biến độc lập Từ kết quả phân tích ta thấy giá trị R2 = 0.253 Nghĩa là trong 100% sự biến thiên của biến roughness thì có 25,3% nguyên nhân là do các biến độc lập gây nên Và 74,7% còn lại là do các yếu tố như sai số hồi quy hoặc các biến độc lập khác chưa đưa vào mô hình.

- Các biến độc lập có p-value < 0,05 nên có giá trị thống kê - Ta thu được mô hình hồi quy:

Passenger.Count = -988.20xOperating.Airline + 1389.35xPublished.Airline

Trang 25

lập Ví dụ, nếu các biến độc lập = 0, biến phụ thuộc Passenger.Count

= intercept = 41466.54

- Hệ số của biến độc lập giải thích cho mức độ ảnh hưởng của sự biến thiên của biến độc lập

Passenger.Count có thể giảm 42838.09 đơn vị.

g) Kiểm định các giả định của mô hình bằng đồ thị phần dư:

Các giả định của mô hình hồi quy: Yi = β0 + X1B1 + + XiBi , i = 1, n

Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y được giả sử là tuyến tính.Các sai số có kì vọng bằng 0.Phương sai

của các sai số là hằng số - Sai số có phân phối chuẩn - Các sai số ε1, ,εn

thì độc lập với nhau Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình Các giả định bao gồm:

- Giả định 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến độc lập và biến phụ thuộc được giả sử là tuyến tính.

- Giả định 2: Sai số có phân phối chuẩn.

- Giả định 3: Phương sai của các sai số là hằng số và có kì vọng bằng 0 - Giả định 4: Các sai số độc lập với nhau

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:

plot(model_1)

Trang 28

*Nhận xét:

- Đồ thị thứ 1 (Residuals vs Fitted) vẽ các giá trị sai số hồi quy tương ứng với các giá trị dự báo, dùng để kiểm tra 3 giả định: tính tuyến tính của dữ liệu (giả định 1), phương sai các sai số là hằng số và có kỳ vọng bằng 0 (giả định 3) Nhìn đồ thị ta thấy đường màu đỏ là đường nằm ngang nên (giả định 1) Y có quan hệ tuyến tính với các biến độc lập thỏa mãn Đường màu đỏ chưa nằm sát đường Y=0 và các điểm sai số chưa phân tán đều đường Y=0 nên ( giả định 3 ) phương sai của sai số là hằng số và có kỳ vọng =0 chưa được thỏa mãn.

- Đồ thị thứ 2 (Normal Q-Q) cho phép kiểm tra giả định về phân phối chuẩn của các sai số Ta thấy có nhiều điểm sai số không nằm trên đường kì vọng phân phối chuẩn Nên (giả định 2) sai số có phân phối chuẩn là chưa được thỏa mãn

- Đồ thị thứ 3 (Scale - Location) vẽ căn bậc hai của các giá trị thặng dư được chuẩn hóa với các giá trị dự báo, được dùng để kiểm tra giả định thứ 3 (phương sai của các sai số là hằng số) và giả định 4 Nếu như đường màu đỏ trên đồ thị là đường thẳng nằm ngang và các điểm thặng dư phân tán đều xung quanh đường thẳng này thì giả định thứ 3 và 4 được thỏa Nếu như đường màu đỏ có độ dốc (hoặc cong) hoặc các điểm thặng dư phân tán không đều xung quanh đường thẳng này, thì giả định thứ 3 và 4 bị vi phạm Ta thấy rằng các giá trị sai số trong đồ thị không phân tán đều xung quanh và đường màu đỏ nằm dốc nên giả định về phương sai của các sai số là hằng số không được thỏa mãn và giả định các sai số độc lập với nhau là không thỏa mãn - Đồ thị thứ 4 (Residuals vs Leverage) cho phép xác định những điểm có ảnh hưởng cao trong bộ dữ liệu, ta thấy không có điểm nào vượt ra khỏi đường Cook’s distance nên không cần phải loại bỏ điểm nào hết

Giá trị p-value của mô hình < 2.2e-16 cho thấy mô hình hồi quy khá tốt Tuy nhiên, mô

hình vi phạm một số giả định nên kết quả mà mô hình dự đoán có thể không

dùng mô hình này để giải thích sự thay đổi về độ che phủ rừng của từng loại

của các thông số đến lượng khách hàng đi máy bay, là một công cụ hữu ích để hiểu ngành hàng không và lập kế hoạch du lịch có thể được sử dụng để tạo ra bản đồ nhiệt về mô hình giao thông hàng không, cũng như được sử dụng để nghiên cứu tác động của các yếu tố khác nhau đến số lượng hành khách giao thông hàng không, chẳng hạn như thời gian trong năm hoặc ngày, giá vé máy bay hoặc số lượng chuyến bay do một hãng hàng không cung cấp.

Phần 4 Tài liệu thám khảo

Ngày đăng: 01/05/2024, 08:28

Tài liệu cùng người dùng

Tài liệu liên quan