Tìm hiểu mô hình arima phân tích dữ liệu y tế chuỗi thời gian

74 2 0
Tìm hiểu mô hình arima phân tích dữ liệu y tế chuỗi thời gian

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khái niệm về chuỗi thời gian Chuỗi thời gian là một tập hợp các giá trị được ghi nhận tại các thời điểm khác nhau, có thể được sử dụng để mô tả các biến đổi theo thời gian.. Hình 5 Sơ đồ

Trang 1

Qua quá trình học tập và nghiên cứu, được sự giúp đỡ nhiệt tình của các thầy cô giáo trường Đại học Công nghệ thông tin và truyền thông Thái Nguyên, Khoa Công nghệ thông tin, Phòng Đào tạo, tôi đã hoàn thành chương trình học tập và

nghiên cứu luận văn với đề tài “Tìm hiểu mô hình ARIMA phân tích dữ liệu y tế chuỗi thời gian”

Tôi xin chân thành cảm ơn các thầy cô giáo trường Đại học Công nghệ thông

tin và Truyền thông Đại học Thái Nguyên đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập, nghiên cứu và hoàn thành luận văn

Xin cảm ơn sự quan tâm, giúp đỡ chu đáo của Hội đồng khoa học, Ban Chủ nhiệm Khoa Công nghệ thông tin và các thầy cô giáo Phòng Đào tạo trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi và góp nhiều ý kiến quý báu cho luận văn

Tôi xin trân trọng bày tỏ lòng biết ơn sâu sắc tới: TS Trần Quang Quý - người Thầy đã tận tình hướng dẫn, chỉ bảo, động viên tôi trong suốt quá trình thực hiện luận văn, bổ sung cho tôi nhiều kiến thức chuyên môn và những kinh nghiệm quý báu trong nghiên cứu

Cuối cùng, tôi xin bày tỏ lòng biết ơn và chia sẻ thành quả nhỏ bé này với tất cả những người thân trong gia đình tôi, bè bạn đã luôn động viên, giúp đỡ, tạo những điều kiện tốt nhất để tôi hoàn thành tốt chương trình học tập và thực hiện thành công luận văn này

Thái Nguyên, ngày 24 tháng 6 năm 2023

Nguyễn Văn Cường

Trang 2

LỜI CAM ĐOAN

Tôi tên là: Nguyễn Văn Cường

Lớp: Cao học Khoa học máy tính K20

Tôi xin cam đoan đề tài luận văn thạc sỹ: “Tìm hiểu mô hình ARIMA phân tích dữ liệu y tế chuỗi thời gian” là do tôi thực hiện với sự hướng dẫn của TS Trần Quang

Quý Đây không phải là bản sao chép của bất kỳ một cá nhân, tổ chức nào Các số liệu, nguồn thông tin trong Luận văn là do tôi điều tra, trích dẫn và tham khảo

Tôi xin hoàn toàn chịu trách nhiệm về những nội dung mà tôi đã trình bày trong Luận văn này

Thái Nguyên, ngày 24 tháng 6 năm 2023

Người viết cam đoan

Nguyễn Văn Cường

Trang 3

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

LỜI MỞ ĐẦU 7

CHƯƠNG 1 : PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN 9

1.1 Khái niệm về chuỗi thời gian 9

1.2 Các thành phần của chuỗi thời gian 9

1.3 Tính chất của dữ liệu chuỗi thời gian 11

1.4 Tính dừng của dữ liệu chuỗi thời gian 14

1.4.1 Tính dừng 14

1.4.2 Kiểm tra tính dừng chuỗi thời gian 15

1.4.3 Biến đổi chuỗi không dừng thành chuỗi dừng 17

1.5 Các chỉ số liên quan: Tự tương quan và tương quan chéo 18

1.6 Hồi quy cổ điển trong chuỗi thời gian 21

2.2 Các mô hình tự hồi quy AR 29

2.3 Mô hình trung bình trượt MA 31

2.4 Mô hình trung bình trượt và tự hồi quy ARMA 32

2.5 Mô hình trung bình trượt tự hồi quy ARIMA 33

2.6 Các bước phân tích dữ liệu chuỗi thời gian với mô hình ARIMA 35

CHƯƠNG 3: MÔ HÌNH ARIMA DỰ ĐOÁN DỮ LIỆU COVID-19 46

3.1 Giới thiệu dữ liệu Covid-19 46

Trang 4

3.2 Thu thập và tiền xử lý dữ liệu 47

3.3 Dữ liệu Covid-19 Việt Nam 52

3.4 Xây dựng mô hình ARIMA dự đoán 54

3.5 Dự đoán 57

TÀI LIỆU THAM KHẢO 63

PHỤ LỤC 65

Trang 5

Hình 1 Số liệu diễn biến cúm tại phía Nam châu Phi từ 2006-2015 9

Hình 2 Biểu diễn xu hướng giảm của dữ liệu 9

Hình 3 Biểu diễn thay đổi chuỗi theo từng khoảng 10

Hình 4 Biểu diễn chu kỳ chuỗi thời gian 10

Hình 5 Sơ đồ chuỗi với định lượng Y(t) diễn tiến theo thời gian t 11

Hình 6 Lợi nhuận hàng quý của Johnson & Johnson 12

Hình 7 Biểu đồ nhiệt độ toàn cầu qua các năm 12

Hình 8 Dữ liệu về tần số âm thanh 13

Hình 9 Dữ liệu chuỗi thời gian tài chính 14

Hình 10 Đồ thị ACF 17

Hình 11 Đồ thị PACF 17

Hình 12 Chuỗi có nhiễu trắng 19

Hình 13 Chuỗi được làm mịn 19

Hình 14 Trực quan dữ liệu toàn cầu 23

Hình 15 Giá cổ phiếu công ty Amazon sử dụng AR 29

Hình 16 Giá cổ phiếu Amazon sử dụng trung bình động 31

Hình 17 Các bước chính trong phương pháp Box-Jenkins 42

Hình 18 Miêu tả dữ liệu Covid-19 47

Hình 19 Tóm tắt các nước có số ca nhiễm nhiều nhất 47

Hình 20 Thống kê ca nhiễm và tử vong các nước có tỷ lệ cao 48

Hình 21 Biểu đồ tích lũy từ tháng 06/2020 đến tháng 01/2023 49

Hình 22 Biểu đồ Treemap theo các quốc gia 49

Hình 23 Tóm tắt số liệu vắc xin theo quốc gia 50

Hình 24 Biểu đồ tương quan giữa tỷ lệ tiêm vắc xin và quy mô dân số các quốc gia 50

Hình 25 Dữ liệu Covid thu được 51

Hình 26 Dữ liệu Covid sau khi tiền xử lý 51

Hình 27 Kiểm định dữ liệu 52

Hình 28 Trực quan dữ liệu Covid-19 tại Việt Nam từ 02/2022 đến 04/2023 53

Hình 29 Tách dữ liệu từ 02/2022-05/2022 53

Trang 6

Hình 30 Các biểu đồ ACF và PACF 54

Hình 31 Kết quả dự đoán 57

Hình 32 Biểu đồ so sánh giá trị thực tế và dự đoán 58

Hình 33 Dự đoán với dữ liệu Ấn Độ 59

Hình 34 Dự đoán với dữ liệu Brazil 59

Hình 35 Kết quả dự đoán 73

Trang 7

Chuỗi thời gian là một lĩnh vực quan trọng trong phân tích dữ liệu, đặc biệt là trong lĩnh vực dự báo và dự đoán Việc nghiên cứu và xây dựng mô hình chuỗi thời gian có vai trò quan trọng trong việc hiểu và dự đoán sự biến động của các hiện tượng theo thời gian

Trong toán học, dữ liệu chuỗi thời gian được định nghĩa là những điểm dữ liệu đã được đánh chỉ số theo thời gian và có khoảng cách đều nhau giữa những quan sát liên tiếp Đó có thể là dữ liệu về giá chứng khoán hàng ngày, tổng thu nhập quốc dân của một quốc gia hàng năm, tổng doanh số công ty hàng quí,…

Ưu điểm của chuỗi thời gian là nó có thể lưu trữ được trạng thái của một trường dữ liệu theo thời gian Trong khi đó thế giới luôn vận động, các sự vật, hiện tượng hiếm khi dừng lại ở trạng thái tĩnh mà thường thay đổi Do đó dữ liệu chuỗi thời gian có tính ứng dụng rất cao và được áp dụng trong rất nhiều lĩnh vực khác nhau như: thống kê, kinh tế lượng, toán tài chính, dự báo thời tiết, dự đoán động đất, điện não đồ, kỹ thuật điều khiển, thiên văn, kỹ thuật truyền thông, xử lý tín hiệu

Mô hình ARIMA có tên tiếng Anh là Autoregressive Integrated Moving Average, đây là mô hình quan trọng trong việc phân tích và sử dụng để dự đoán dữ liệu chuỗi thời gian Mô hình này lần đầu tiên được đưa ra bởi Box & Jenkins (1970) ARIMA được kết hợp bởi 3 thành thành phần chính: AR (thành phần tự hồi quy), I (tính dừng của chuỗi thời gian) và MA (thành phần trung bình trượt) Theo Gujarati (2004), để ước lượng mô hình ARIMA ta cần đi qua 4 bước chính sau:

Bước 1: Nhận dạng mô hình

Bước 2: Ước lượng các tham số và lựa chọn mô hình Bước 3: Kiểm định mô hình

Bước 4: Dự báo

Trong bối cảnh đại dịch Covid-19 đang lan rộng trên toàn thế giới, việc dự đoán số ca nhiễm là một vấn đề cấp bách và có tính thiết yếu Nội dung quyển luận văn này nhằm mục đích trình bày quá trình nghiên cứu và xây dựng mô hình ARIMA để dự đoán số ca nhiễm COVID-19 tại Việt Nam Trong đó sẽ sử dụng các dữ liệu về

Trang 8

số ca nhiễm đã ghi nhận trong quá khứ để xây dựng mô hình và tiến hành dự đoán số ca nhiễm trong tương lai Từ việc phân tích mô hình, thu thập dữ liệu và đưa ra các nhận xét sẽ rút ra được cái nhìn tổng quan về xu hướng của dữ liệu, từ đó đưa ra được các khuyến nghị Dữ liệu đang đề cập ở đây là dữ liệu Covid-19, một dạng dữ liệu điển hình trong lĩnh vực y tế dự phòng

Trang 9

1.1 Khái niệm về chuỗi thời gian

Chuỗi thời gian là một tập hợp các giá trị được ghi nhận tại các thời điểm khác nhau, có thể được sử dụng để mô tả các biến đổi theo thời gian Các ví dụ về chuỗi thời gian bao gồm số lượng sản phẩm bán ra hàng tháng, giá cổ phiếu theo ngày, nhiệt độ theo giờ, và số lượng ca nhiễm Covid-19 hàng ngày

Hình 1 Số liệu diễn biến cúm tại phía Nam châu Phi từ 2006-2015

1.2 Các thành phần của chuỗi thời gian

Dữ liệu chuỗi thời gian có các thành phần cơ bản như: thành phần xu hướng; thành phần mùa (thời vụ); thành phần chu kỳ (dài hạn); các điểm bất thường và

ngẫu nhiên

Hình 2 Biểu diễn xu hướng giảm của dữ liệu

- Thành phần xu hướng: để chỉ xu hướng tăng hay giảm của dữ liệu y trong

chuỗi thời gian Thành phần xu hướng này thường được biểu diễn trên đồ thị bởi

Trang 10

một đường thẳng hay đường cong trơn Chuỗi dữ liệu không tồn tại thành phần xu hướng (tức là dữ liệu không tăng hoặc không giảm) thì chuỗi đó dừng theo giá trị trung bình

Hình 3 Biểu diễn thay đổi chuỗi theo từng khoảng

- Thành phần mùa (thời vụ): để chỉ chiều hướng tăng hay giảm của giá trị y

được tính theo giai đoạn thời gian (khoảng thời gian ngắn) Ví dụ: số lượng trẻ em mắc các bệnh về hô hấp tăng lên vào dịp cao điểm rét đậm, rét hại ở nước ta

Hình 4 Biểu diễn chu kỳ chuỗi thời gian

- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi

thời gian xoay quanh xu hướng Thường trong chuỗi dữ liệu dài hạn thì khó đoán chu kì

Trang 11

ngẫu nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường không dự đoán được sự thay đổi của dữ liệu Những tác động gây ra sự thay đổi dữ liệu thường do các yếu tố bên ngoài tác động

Hình 5 Sơ đồ chuỗi với định lượng Y(t) diễn tiến theo thời gian t

Theo Hình 5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại thời điểm t, qua đó ta có thể xác định được các mô hình sau:

- Mô hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝐼𝑡 - Mô hình nhân: 𝑌𝑡 = 𝑇𝑡𝑆𝑡 𝐶𝑡𝐼𝑡

Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular)

Nếu thành phần chu kỳ và mùa không ảnh hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mô hình cộng, ngược lại mô hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ

1.3 Tính chất của dữ liệu chuỗi thời gian

Tính chất của dữ liệu chuỗi thời gian có thể được hiểu rõ hơn thông qua việc xem xét các ví dụ thực tế từ các lĩnh vực khác nhau Dưới đây là một ví dụ về lợi nhuận hàng quý của công ty Johnson & Johnson:

Ví dụ 1.1: Lợi nhuận hàng quý của Johnson & Johnson

Trang 12

Hình 6 thể hiện biểu đồ lợi nhuận hàng quý mỗi cổ phiếu của công ty Johnson & Johnson, được cung cấp bởi Giáo sư Paul Griffin từ Trường Quản lý Đại học California Dữ liệu này bao gồm 84 quý (tương đương 21 năm) từ quý đầu tiên của năm 1960 đến quý cuối cùng của năm 1980 Mục tiêu là xây dựng mô hình cho chuỗi thời gian bằng cách quan sát các mẫu chính trong quá khứ Trong trường hợp này, chúng ta có thể nhận thấy xu hướng chung tăng dần và sự biến động đều đặn được thêm vào xu hướng, có vẻ như lặp lại qua các quý

Hình 6 Lợi nhuận hàng quý của Johnson & Johnson

Ví dụ 1.2: Sự nóng lên toàn cầu

Hình 7 Biểu đồ nhiệt độ toàn cầu qua các năm

Trang 13

2009 Dữ liệu được cập nhật từ nghiên cứu của Hansen và đồng nghiệp (2006) Qua biểu đồ, chúng ta có thể nhận thấy một xu hướng tăng đáng kể trong nhiệt độ toàn cầu trong giai đoạn cuối của thế kỷ 20, và điều này đã được sử dụng như một bằng chứng cho giả thuyết về nóng lên toàn cầu Chúng ta cũng có thể quan sát sự ổn định trong khoảng năm 1935, sau đó là một xu hướng tăng đáng kể khác vào khoảng năm 1970

Ví dụ 1.3: Dữ liệu tần số âm thanh

Hình 8 Dữ liệu về tần số âm thanh

Các ứng dụng trong khoa học vật lý đặt ra những câu hỏi phức tạp hơn Hình 8

hiển thị một mẫu âm thanh được ghi lại cho cụm từ aaa · · · hhh với thời lượng 0.1

giây (1000 điểm) Chúng ta có thể quan sát sự lặp lại của tín hiệu và các chu kỳ đều đặn khá rõ ràng Hiện nay, một vấn đề đang thu hút sự quan tâm là việc máy tính nhận dạng tiếng nói, và điều này đòi hỏi chuyển đổi tín hiệu cụ thể này thành các

cụm từ ghi lại như aaa · · · hhh Phân tích phổ có thể được sử dụng để tạo ra một

chữ ký cho cụm từ này, sau đó có thể được so sánh với các chữ ký của các âm tiết trong các thư viện khác nhau để tìm kiếm sự khớp nhau

Ví dụ 1.4: Sàn giao dịch chứng khoán New York

Trang 14

Hình 9 Dữ liệu chuỗi thời gian tài chính

Hình 9 là một ví dụ về dữ liệu chuỗi thời gian tài chính, mô tả sự thay đổi hàng ngày (hoặc phần trăm thay đổi) của Sàn giao dịch chứng khoán New York (NYSE) từ ngày 2 tháng 2 năm 1984 đến ngày 31 tháng 12 năm 1991 Trong hình vẽ, chúng ta dễ dàng nhận thấy sự sụp đổ của thị trường vào ngày 19 tháng 10 năm 1987 Dữ liệu trong hình 9 là một ví dụ điển hình cho các dữ liệu tài chính.Trung bình của chuỗi thời gian có vẻ ổn định với lợi suất trung bình xấp xỉ bằng không Tuy nhiên, sự biến động (hoặc độ lệch chuẩn) của dữ liệu thay đổi theo thời gian Thực tế là dữ liệu cho thấy sự tập trung của các chu kỳ biến động; có nghĩa là các giai đoạn có biến động mạnh sẽ có xu hướng tập trung lại với nhau Một vấn đề quan trọng trong phân tích dữ liệu tài chính như vậy là dự báo độ biến động của lợi suất trong tương lai Để giải quyết vấn đề này, đã phát triển các mô hình như mô hình ARCH và GARCH (Engle, 1982; Bollerslev, 1986) cũng như mô hình biến động ngẫu nhiên (Harvey, Ruiz và Shephard, 1994)

1.4 Tính dừng của dữ liệu chuỗi thời gian 1.4.1 Tính dừng

Dữ liệu chuỗi thời gian có thể được tạo ra từ một quá trình và kết quả của nó là tập dữ liệu theo thời gian Quá trình đó sinh ra một tập dữ liệu tổng thể và một tập hợp dữ liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu

mẫu Một tính chất quan trọng của dữ liệu chuỗi thời gian là tính dừng Một chuỗi

giá trị trên thời gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp

Trang 15

được coi là dừng khi thỏa mãn:

- 𝐶𝑜𝑣(𝑌𝑡, 𝑌𝑡+𝑘) = 𝐸[(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡 − 𝜇)] = 𝑌𝑘(∀𝑡) (3) Hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai giai đoạn

Hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ thời gian k giữa hai giai đoạn

1.4.2 Kiểm tra tính dừng chuỗi thời gian

1.4.2.1 Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian

Nếu đồ thị 𝑌 = 𝑓(𝑡) cho trung bình và phương sai của Yt không đổi theo thời gian thì chuỗi có tính dừng Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đoán rằng chuỗi là không dừng Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính dừng của chuỗi thời gian Tuy nhiên, với những chuỗi thời gian có xu hướng không rõ ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng

1.4.2.2 Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần

1.4.2.2.1 Sơ đồ tự tương quan ACF

Sử dụng dùng hàm tự tương quan ACF - Autocorelation Function, trong đó: độ trễ k ký hiệu bằng ρk, xác định bằng công thức như sau:

(4) Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k Hàm tự

Trang 16

tương quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k Ví dụ: ρ1 là hệ số tương quan giữa Yt và 1, ρi là hệ số tương quan giữa Yt và Yt-i Nếu vẽ đồ thị ρk với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF

1.4.2.2.2 Sơ đồ tự tương quan riêng phần PACF

Ta có hệ số tự tương quan ρk với 𝑘 ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và Yt+k Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số biến khác Trong trường hợp này là do ảnh hưởng từ các biến 1, …, Yt-k+1 Do vậy, ta sử dụng hàm tương quan PACF (Partial Autocorrelation Function) để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương quan riêng ρkk ước lượng theo công thức Durbin:

(5) Để kiểm tra sự tương quan giữa các giá trị của chuỗi, ta sử dụng đồ thị ACF (Autocorrelation Function) và PACF Đồ thị ACF thể hiện tương quan giữa các giá trị của chuỗi với các giá trị trước đó, còn đồ thị PACF thể hiện tương quan giữa các giá trị của chuỗi với các giá trị không phụ thuộc

Miêu tả nội dung này trong R như sau:

# Khai báo package stats

Trang 17

Hình 10 Đồ thị ACF

Hình 11 Đồ thị PACF

Trong ví dụ này, chúng ta sử dụng hàm ts() để tạo ra chuỗi thời gian x từ một vector giá trị Sau đó, chúng ta sử dụng hàm acf() và pacf() để vẽ đồ thị ACF và PACF cho chuỗi x Tham số main được sử dụng để đặt tiêu đề cho đồ thị Hàm par() được sử dụng để chia layout của đồ thị thành 2 hàng, 1 cột, giúp hiển thị hai đồ thị ACF và PACF trên cùng một trang

1.4.3 Biến đổi chuỗi không dừng thành chuỗi dừng

Với chuỗi thời gian ban đầu không có tính dừng, trước khi xây dựng mô hình ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với d = 1 hoặc d = 2,

Ta có công thức: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡, giá trị ut được gọi là nhiễu trắng (white noise)

Trang 18

Ta có công thức sai phân cấp 1 của 𝑌𝑡 như sau: 𝐷(𝑌𝑡) = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡, trong đó với 𝑢𝑡 là nhiễu trắng nên 𝐷(𝑌𝑡) là chuỗi dừng

Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì tiếp tục lấy sai phân cấp 2, 3… Có thể nói, luôn có một giá trị d để sai phân cấp d của Yt là chuỗi dừng Khi đó, Yt là liên kết bậc d, ký hiệu là I(d) Sai phân của cấp d được tính như sau:

+ Cấp 1: 𝐷(𝑌𝑡) = 𝑌𝑡 − 𝑌𝑡−1

+ Cấp 2: 𝐷(𝐷(𝑌𝑡)) = 𝐷2(𝑌𝑡) = (𝑌𝑡 − 𝑌𝑡−1) − (𝑌𝑡−1−𝑌𝑡−2) + Tương tự như vậy với sai phân cấp d: 𝐷(𝐷𝑑−1(𝑌𝑡))

Nếu Yt ở dạng logarit thì giá trị 𝐷(𝑌𝑡) là phần trăm thay đổi của Yt so với trước đó 1.5 Các chỉ số liên quan: Tự tương quan và tương quan chéo

Một mô tả đầy đủ của chuỗi thời gian, quan sát được dưới dạng một bộ gồm n biến ngẫu nhiên tại các điểm thời gian nguyên tùy ý t1, t2, , tn, cho bất kỳ số nguyên dương nào, được cung cấp bởi hàm phân phối liên hợp, được đánh giá là xác suất rằng các giá trị của chuỗi đều nhỏ hơn n hằng số c1, c2, , cn; tức là:

Tuy nhiên, việc viết hàm phân phối đa chiều thường không đơn giản trừ khi các biến ngẫu nhiên đó là đồng thời chuẩn Trong trường hợp đó, hàm mật độ xác suất liên hợp có thể được biểu diễn dễ dàng và đáng tin cậy

Mặc dù hàm phân phối liên hợp mô tả dữ liệu một cách đầy đủ, nó không phải là một công cụ dễ sử dụng để hiển thị và phân tích dữ liệu chuỗi thời gian Hàm phân phối ở trên phải được đánh giá như một hàm của n đối số, dẫn đến sự khó khăn trong việc biểu diễn đồ thị của các hàm mật độ đa biến tương ứng Do đó, việc sử dụng các hàm phân phối cục bộ có thể hữu ích trong trường hợp này

(6) hoặc các hàm mật độ xác suất đơn biến tương ứng

Trang 19

, (7) Khi chúng tồn tại, hàm phân phối riêng biệt tương ứng thường cung cấp thông tin hữu ích để xem xét hành vi riêng biệt của một chuỗi dữ liệu Một đại lượng mô tả đặc tính riêng biệt khác cũng rất hữu ích là hàm trung bình

Định nghĩa 1.1 Hàm trung bình được xác định như sau:

Ví dụ 1.6 : Hàm trung bình của một chuỗi

Nếu wt biểu diễn một chuỗi có nhiễu trắng, thì µwt = E(wt) = 0 cho tất cả các t

Hình 12 Chuỗi có nhiễu trắng

Hình 13 Chuỗi được làm mịn

Chuỗi trên cùng trong Hình 12 phản ánh điều này, vì chuỗi rõ ràng dao động quanh giá trị trung bình bằng không Việc làm mịn chuỗi như trong Hình 13 không thay đổi trung bình vì chúng ta có thể viết

Trang 20

(9)

Định nghĩa 1.2: Hàm tự hiệp phương sai được định nghĩa là tích phân của moment

thứ hai đối với mọi cặp giá trị s và t

(10)

Để không có sự nhầm lần về chuỗi thời gian chúng ta đang tham chiếu đến, chúng ta sẽ viết γ(s,t) thay vì γx(s,t) Lưu ý rằng γ(s,t) = γ(t,s) cho mọi điểm thời gian s và t Hàm tự hiệp phương sai đo lường mối quan hệ tuyến tính giữa hai điểm trên cùng một chuỗi quan sát tại các thời điểm khác nhau Các chuỗi mượt mà thường có giá trị tự hiệp phương sai lớn ngay cả khi khoảng cách giữa t và s lớn, trong khi các chuỗi độc lập thường có giá trị tự hiệp phương sai gần như bằng không khi khoảng cách giữa chúng lớn

Hàm tự hiệp phương sai là trung bình của tích chéo liên quan đến phân phối chung F(xs, xt) Theo lý thuyết thống kê cổ điển, nếu γ(s,t) = 0, điều này chỉ ra rằng xs

và xt không có mối quan hệ tuyến tính, nhưng vẫn có thể tồn tại một cấu trúc phụ thuộc giữa chúng

(11)

Ví dụ 1.7: Hàm tự hiệp phương sai của nhiễu trắng

Chuỗi nhiễu trắng wt có E(wt)= 0 và

(12)

Ví dụ 1.8: Tích tự phương sai của một phương trình trung bình động

Chúng ta sẽ xem xét việc áp dụng phương trình trung bình di động ba điểm cho chuỗi nhiễu trắng wt trong các ví dụ trước Chúng ta có thể tính toán tích phương sai tự của chuỗi kết quả như sau :

Trang 21

Khi s=t chúng ta có :

Khi s = t+1 :

Cuối cùng chúng ta có hệ phương trình:

(13) Nội dung này cho thấy rõ ràng rằng việc áp dụng phép làm mịn dẫn đến một hàm hiệp phương sai giảm dần khi khoảng cách giữa hai điểm thời gian tăng lên và hoàn toàn biến mất khi hai điểm thời gian cách nhau ba đoạn hoặc nhiều hơn Hàm hiệp phương sai này đặc biệt ở chỗ là nó chỉ phụ thuộc vào sự chênh lệch thời gian hoặc độ trễ, không phụ thuộc vào vị trí tuyệt đối của các điểm trên chuỗi

1.6 Hồi quy cổ điển trong chuỗi thời gian

Chúng ta sẽ tiếp tục thảo luận về hồi quy tuyến tính trong ngữ cảnh của chuỗi thời gian bằng cách giả định rằng có một chuỗi thời gian đầu ra, chẳng hạn như xt

với t = 1, , n, bị ảnh hưởng bởi một tập hợp các chuỗi đầu vào có thể, ví dụ như zt1, zt2, , ztq, trong đó chúng ta coi các đầu vào là cố định và đã biết trước Giả định này là cần thiết để áp dụng hồi quy tuyến tính cổ điển đã biết Chúng ta diễn tả mối quan hệ này thông qua mô hình hồi quy tuyến tính:

Trang 22

(14) Ở đây, β1, β2, , βq là các hệ số hồi quy chưa biết, và {wt} là một quá trình lỗi ngẫu nhiên hoặc nhiễu bao gồm các biến ngẫu nhiên độc lập và có phân phối đồng nhất với trung bình bằng không và phương sai bất biến

Ví dụ 2.1: Ước lượng xu hướng Tuyến tính

Chúng ta xét dữ liệu nhiệt độ toàn cầu đã được đề cập phía trên, được ký hiệu là xt, như được biểu diễn trong Hình 7

Như đã thảo luận trong Ví dụ 1.2, có một xu hướng tăng rõ rệt trong chuỗi số liệu này, đã được sử dụng để chứng minh giả thuyết về ấm lên toàn cầu Chúng ta có thể sử dụng một mô hình hồi quy tuyến tính đơn giản để ước lượng xu hướng đó bằng cách điều chỉnh mô hình

Ước lượng các hệ số chặn và hệ số góc của mô hình theo xt trên, chúng ta thu được các hệ số ước lượng β1 = -11.2 và β2 = 0.006 (với độ lệch chuẩn là 0.0003), cho kết quả ước lượng tăng là 0.6 độ mỗi 100 năm Rõ ràng rằng đường xu hướng ước lượng thông qua mô hình hồi quy tuyến tính đơn giản không hoàn toàn bắt được xu hướng của dữ liệu và sẽ cần sử dụng các mô hình khác tốt hơn

Miêu tả cách tính toán và ước lượng mô hình hồi quy trong ngôn ngữ R như sau:

summary(fit ← lm(gtemp~time(gtemp)))

plot(gtemp, type="o", ylab="Global Temperature Deviation") abline(fit)

Trang 23

Hình 14 Trực quan dữ liệu toàn cầu

Mô hình tuyến tính được mô tả ở trên có thể được viết gọn trong một ký hiệu tổng quát hơn bằng cách định nghĩa các vector cột zt = (zt1, zt2, , ztq) và β = (β1, β2, , βq), khi đó mô hình tổng quát được viết dưới dạng:

Trong đó wt ∼ N(0, σ2

w) Cần ước lượng vector hệ số không biết β bằng cách tối thiểu hóa tổng bình phương sai số:

Đối với β1, β2, , βq Tối thiểu hóa Q dẫn đến ước lượng bình phương tối thiểu thông thường của β Quá trình tối thiểu hóa này có thể được thực hiện bằng cách lấy đạo hàm của phương trình (16) đối với vector β hoặc sử dụng các tính chất của phép chiếu:

Nghiệm của phương trình này là:

Trang 24

(18) Trong đó ma trận Z'Z là một ma trận đơn (singular matrix) Tổng bình phương sai

số tối thiểu hóa phương trình (16), được ký hiệu là SSE, có thể được viết lại như

sau:

1.7 Các chỉ số để lựa chọn mô hình

1.7.1 AIC - Akaike information criterion

AIC - Tiêu chí thông tin Akaike là một tiêu chí phổ biến được sử dụng để lựa chọn mô hình trong phân tích chuỗi thời gian Nó đo độ phù hợp của mô hình bằng cách cân bằng sự khớp dữ liệu và số lượng tham số AIC được tính bằng công thức sau:

trong đó:

 log(L) là giá trị logarithm của hàm hợp lý tối đa của mô hình  k là số lượng tham số trong mô hình

Giá trị AIC càng nhỏ thì mô hình càng được coi là phù hợp Tuy nhiên, AIC không xác định mô hình tốt nhất mà chỉ đánh giá mức độ phù hợp tương đối giữa các mô hình khác nhau AIC phạt các mô hình phức tạp hơn với số lượng tham số lớn hơn

Dưới đây là cú pháp tính toán AIC cho một chuỗi dữ liệu cụ thể trong R:

Trang 25

BIC (Bayesian Information Criterion-Tiêu chí Thông tin Bayesian) là một tiêu chí khác được sử dụng trong phân tích chuỗi thời gian để lựa chọn mô hình Nó cũng đo độ phù hợp của mô hình dựa trên sự cân đối giữa sự khớp dữ liệu và số lượng tham số, nhưng có một phương pháp đo khác so với AIC

Công thức tính BIC là:

trong đó:

 log(L) là giá trị logarithm của hàm hợp lý tối đa của mô hình  k là số lượng tham số trong mô hình

 n là số lượng quan sát trong chuỗi thời gian

Tương tự ta có cú pháp tính toán BIC cho một chuỗi dữ liệu cụ thể trong R: # Tạo một chuỗi dữ liệu A

Trang 26

print(paste("Giá trị BIC của chuỗi dữ liệu A là:", BIC_mô_hình))

Giống như AIC, giá trị BIC càng nhỏ thì mô hình càng được coi là phù hợp Tuy nhiên, BIC có xu hướng phạt mô hình phức tạp hơn so với AIC, do có thêm

thành phần klog(n) trong công thức tính Điều này đảm bảo rằng BIC ưu tiên các

mô hình đơn giản hơn khi số lượng quan sát tăng lên

Tuy AIC và BIC là hai tiêu chí khác nhau, nhưng cả hai đều hữu ích trong việc lựa chọn mô hình chuỗi thời gian dựa trên độ phù hợp và độ phức tạp của mô hình Sự lựa chọn giữa AIC và BIC phụ thuộc vào ngữ cảnh và mục tiêu của nghiên cứu

1.8 Phân tích dữ liệu khám phá

Trong dữ liệu chuỗi thời gian, một yêu cầu quan trọng là phải xác định mức độ phụ thuộc giữa các giá trị trong chuỗi Điều này trở nên khó khăn nếu sự phụ thuộc không ổn định hoặc thay đổi theo thời gian Do đó, để thực hiện các phân tích thống kê có ý nghĩa trên dữ liệu chuỗi thời gian, điều quan trọng là các hàm trung bình và tự hiệp phương sai thỏa mãn điều kiện về tính dừng (ít nhất trong một khoảng thời gian hợp lý) Tuy nhiên, thường không có trường hợp này và chúng ta cần loại bỏ tác động của tính không ổn định để có thể nghiên cứu tính chất dừng của chuỗi

Ví dụ, chuỗi Johnson & Johnson (Hình 6) có giá trị trung bình tăng theo cấp số nhân theo thời gian và sự biến động xung quanh xu hướng này dẫn đến các thay đổi trong tự hiệp phương sai Ví dụ khác, chuỗi nhiệt độ toàn cầu (Hình 7) có một xu hướng tăng theo thời gian, cung cấp bằng chứng về sự nóng lên toàn cầu Những thông tin này có ý nghĩa thực nghiệm và hỗ trợ giả thuyết rằng nhiệt độ đang tăng

Tóm lại, để nghiên cứu dữ liệu chuỗi thời gian, chúng ta cần xem xét tính ổn định của chuỗi và loại bỏ tác động của tính không ổn định để có thể phân tích và đưa ra kết luận chính xác về tính chất của chuỗi

Trang 27

quá trình có hành vi dừng xung quanh một xu hướng Chúng ta có thể viết loại mô hình này là

Trong đó xt là các quan sát, µt biểu thị xu hướng và yt là một quá trình dừng

Trang 28

CHƯƠNG 2: CÁC MÔ HÌNH ARIMA 2.1 Sai Phân

Sai phân (differencing) là một bước quan trọng trong mô hình ARIMA Nó được sử dụng để loại bỏ tính phi tuyến và xu hướng trong dữ liệu để phân tích các chuỗi thời gian Phần sai phân sẽ biến đổi dữ liệu ban đầu thành một chuỗi mới, với mục đích giảm thiểu sự phụ thuộc của dữ liệu vào thời điểm trước đó

Lý thuyết của sai phân là sử dụng sự khác biệt giữa các giá trị liên tiếp trong chuỗi thời gian Thông thường, nếu một chuỗi thời gian có xu hướng tăng dần, thì sự khác biệt giữa các giá trị liên tiếp sẽ tăng theo thời gian Khi ta áp dụng sai phân một lần lên chuỗi này, sự tăng dần của sự khác biệt sẽ giảm và sẽ không còn xu hướng dài hạn nữa Tương tự, nếu chuỗi thời gian có xu hướng giảm dần, thì sự khác biệt giữa các giá trị liên tiếp sẽ giảm theo thời gian Khi ta áp dụng sai phân lên chuỗi này, sự giảm dần của sự khác biệt sẽ giảm và không còn xu hướng dài hạn nữa

Công thức xây dựng của sai phân là sử dụng toán tử sai phân (difference operator) để tính toán sự khác biệt giữa các giá trị trong chuỗi thời gian Toán tử sai phân được biểu diễn bằng ký hiệu "d" Nếu ta áp dụng toán tử sai phân lên chuỗi thời gian Y tại thời điểm t, ta sẽ thu được chuỗi mới là Y' được tính như sau:

Trong đó, B là toán tử dịch chuyển ngược (backward shift operator) và được định nghĩa bởi:

Công thức trên có thể được diễn giải là sự khác biệt giữa giá trị hiện tại và giá trị tại thời điểm trước đó Trong mô hình ARIMA, phần sai phân thường được sử dụng để giảm bớt tính phi tuyến và xu hướng trong chuỗi thời gian Sau khi áp dụng sai phân lên chuỗi thời gian, ta sẽ kiểm tra xem chuỗi mới đã trở nên dễ dàng dự đoán

Trang 29

AR trong ARIMA là viết tắt của "autoregressive" (tự hồi quy) Mô hình AR sử dụng các giá trị quá khứ để dự đoán giá trị hiện tại Điều này đòi hỏi chuỗi thời gian phải có tính tự tương quan, có nghĩa là các giá trị liền kề của chuỗi phải tương quan với nhau

Ví dụ, giá cổ phiếu Amazon của ngày hôm nay có thể phụ thuộc vào giá của ngày hôm qua và các ngày trước đó

Ví dụ 3.1: Giá cổ phiếu của Amazon

Hình 15 Giá cổ phiếu công ty Amazon sử dụng AR

Ý tưởng mô hình AR là hồi quy số liệu của nó trong quá khứ ở những chu kì trước

Trong đó:

𝑌𝑡 = 𝑎0 + 𝑎 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + ⋯ + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡; (25) Yt: quan sát dừng hiện tại;

Yt-2, Yt-2, : là quan sát dừng ở thời điểm trong quá khứ; a0, a1, a2, …: các tham số phân tích hồi quy;

ut : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với ut giá trị trung bình được kỳ vọng bằng 0

Trang 30

Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá khứ: Yt-1, Yt-2…

Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ trễ, chúng ta sẽ được mô hình AR Số quan sát dừng ở các thời điểm quá khứ

được sử dụng trong mô hình tự hồi quy là bậc p của mô hình AR Nếu sử dụng 2

quan sát dừng ở quá khứ, ta có mô hình tương quan bậc hai AR(2)

- Mô hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑢𝑡 (26) - Mô hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + 𝑢𝑡 (27)

Các tham số của mô hình AR được xác định bằng phương pháp hồi quy tuyến tính Một số trường hợp đặc biệt là khi chuỗi thời gian có mô hình phức tạp hơn, phương pháp khác như mô hình ARIMA có thể được sử dụng

Điều quan trọng là phải cân nhắc đến sự cân bằng giữa độ phức tạp của mô hình và khả năng dự đoán Một mô hình AR quá đơn giản có thể bỏ sót những biến động quan trọng trong dữ liệu, trong khi một mô hình quá phức tạp có thể dẫn đến quá

khớp và kém khả năng dự đoán Một điểm quan trọng của mô hình AR(p) bậc p là

chỉ thích hợp cho các chuỗi dừng (stationary series)

Một số lưu ý về mô hình AR:

+ Giá trị của p trong mô hình AR(p) sẽ ảnh hưởng đến số lượng các hệ số AR cần ước lượng Một giá trị p lớn hơn sẽ có nhiều hơn các hệ số AR cần ước lượng và do đó sẽ có thể giúp mô hình tốt hơn phù hợp với dữ liệu

+ Mô hình AR có thể được sử dụng để phân tích chuỗi thời gian và dự đoán giá trị trong tương lai Tuy nhiên, mô hình AR chỉ thích hợp cho những chuỗi thời gian mà có tính chất tự tương quan tuyến tính Nếu chuỗi thời gian không có tính chất này, mô hình AR có thể không phù hợp

+ Mô hình AR có thể được mở rộng để bao gồm cả các thành phần khác, chẳng hạn như thành phần MA (mô hình ARMA), thành phần tích phân (F), hoặc thành phần mùa vụ (mô hình SARIMA)

+ Các mô hình AR phải được đánh giá dựa trên độ chính xác của dự đoán và độ chính xác của ước lượng các tham số của mô hình

Trang 31

MA - Moving Average (Trung bình động), là thành phần trong mô hình ARIMA mô tả sự phụ thuộc của giá trị hiện tại trong chuỗi thời gian vào các giá trị sai số trước đó Thành phần này được ký hiệu bằng MA Được sử dụng để dự đoán giá trị của chuỗi thời gian dựa trên giá trị trung bình của một số quan sát hiện tại

Ví dụ về mô hình MA có thể là dự đoán lượng mưa sẽ rơi vào ngày hôm nay dựa trên sai số của dự báo lượng mưa vào ngày hôm qua và các ngày trước đó Nếu dự báo lượng mưa trước đó chênh lệch với lượng mưa thực tế, thì sai số sẽ được sử dụng để đưa ra dự đoán cho ngày hôm nay Thông thường mô hình này được ký

hiệu là MA(q), trong đó q là số lượng sai số quá khứ được sử dụng để dự báo giá trị

hiện tại

Ví dụ 3.2 : Giá cổ phiếu của Amazon

Hình 16 Giá cổ phiếu Amazon sử dụng trung bình động

Hàm tuyến tính Yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại Mô hình trung bình trượt là một trung bình trọng số của những sai số mới nhất:

𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2 + ⋯ + 𝑏𝑞𝑢𝑡−𝑞 (28) Trong đó:

Yt: Quan sát dừng hiện tại; ut: Sai số dự báo;

Trang 32

ut-1, ut-2, : Sai số dự báo quá khứ;

b0, b1, b2, : Giá trị trung bình của Yt và các hệ số bình quân di động; q: Là bậc của MA

Với p = 1 và p = 2, chúng ta có mô hình bậc 1 và bậc 2: - Mô hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1

- Mô hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2

Mô hình MA có thể cũng cần phải xử lý dữ liệu nhiễu (noise) và các giá trị ngoại lai (outliers) tương tự như mô hình AR

Việc xác định số lượng giá trị trung bình động cần được sử dụng trong mô hình MA là một vấn đề quan trọng và cần được xác định một cách chính xác Nếu số lượng này quá ít, mô hình sẽ không thể mô hình hóa được độ phức tạp của chuỗi thời gian, còn nếu số lượng này quá nhiều, mô hình sẽ bị quá khớp (overfitting) và không thể dự đoán tốt trên dữ liệu mới

Một số lưu ý về mô hình MA:

+ Mô hình MA thường được sử dụng khi chuỗi thời gian không có xu hướng (tức là, nó không có sự tăng hoặc giảm đều qua các thời điểm) và không có yếu tố mùa vụ + Số lượng giá trị trung bình động cần được sử dụng trong mô hình MA phải được xác định một cách chính xác để đảm bảo kết quả của dự đoán

+ Mô hình MA cũng có thể được sử dụng để mô hình hóa chuỗi thời gian có xu hướng tăng hoặc giảm, nhưng với giá trị dương hoặc âm của hệ số MA để mô hình hóa xu hướng đó Tuy nhiên, nếu xu hướng có tính chất phi tuyến tính thì việc sử dụng mô hình MA không phù hợp

2.4 Mô hình trung bình trượt và tự hồi quy ARMA

Mô hình ARMA (Autoregressive Moving Average) là một mô hình phổ biến trong phân tích chuỗi thời gian Nó kết hợp cả thành phần tự hồi quy (autoregressive) và thành phần trung bình di động (moving average) để mô tả sự phụ thuộc và biến động trong chuỗi thời gian Một mô hình ARMA(p, q) bao gồm hai thành phần chính là AR và MA, sự kết hợp ta được mô hình ARMA, còn gọi là mô hình trung bình trượt tự hồi quy

Trang 33

Yt = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑢𝑡 + 𝑏0 + 𝑏1𝑢𝑡−1 (29) Trong đó:

Yt là giá trị của chuỗi thời gian tại thời điểm t a0, a1, b0, b1 là các hệ số trong mô hình ARMA Yt-2 là giá trị của chuỗi thời gian tại thời điểm t-1

ut là thành phần nhiễu trắng, đại diện cho sai số ngẫu nhiên không có sự tương quan thời gian

ut-1 là giá trị của thành phần nhiễu trắng tại thời điểm t-1

Tóm lại, Yt là quá trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng:

Yt = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎2𝑌𝑡−2 + … + 𝑎𝑝𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1𝑢𝑡−1 + 𝑏2𝑢𝑡−2+ + 𝑏𝑞𝑢𝑡−𝑞

2.5 Mô hình trung bình trượt tự hồi quy ARIMA

Một chuỗi thời gian có thể tuân theo nhiều mô hình khác nhau Tuy nhiên, cả ba mô hình AR, MA, ARMA đều yêu cầu chuỗi phải có tính dừng Nhưng thực tế có nhiều chuỗi thời gian không có tính dừng Vậy làm thế nào để áp dụng được các mô hình trong thực tế? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mô hình ARMA

Nếu chuỗi Yt có đồng liên kết bậc d trên mô hình ARMA (p, q) cho chuỗi sai phân bậc d, thì chúng ta có mô hình ARIMA(p, d, q) - Autoregressive Intergrated Moving Average Với bậc tự hồi quy p, số lần lấy sai phân d để chuỗi Yt được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc tương ứng của chuỗi dừng)

- Trong mô hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p) - Trong mô hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q)

Trang 34

- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng Chuỗi sai phân dừng này có thể biểu diễn dưới dạng ARMA (1,1)

∆𝑌𝑡 = 𝑎0 + 𝑎1𝑌𝑡−1 + 𝑎0𝑢𝑡 + 𝑎1𝑢𝑡−1 (u là nhiễu trắng) Trong đó:

∆Yt là chuỗi sai phân bậc 1 của chuỗi Yt Yt-1 là giá trị trước đó của chuỗi Yt ut và ut-1 là các thành phần nhiễu trắng

Công thức trên có các hệ số a0 và a1, đại diện cho trọng số của giá trị trước đó và nhiễu trắng tương ứng Các hệ số này được ước tính từ dữ liệu chuỗi thời gian để phù hợp với mô hình ARIMA(1,1,1) đã cho

Mô hình ARIMA(1,1,1) được sử dụng để mô hình hóa và dự đoán chuỗi Yt dựa trên các giá trị trước đó và sự biến động ngẫu nhiên Việc xác định các hệ số a0 và a1 từ dữ liệu và áp dụng mô hình này cho phép chúng ta hiểu và dự đoán xu hướng và biến động của chuỗi Yt theo thời gian

Như vậy, xác định được các giá trị p, d, q ta sẽ mô hình hóa được chuỗi ARIMA Ta thấy, mô hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không dùng thêm biến độc lập khác

Trang 35

Mô hình Tham số Đặc điểm

Độ nhiễu trắng ARIMA(0,0,0) Không có yếu tố nào đang tác động lên chuỗi thời gian

Chuỗi ngẫu nhiên ARIMA(0,1,0) Mô tả chuỗi thời gian ngẫu nhiên mà không có hằng số Chuỗi ngẫu nhiên ARIMA(0,d,0) Không ổn định qua thời gian

Tự hồi quy ARIMA(p,0,0)

Thể hiện giá trị hiện tại của chuỗi phụ thuộc vào các giá trị trước đó

Trung bình động ARIMA(0,0,q)

Thể hiện giá trị hiện tại của chuỗi phụ thuộc vào các giá trị ngẫu nhiên trước đó

2.6 Các bước phân tích dữ liệu chuỗi thời gian với mô hình ARIMA

Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện Gồm có loại dự báo chính là dự báo định tính và dự báo định lượng Chuỗi thời gian thuộc lớp dự báo định lượng vì kết quả của mô hình là một giá trị định lượng, nên được sử dụng khá phổ biến trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả thị trường Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là AR, MA,…

Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao trong việc đưa ra các dự báo chính xác và có độ tin cậy cao Sức mạnh của nó là ở chỗ nó đưa ra những thông tin giúp nhà phân tích chuỗi thời gian lựa chọn mô hình phù hợp với dữ liệu quan sát được Đối với các phương pháp khác, nhà phân tích giả thiết một mô hình nào đó rồi tiến hành ước lượng các tham số của mô hình

Trang 36

Trong giai đoạn đầu tiên, ta nhận dạng một mô hình thử nghiệm bằng cách so sánh các hàm tự tương quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự tương quan và tự tương quan riêng lí thuyết của các mô hình ARMA

ARIMA là một mô hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá khứ để đưa ra các dự báo Loại mô hình này là một kỹ thuật dự báo cơ bản có thể được sử dụng làm nền tảng cho các mô hình phức tạp hơn Dựa vào những đặc điểm đó, trong phần thực nghiệm học viên quyết định sử dụng mô hình ARIMA để thực nghiệm trên tập dữ liệu chuỗi thời gian

Các bước chính trong phương pháp Box‐Jenkins:

+ Bước 1: Nhận dạng mô hình (xác định các giá trị p, d, q)

Trước tiên, kiểm tra tính dừng của chuỗi dữ liệu gốc, nếu chưa dừng thì tiến hành lấy sai phân I(d), bậc của d ở đây chính là bậc d trong mô hình ARIMA (p,d,q) Nếu chuỗi dừng ngay tại chuỗi gốc thì d=0, nếu chuỗi dừng ở sai phân bậc I thì d=1, Tuy nhiên, qua quá trình thực nghiệm nhận thấy rằng nếu lấy ln (lôgarít tự nhiên cơ số e) chuỗi dữ liệu trước khi thực hiện các bước sau sẽ cho mô hình phù hợp hơn

Công cụ chủ yếu để xác định p, q cho mô hình ARIMA là dựa trên Lược đồ tự tương quan ACF và Tự tương quan riêng phần PACF của chuỗi gốc đã được biến đổi thành chuỗi dừng, kết hợp với phương pháp thử và sai:

Ta có bảng nhận dạng mô hình ARIMA (p, q)

MA(1) =ARIMA(0, 1) = 0 sau 1 bước trễ (p1 ≠ 0) Giảm dần về 0 từ bước trễ 1 MA(2) =ARIMA(0, 2)

= 0 sau 2 bước trễ (p1,p2 ≠ 0)

Giảm dần về 0 từ bước trễ 2

MA(q) =ARIMA(0, q) = 0 sau q bước trễ (p1,p2, , pq≠ 0) Giảm dần về 0 từ bước trễ q AR(1) =ARIMA(1,0) Giảm theo CSN về 0 từ bước trễ

1(*)

= 0 sau 1 bước trễ (p11≠ 0)

Trang 37

AR(2) =ARIMA(2,0) Giảm theo CSN về 0 từ bước trễ 2 0)

AR(p) =ARIMA(p,0) Giảm theo CSN về 0 từ bước trễ p = 0 sau p (p11,p22, ,pqq≠ 0) bước trễ

ARIMA(1,1) Giảm theo CSN về 0 từ bước trễ 1 Giảm dần về 0 từ bước trễ 1 ARIMA(p,q) Giảm theo CSN về 0 từ bước trễ p Giảm dần về 0 từ bước trễ q

(*) Giảm theo dạng hàm mũ hoặc sin, tương tự cho các trường hợp còn lại Như vậy phương pháp này Box-Jenkins tính toán các hệ số tương quan mẫu SACF và hệ số tương quan riêng mẫu SPACF, so sánh với các giá trị lý thuyết ACF và PACF Nếu có sự phù hợp giữa chúng với nhau thì các tham số của mô hình sẽ được ước lượng Ưu điểm chủ yếu của phương pháp này là áp dụng một cách hệ thống các bước trong quá trình xây dựng mô hình Nhược điểm của phương pháp này là trong quá trình xem xét một cách trực giác SACF và SPACF để xác định p và q Kết quả sẽ mang tính chủ quan

Khi quyết định lựa chọn một mô hình ARIMA(p,q), chúng ta cần kết hợp với các tiêu chí chung được nhiều nhà nghiên cứu ứng dụng Dưới đây là hai tiêu chí phổ biến:

Tiêu chí thông tin Akaike (Akaike Info Criterion), đề xuất bởi Akaike (1974):

Phương pháp Box-Jenkins là phương pháp phổ biến nhất Bên cạnh đó người ta còn dùng một số phương pháp khác, kết hợp nhiều phương pháp khác nhau để chuẩn đoán p và q của mô hình sau khi tham số đã được xác định

Một ý tưởng là người ta có thể đánh đổi một hoặc nhiều độ trễ của AR(p) với một vài độ trễ của MA(q) bằng cách xem xét chi phí về mặt thông tin đối với số tham số được cực tiểu vẫn đảm bảo sự phù hợp của mô hình Tiêu chuẩn hiển nhiên để so sánh các mô hình là phương sai của phần dư

Kí hiệu phần dư của mô hình ARMA(p,q) là e p qt( , ) Ước lượng phương sai của phần dư tương ứng:

Ngày đăng: 28/03/2024, 16:34

Tài liệu cùng người dùng

Tài liệu liên quan