Lý thuyết trò chơi trò chơi 2 người tổng 0 hữu hạn

15 3 0
Lý thuyết trò chơi   trò chơi 2 người tổng 0 hữu hạn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Định nghĩa lý thuyết trò chơi của John von Neumann, nghiên cứu ứng dụng của nó, được gọi là trò chơi 2 người tổng 0 hữu hạn. Gồm các phần: 1. Trò chơi ma trận, 2. chiến lược tối ưu, 3. định lý minimax, 4. poker

CHƯƠNG 11 Lý thuyết trò chơi Trong chương này, nghiên cứu ứng dụng thiết thực chắn lịch đại số tuyến tính Chủ đề gọi lý thuyết trò chơi, tập trung vào dạng trò chơi đơn giản nhất, gọi trò chơi người, tổng hữu hạn hay gọi ngắn gọn trò chơi ma trận Mục tiêu chứng minh định lý minimax tiếng Định lý tìm chứng minh John von Neumann vào năm 1928 Chứng minh ban đầu ông định lý liên qua đến định lý hay ho khác từ toán học, định lý điểm bất động Brouwer Tuy nhiên, cuối lời giải trị chơi ma trận tìm thấy cách giải tốn quy hoạch tuyến tính định định lý minimax hệ đơn giản lý thuyết đối ngẫu Trò chơi ma trận Trò chơi ma trận trò chơi người định nghĩa sau: Đầu tiên, người chọn (mà không phụ thuộc vào nhau) hành động từ tập hữu hạn lựa chọn (cả hai người chơi đối mặt với tập hành động khác để lựa chọn) Sau đó, hai tiết lộ cho lựa chọn họ Nếu dùng i để đại diện cho lựa chọn người chơi thứ j đại diện cho lựa chọn người chơi thứ hai, quy tắc trò chơi quy định người chơi thứ phải trả cho người chơi thứ hai khoản aij Mảng chứa tốn thực là: A = [aij] Cả hai người chơi cho biết mảng trước trò chơi bắt đầu Dĩ nhiên, aij giá trị âm cặp (i,j) khoản tốn theo hướng ngược lại từ người chơi thứ hai đến người chơi thứ Vì lý hiển nhiên, gọi người chơi thứ người chơi theo hàng người chơi thứ hai người chơi theo cột Vì giả định người chơi theo hàng có số hành động hữu hạn nên liệt kê hành động mà khơng tính tổng qt qua i (với i số nguyên khoảng từ đến m) Tương tự, ta giả định j đơn giản số nguyên khoảng từ đến n (theo cách diễn giải giới thực, hành động hảng thứ khơng liên quan đến hành động cột thứ 3, số đơn giản hành động thứ tập liệt kê lựa chọn) Chúng ta xem xét ví dụ quen thuộc Cụ thể, trị chơi mà đứa trẻ biết, gọi kéo – đá – giấy Để gợi lại kí ức độc giả lớn tuổi trị chơi mà hai người đếm đến ba người lúc tuyên bố giấy, kéo đá Nếu lựa chọn hai người giống vòng đấu hòa Nhưng, giấy thua kéo (vì kéo cắt giấy), kéo thua đá (vì đá làm cùn kéo) cuối cùng, đá thua giấy (vì giấy lấp đá, lập luận không thực lại cách mà trị chơi hoạt động) Đối với trò chơi này, liệt kê thao tác khai báo giấy, kéo đá (cột hàng) 1, 2, ma trận hoàn trả là: [ −1 −1 1 −1 ] Với ma trận này, không người chơi xác định chiến lược chiến thắng rõ ràng Nếu người chơi cột luôn chọn giấy (và hy vọng người chơi hàng chọn đá), người chơi hàng đối phó cách chọn kéo đảm bảo chiến thắng khoản hồn trả vòng Trong thực tế, người chơi cột đưa liên tục lựa chọn, người chơi hàng khơn ngoan mà bắt lấy điều đưa lựa chọn hợp lí nhằm đảm bảo ln chiến thắng Dĩ nhiên, điều áp dụng tương tự cho người chơi cột Vì thế, khơng người chơi đưa lựa chọn nhiều lần lặp lặp lại Thay vào đó, họ đưa lựa chọn ngẫu nhiên Trong thực tế, tính đối xứng (trong ma trận) trị chơi đặc biệt này, hai người chơi nên đưa lựa chọn với tỉ lệ lựa chọn Vậy trị chơi khác tầm thường sao? Ví dụ, giả sử khoản hồn trả trị chơi giấy – kéo – đá thay đổi để ma trận tiền thưởng trở thành: −2 A= −3 −6 [ ] Trò chơi có đặc điểm chiến lược định (chỉ chọn phương án cách lặp lặp lại) bị đánh bại đối thủ thơng minh Do đó, chọn phương án cách ngẫu nhiên phù hợp Tuy nhiên xác xuất tốt khơng cịn 1/3 Ngồi ra, người có lợi trị chơi này? Vì tổng số tiền thưởng chuyển từ người chơi theo hàng cho người chơi theo cột 10 tổng số tiền thưởng từ người chơi theo cột chuyển cho người chơi theo hàng 11 Chúng ta nghi ngờ người chơi hàng có lợi Nhưng đoán Liệu có khơng? Nếu đúng, người chơi theo hàng thắng trung bình vịng? Nếu người chơi hàng biết xác số cịn người chơi cột khơng, người chơi hàng đề nghị trả cho người chơi cột khoản phí nhỏ vịng Nếu khoản phí nhỏ số tiền thắng cược dự kiến, người chơi hàng tự tin theo thời gian, người kiếm khoản lợi nhuận Mục đích chương để trả lời xác câu hỏi Bây quay lại phần thiết lập chung Hãy tập trung vào người chơi hàng Bằng chiến lượng ngẫu nhiên, ý tơi là, lần chơi trị chơi, xuất (từ góc nhìn người chơi cột) người chơi hàng đầu lựa chọn cậu cách ngẫu nhiên theo phân phối xác xuất cố định Gọi y i xác xuất mà người chơi theo hàng chọn hành động i Vectơ y bao gồm xác xuất gọi vectơ ngẫu nhiên Về mặt toán học, vectơ vectơ ngẫu nhiên có thành phần khơng âm có tổng bằng: y ≥0 e T y=1 Trong đó, e biểu thị vectơ bao gồm tất vectơ Tất nhiên, người chơi cột phải áp dụng chiến lượng ngẫu nhiên Đặt xj biểu thị xác xuất mà người chơi cột chọn hành động j đặt x biểu thị vectơ ngẫu nhiên bao gồm xác xuất Phần thưởng dự kiến cho người chơi cột (phần thưởng trung bình vịng) tính cách nhân khoản hồn trả xảy với xác xuất xảy cộng tất lại với Tập hợp kết xảy đơn giản tập hợp cặp (i, j) với i nằm khoảng (1, 2, …, m) j nằm khoảng (1, 2, …, n) Đối với kết (i, j), phần thưởng aij giả sử người chơi hàng cột hoạt động độc lập với nhau, xác xuất kết đơn giản yixj Do đó, phần thưởng dự kiến cho người chơi cột là: ∑ yi aij x j= y T Ax i, j Chiến lược tối ưu Giả sử người chơi theo cột áp dụng chiến lược x (nghĩa định chơi theo với véc tơ ngẫu nhiên x) Sau đó, cách phịng thủ tốt người chơi theo hàng sử dụng chiến lược y ∗ đạt mức tối thiểu sau: (11.1) Tinh min: y T Ax Với: e T y = 1, y ≥ Từ định lý quy hoạch tuyến tính, biết vấn đề có giải pháp tối ưu Các giải pháp đơn giản vectơ y với tất thành phần 0, trừ thành phần Đó giải pháp tối ưu tương ứng với chiến lược xác định Điều rõ ràng nhìn lại ví dụ Giả sử rằng: x= 3 [] [] Do −1 Ax= −1 Cho nên lựa chọn tốt người chơi theo hàng chọn i = (Giấy) i = (Đá) kết hợp chúng Nghĩa là, giải pháp tối ưu y∗ = (1, 0, 0) (đây khơng phải nhất) Vì với x cho trước nào, người chơi theo hàng áp dụng chiến lược đạt giá trị nhỏ (11.1), người chơi theo cột nên sử dụng chiến lược x∗¿ cho đạt cực đại sau: giá trị cực đại cực tiểu nằm tất vectơ ngẫu nhiên (có kích thước phù hợp) Câu hỏi sau trở thành: làm để giải (11.2)? Hóa vấn đề định dạng lại tốn quy hoạch tuyến tính Thật vậy, thấy tối ưu hóa bên (tối thiểu hóa) thực tất chiến lược: e i vectơ tất số ngoại trừ số vị trí i Do đó, tốn max-min cho (11.2) viết lại thành: Tính max: ( mini e Ti Ax) n Với : ∑ x j=1, với x j ≥ j = 1,2,…,n j=1 Bây giờ, giới thiệu biến v, đại diện cho giới hạn e Ti Ax's, sau thấy vấn đề viết lại dạng phương trình tuyến tính: (11.3) Tính max: v Với: v ≤ e Ti Ax, i = 1, 2, …, m n ∑ x j=1 j=1 x j ≥ 0, j = 1, 2, …, n Chuyển ký hiệu vectơ, vấn đề viết là: Tính max: v Với: ve−Ax ≤ eT x = x ≥0 Cuối cùng, viết dạng ma trận, ta được: [ x] e x ≤ 0 ][ v ] ¿ [ ] Tính min: ¿] v (11.3) Với: [ −A eT x ≥ 0, v tự Bây xoay lại Bằng cách đối xứng, người chơi theo hàng tìm kiếm chiến lược y∗ mà đạt tối ưu tốn – max sau: định dạng lại thành phương trình tuyến tính sau: Tính min: u Với: u e – AT y ≥ eT y = y ≥0 Viết dạng ma trận ta : (11.4) [ y] e y ≥ 0] [ u ] ¿ [ 1] Tính min: ¿] u −A T Với: eT [ y ≥0 Định lý Minimax Sau giảm chi phí tính tốn chiến lược tối ưu x*và y*, ta phải chúng phải quán với Định lý Minimax thiết lập tính quán Định lý Minimax: Tồn vector ngẫu nhiên x* y* cho Chứng minh: Chứng minh suy từ nhận xét (11.4) đối ngẫu (11.3) Do đó, v* = u* Hơn nửa, ta có Và tương tự, ta có Giá trị tối ưu v* = u* phương trình tuyến tính gọi “giá trị” trò chơi Từ định lý Minimax, ta thấy rằng, cách áp dụng chiến lược y*, người chơi theo hàng đảm bảo trung bình khơng thua q v đơn vị vòng Tương tự, người chơi theo cột đảm bảo trung bình thắng v đơn vị vịng cách áp dụng chiến lược x* Một trị chơi có giá trị vai trò hai người chơi hốn đổi cho trị chơi cơng Những trị chơi gọi trò chơi đối xứng Chúng đặc trưng hồn trả ma trận có tính chất aij = -aij với i j (đặc biệt, m phải n đường chéo phải biến mất) Đối với trị chơi Giấy – Kéo – Đá, tốn quy hoạch tuyến tính mà người chơi cột cần giải Viết dạng phương trình, ta có: Bài tốn quy hoạch tuyến tính có hai vấn đề khơng nằm dạng tốn quy hoạch tuyến tính chuẩn Thứ nhất, có rang buộc đẳng thức Thứ hai, chứa biến tự Có số cách để ta biến đổi dạng tiêu chuẩn Một số cách mơ tả sau Đầu tiên từ rang buộc đẳng thức, ta đưa đẳng thức dạng đẳng thức xj, giả sử ta chọn x3 Tiếp theo ta loại bỏ biến khỏi phương trình cịn lại Lúc ta có: Việc loại bỏ x3 thay đổi ràng buộc cuối từ đẳng thức thành bất đẳng thức Bước ta tạo từ điển bắt đầu Để làm việc này, ta phải viết biến cho biến có điểm chung với rang buộc có sẵn Ta thấy, đặt biến x4, x5, x6 ứng với ràng buộc Biến v không bị ràng buộc không âm khơng thể sở Thay biến v biến nhập vào số sở bị loại bỏ Chọn x4 để bỏ ta có: Vì v khơng có ràng buộc dấu nên khơng rời khỏi sở (vì biến rời khỏi theo định nghĩa, biến chạm tới giới hạn nó—v khơng có giới hạn vậy) Vì thế, ta xóa hồn tồn khỏi từ điển; ln ln tính tốn cuối Do đó, ta có: Hay Lúc ta có từ điển Cuối cùng, ta áp dụng phương pháp đơn hình Lặp lại lần mang lại phương án tối ưu Vì kết phân số, ta nhân phương trình với số nguyên để phương án tối ưu, ta nhân với số 102 Lúc đó, ta có: Từ ta tìm phương án nguyên thủy tối ưu Ngoài ra, x4, x5, x6 phần bù y1, y2, y3 toán kép nên giải pháp kép tối ưu là: Cuối ta tìm giá trị trò chơi: Điều chứng tỏ rằng, người chơi hàng thực có lợi mong đợi kiếm trung bình gần 16 xu vịng chơi Poker Một số trò chơi poker liên quan đến vịng cược người chơi đánh lừa (bluff) cách tăng giá đấu để ép đối thủ từ bỏ, thách thức chấp nhận họ chắn thua Tương tự, họ cược thấp để tạo hi vọng sai lệch cho đối thủ Trong phần này, nghiên cứu phiên đơn giản poker (trò chơi thực tế khó để phân tích) để xem liệu chiến lược đánh lừa cược thấp có phải chiến lược cược đáng chấp nhận Poker đơn giản bao gồm hai người chơi, A B, có ba bài, 1, Ở đầu vòng chơi, người chơi đặt cược đô la chia từ Sau phiên cược, người chơi lần lượt, A, (a) cược thêm đô la vào khoản tiền cược bổ sung (gọi "kitty"), (b) bỏ lượt Phiên cược kết thúc khi:  Một người cược theo người cược trước đó,  Một người bỏ lượt sau người khác bỏ lượt,  Một người bỏ lượt sau người khác cược Trong hai trường hợp đầu tiên, người chiến thắng vòng đấu định cách so sánh bài, tiền cược bổ sung trao cho người chơi có cao Trong trường hợp thứ ba, người bỏ lượt sau người khác cược, người chơi cược chiến thắng vịng đấu, độc lập với người có cao (trong poker thực tế, người chơi bỏ lượt gọi "fold") Với quy tắc cược đơn giản này, có năm kịch cược xảy ra: A bỏ lượt, B bỏ lượt: $1 cho người có cao A bỏ lượt, B cược, A bỏ lượt: $1 cho B A bỏ lượt, B cược, A cược: $2 cho người có cao A cược, B bỏ lượt: $1 cho A A cược, B cược: $2 cho người có cao Sau chia bài, người chơi A định cược theo ba dòng: Bỏ lượt Nếu B cược, bỏ lượt tiếp Bỏ lượt Nếu B cược, cược theo Cược Tương tự, sau chia bài, người chơi B cược theo bốn dịng: Bỏ lượt điều xảy Nếu A bỏ lượt, bỏ lượt theo, A cược, cược theo Nếu A bỏ lượt, cược, A cược, bỏ lượt Cược điều xảy Để mơ hình hóa tình thành trò chơi ma trận, phải xác định chiến lược túy người chơi Chiến lược túy loạt cách cược mà người chơi dự định theo mà người chơi chia Do đó, chiến lược túy người chơi ký hiệu ba (y1, y2, y3), yi cách cược mà người chơi sử dụng cầm i (Đối với người chơi A, giá trị yi 1, 3, người chơi B, chúng 1, 2, 4.) Cho hai chiến lược túy hai người chơi, ta tính tốn khoản tiền thua trung bình mà người chơi A phải trả cho người chơi B Ví dụ, giả sử người chơi A áp dụng chiến lược (3, 1, 2) người chơi B áp dụng chiến lược (3, 2, 4) Có sáu cách để chia bài, ta phân tích trường hợp sau: Lá A 1 2 3 Vì giao dịch Các lượt chơi Tiền B A trả B A cược, B cược A cược, B cược A bỏ lượt, B cược, A bỏ lượt A bỏ lượt, B cược, A bỏ lượt 1 A bỏ lượt, B cược, A cược -2 A bỏ lượt, B bỏ lượt -1 số sáu giao dịch có khả xảy nên khoản tốn trung bình từ A đến B là: (2      1) / 0.5 Việc tính tốn khoản tốn trung bình phải thực cho kết hợp cặp chiến lược Có bao nhiêu? Người chơi A có 3 3 27 chiến lược túy người chơi B có 4 4 64 chiến lược túy Do có 27 64 1728 cặp Tính tốn khoản tốn trung bình cho tất cặp nhiệm vụ khó khăn May mắn thay, chúng tơi giảm số lượng chiến lược túy (và số lượng cặp) cần xem xét cách thực vài quan sát đơn giản Quan sát người chơi giữ không nên trả lời cược cược, người chơi thua cược trả lời thua qua Logic ngụ ý rằng, giữ 1, người chơi A khơng nên đặt cược dọc theo dịng 2; người chơi B không nên đặt cược dọc theo dòng Các chiến lược cải tiến rõ ràng bị loại trừ giữ cao Ví dụ: người chơi cầm quân không trả lời cược cách vượt qua, vượt qua người chơi thua, đặt cược người chơi thắng Hơn nữa, giữ 3, người chơi phải trả lời đường chuyền cách đặt cược, hai trường hợp, người chơi thắng, trả lời cược mở khả đối thủ đặt cược lại tăng quy mơ chiến thắng cho người chơi giữ Do đó, cầm quân 3, người chơi A không nên đặt cược dọc theo dịng 1; người chơi B khơng nên đặt cược dọc theo dòng 1, Loại bỏ việc xem xét dòng cá cược trên, thấy người chơi A có 3 2 12 chiến lược túy người chơi B có 4 1 8 chiến lược túy Do đó, số lượng cặp giảm xuống 12 8 96 - mức giảm đáng kể Không loại bỏ chiến lược “xấu” khỏi mô hình tốn học giả định hai người chơi biết chiến lược tồi không sử dụng Tức người chơi A cho người chơi B chơi thơng minh người chơi B cho điều tương tự A Kiến thức sau dẫn đến giảm Ví dụ: cầm quân 2, người chơi A nên hạn chế đặt cược dọc theo dòng Để đến kết luận này, phải cẩn thận liệt kê khả Vì người chơi A giữ 2, người chơi B giữ hai Nhưng xác định người chơi B làm hai trường hợp Sử dụng kiến thức này, khơng khó để thấy người chơi A không khôn ngoan đặt cược dọc theo dịng Một phân tích tương tự cho thấy rằng, giữ quân 2, người chơi B nên ngưng từ dịng Do đó, người chơi A có 2 2 8 chiến lược túy chơi B có 2 1 4 chiến lược túy Hình 11.1 Tại thời điểm này, khơng thể giảm thêm Tính tốn ma trận, ta có: Hình 11.1 cho thấy từ điển ban đầu cho vấn đề (col-player) liên quan hình 11.2 cho thấy từ điển tối ưu Từ từ điển tối ưu, đọc tắt giải pháp cho trò chơi ma trận thấy rằng: T 1 1 1 2 y*  0 0  x*  0   3 2 3 T Trên thực tế, từ hình 11.2, có nhiều giải pháp tối ưu cho hai hàng cột Những hiển thị cặp giải pháp Những vectơ ngẫu nhiên tóm tắt dạng phát biểu đơn giản phương pháp ngẫu nhiên hóa tối ưu chiến lược hai người chơi Thật vậy, chiến lược tối ưu người chơi A sau: Hình 11.2 Từ điển tối ưu cho poker đơn giản giữ 1, trộn dòng dòng theo tỷ lệ 5:1; giữ 2, trộn dòng theo tỷ lệ 1:1; giữ trộn dịng dịng theo tỉ lệ 1:1 Tương tự, chiến lược tối ưu người chơi B mơ tả là: giữ 1, trộn dòng theo tỷ lệ 2:1; giữ 2, trộn dòng theo tỷ lệ 2:1; giữ 3, sử dụng dòng Lưu ý tốt người chơi A nên sử dụng dòng giữ quân khoảng thời gian Vì dịng nói đặt cược, nên đặt cược trò lừa bịp Người chơi B chọn lừa bịp, dịng cá cược đơi sử dụng giữ quân Rõ ràng, chiến lược tối ưu thể lượng cược thấp

Ngày đăng: 06/06/2023, 22:14

Tài liệu cùng người dùng

Tài liệu liên quan