Báo Cáo Môn Các Chuyên Đề Về Khoa Học Máy Tính Đề Tài Alphago To Alphazero.pdf

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÁO CÁO MÔN:

CÁC CHUYÊN ĐỀ VỀ KHOA HỌC MÁY TÍNHĐỀ TÀI:

AlphaGo to AlphaZero

Hà Nội, 2023

Trang 2

II Mạng nơ-ron của AlphaZero: 4

III.Cây tìm kiếm Monte Carlo & Cơ chế Self-play (tự chơi): 5

IV Cơ chế Đấu trường (Arena): 8

Chương 4: Tiềm năng, hạn chế 9

Trang 3

Chương 1: Lịch sử

 02/1996: Siêu máy tính Deep Blue của IBM giành được 1 ván thắng trước

nhà vô địch cờ vua lúc bấy giờ là đại kiện tướng Garry Kasparov đó là ván đấu đầu tiên trong tổng số 6 ván mặc dù Deep đã để thua 3 ván và hòa 2 ván sau nhưng đây vẫn đánh dấu 1 cột mốc quan trọng trong việc ứng dụng trí tuệ nhân tạo và máy tính trong các trò chơi của con người.

 05/1997: Trận tái đấu giữa siêu máy tính Deep Blue và Garry Kasparov

được diễn ra nhưng lần này siêu máy tính Deep Blue đã dành chiến thắng chung cuộc sau 6 ván đấu với tỉ số 2 ván thắng, 1 ván thua và 6 ván hòa Đặc biệt ở ván 6 Garry Kasparov đã để thua chóng vánh sau 19 nước đi Chiến thắng này của Deep Blue đã đánh dấu cột mốc máy tính và trí tuệ nhân tạo đã hoàn toàn vượt qua con người trong bộ môn cờ vua.

 Năm 2016: DeepMind của Google ra mắt AlphaGo, một phần mềm chơi cờ

vây và AlphaGo đã đánh bại Lee Sedol nhà vô địch cờ vây thế giới 18 lần với tỉ số 4-1 và chiến thắng Ke Jie - nhà đương kim vô địch cờ vây thế giới với tỉ số 3-0

 10/2017: Phiên bản tân tiến hơn của AlphaGo là AlphaGo Zero ra mắt vượt

qua tất cả phiên bản tốt nhất của AlphaGo chỉ trong 40 ngày với tỉ số 100-0 Và như chữ “Zero” trong tên Alpha Zero không cần bất cứ nước đi nào của loài người

 12/2017: Thành viên tiếp theo trong gia đình “Alpha” AlphaZero được ra

mắt không chỉ giới hạn ở cờ vây, AlphaZero được mở rộng và chơi được các bộ môn cờ khác như shogi và cờ vua.

Trang 4

Chương 2: AlphaGo I Tổng quan:

Việc AlphaGo đánh bại Lee Sedol đã gây chấn động giới cờ vây và một bộ phim tài liệu có tựa đề “AlphaGo” cũng được ra mắt thuật lại toàn bộ quá trình phát triển AlphaGo và những trận đấu với Lee Sedol

II Mạng nơ-ron:

AlphaGo sử dụng 4 Deep Convolutional Neural Network (Mạng nơ-ron tích chập sâu), 3 Policy Network (Mạng chính sách) và 1 Value Network (Mạng giá trị)  Supervised Learning Policy Network (Mạng chính sách học có giám sát): 2 mạng chính sách được học các nước đi của các kì thủ, hay còn gọi là Imitation Learning (học bắt chước).

 Reinforcement Learning Policy Network (mạng chính sách học tăng cường): Mạng chính sách thứ ba này được học tăng cường dựa trên cơ chế self-play (tự chơi) Mạng hiện tại luôn được chơi với một mạng được chọn ngẫu nhiên từ một vài lần lặp trước đó.

 Rollout policy (chính sách triển khai) là một mạng nơ-ron nhỏ hơn Rollout policy nhằm mô phỏng một cách nhanh chóng và đơn giản các nước đi tiếp theo từ một trạng thái cụ thể trên bàn cờ Trong quá trình rollout, không có sự giả định về chiến thuật hay chiến lược cao cấp Thay vào đó, rollout policy đơn giản chỉ đưa ra quyết định tạm thời mà không cần phải suy nghĩ sâu về chiến thuật chiến lược Tuy nhiên, thời gian suy luận của mạng chính sách triển khai rất ngắn, điều này rất hữu ích cho việc mô phỏng trên cây tìm kiếm Monte Carlo

 Sau đó, bộ dữ liệu self-play (tự chơi) đào tạo Mạng giá trị để dự đoán người thắng cuộc tại trạng thái hiện tại của trò chơi.

Hình 1: Các mạng nơ-ron bên trong AlphaGo.

 Cuối cùng, toàn bộ các Mạng trạng thái và Mạng giá trị ở trên được gom lại và đưa vào Monte Carlo Tree Search (Cây tìm kiếm Monte Carlo) Cây Monte

Trang 5

Carlo hoạt động dựa trên 4 cơ chế chính: Selection (Lựa chọn) – Expansion (Mở rộng) – Evaluation (Đánh giá) – Backup (Cập nhật) Chuỗi nước đi đại diện như một nhánh cây Nhánh được truy cập nhiều nhất được đánh dấu là nước đi tốt nhất.

Hình 2: Các bước hoạt động trong cây tìm kiếm Monte Carlo

III.Hạn chế:

Ở trận đấu thứ 4 bằng nước đi thứ 78 Lee Sedol đã đánh bại AlphaGo Điều quan trọng là sau nước đi thứ 78 AlphaGo vẫn tự tin vào tỉ lệ thắng của mình và rất nhanh lựa chọn ra nước đi có tỉ lệ thắng cao nhất và sau đó 10 nước từ nước đi thứ 87 tỉ lệ thắng được tính toán bởi AlphaGo giảm mạnh và thời gian tính toán tăng đột ngột và cuối cùng phải đầu hàng ở nước 105 Điều này được nhà phát triển nhận định nguyên nhân do AlphaGo học vẹt nước đi của con người quá nhiều khiến cho trong quá trình tìm kiếm cây Monte Carlo, AlphaGo đã cố gắng cắt bỏ những nhánh trình tự ít liên quan hơn nên với những nước cờ đặc biệt.

Trang 6

Chương 3: AlphaGo Zero – AlphaZero I Tổng quan:

Để khắc phục hạn chế của AlphaGo phiên bản tân tiến hơn AlphaGo Zero đã được ra bắt đầu từ “con số 0”, không cần bất cứ nước đi chuyên gia của loài người.

 Ngay sau 2 tháng thành viên mới của gia đình Alpha là AlphaZero được ra mắt không những không bị giới hạn ở bộ môn cờ vây như thành viên tiền nhiệm AlphaGo Zero, AlphaZero còn đánh bại AlphaGo Zero ở chính bộ môn cờ vây đồng thời đánh bại các chương trình máy tính hàng đầu khác như Stockfish ở môn cờ vua và Elmo ở môn Shogi.

Hình 3: Tỉ lệ thắng của AlphaZero với các chương trình đánh cờ

Trang 7

 AlphaZero chỉ mất 4 tiếng để đánh bại Stockfish, 2 tiếng để đánh bại Elmo và 30 tiếng để vượt qua người tiền nhiệm AlphaGo Zero

II Mạng nơ-ron của AlphaZero:

 Loại bỏ mạng học có giám sát trên nước đi của chuyên gia, dữ liệu hoàn toàn tự sinh dựa trên cơ chế tự học, tự chơi (self-play).

 Đầu vào của mạng nơ-ron là tình trạng bàn cờ (vị trí các quân cờ trên bàn) Dữ liệu thông tin của bàn cờ tiếp tục được đưa vào 1 lớp Convolutional (tích chập), theo sau bởi 19 hoặc 39 lớp Residual.

 Cuối cùng, mạng nơ-ron xuất ra hai đầu là Value Head (Đầu ra Giá trị) và Policy Head (Đầu ra Chính sách).

 Một điểm nâng cấp quan trọng nữa của AlphaZero so với AlphaGo là AlphaZero đã kết hợp Mạng chính sách và Mạng giá trị để cùng chia sẻ các tham số Mục đích là để học hỏi xem những trạng thái nào sẽ dẫn đến kết quả thắng hoặc thua Ngoài ra, quá trình học Chính sách cung cấp ước tính khả thi hơn về những nước cờ tốt nhất tại trạng thái bàn cờ hiện tại Kiến trúc của mạng nơ-ron nói chung sẽ phụ thuộc hoàn toàn vào trò chơi Hầu hết các loại trò chơi bàn cờ như cờ vây, cờ vua, cờ shogi… đều có thể sử dụng kiến trúc mạng tích

Trang 8

chập nhiều lớp.

Hình 5: Cấu trúc mạng nơ-ron của AlphaZero

III.Cây tìm kiếm Monte Carlo & Cơ chế Self-play (tự chơi):

Trang 9

Cây tìm kiếm Monte Carlo vẫn được DeepMind tin tưởng để sử dụng làm nòng cốt của quá trình tự chơi của AlphaZero Trên cây tìm kiếm, mỗi nút trên cây được định nghĩa là một trạng thái của bàn cờ Cơ chế tự chơi được phối hợp với cây tìm kiếm Monte Carlo bao gồm 4 bước như sau:

 Lựa chọn: Những nước đi được lựa chọn dựa trên những thông tin đã có trên cây Monte Carlo Hàm lựa chọn được thực hiện theo lối đệ quy cho đến khi đạt tới một nút lá trên cây, đồng nghĩa hàm lựa chọn đã tìm đến trạng thái chưa được truy cập.

 Mở rộng: một nút, hay một trạng thái hoàn toàn mới, chưa được truy cập sẽ được chọn ngẫu nhiên và được gắn thêm vào cây tìm kiếm.

 Mô phỏng: Từ trạng thái vừa được mở rộng, một quá trình mô phỏng chuỗi các nước đi hoàn toàn ngẫu nhiên trong tương lai, cho đến khi ván đấu khép lại và quyết định người chiến thắng Với cờ vua, giá trị kết thúc của bàn cờ có thể được quy là +1 (cờ trắng thắng), 0 (hòa cờ) và -1 (cờ đen thắng).

 Cập nhật: Tất cả các nút trên đường dẫn đã chọn đều được cập nhật thông tin, tương ứng với kết quả của ván đấu thu được từ quá trình mô phỏng.

Hình 6: 4 bước trong chu trình hình thành cây tìm kiếm Monte Carlo

 Tại trạng thái bàn cờ đầu tiên, cây tìm kiếm bắt đầu từ nút gốc của cây và thực hiện quá trình mô phỏng với độ sâu tối đa của cây là 1600 nước đi trong tương lai – dựa theo thông số trong bài báo của DeepMind.

 Trong quá trình mô phỏng, hành động tối ưu nhất sẽ được chọn, tùy thuộc vào chỉ số khám phá (đi thử những nước đi mới) hoặc khai thác (chọn nước đi có phần thưởng cao nhất).

Trang 10

 Sau đó, trạng thái bàn cờ hiện tại được đưa vào mạng nơ-ron và xuất ra dự đoán hai giá trị sau: Xác suất của các nước đi (Policy) và Giá trị của trạng thái (Value) Các nước cờ khả thi tại trạng thái bàn cờ mới sẽ được gắn thêm giá trị xác suất.

 Đồng thời, tất cả các nước cờ dẫn tới trạng thái bàn cờ hiện tại sẽ được cập nhật lại ba giá trị khác nhau: Số lần thực hiện nước cờ, Tổng giá trị của nước cờ và Giá trị trung bình của nước cờ.

 Cuối cùng, nước cờ tiếp theo sẽ được quyết định dựa vào yếu tố khai thác hay khám phá Chi tiết quá trình này được mô tả trong hình dưới đây.

Hình 7: Quá trình chọn nước cờ mới từ trạng thái bàn cờ hiện tại

Trang 11

IV Cơ chế Đấu trường (Arena):

Sau khi toàn bộ cây tìm kiếm Monte Carlo đã được hoàn thiện, mô hình mạng nơ-ron cũng đã được tối ưu, một phiên bản AlphaZero ra đời Và để đánh giá phiên bản AlphaZero nào là vượt trội DeepMind đã áp dụng cơ chế Đấu trường (Arena) để cho các phiên bản AlphaZero khác nhau thi đấu với nhau Phiên bản nào giành được số ván thắng vượt trội hơn sẽ được lựa chọn làm nhà vô địch Các phiên bản mới khác sẽ đóng vai kẻ thách đấu với hi vọng lật đổ phiên bản vô địch trước đó Đến cuối cùng, phiên bản vô đối nhất, đã đánh bại hàng trăm phiên bản khác sẽ được chọn là phiên bản cuối cùng

Trang 12

Chương 4: Tiềm năng, hạn chế I Tiềm năng:

1 Trong các bộ môn cờ: Đầu tiên, bằng cơ chế tự chơi, AlphaZero sẽ chơi

những nước cờ nằm trong dự kiến Đặc biệt, với cơ chế cân bằng khám phá và khai thác, nó ưu tiên những nước đi hứa hẹn, đồng thời cân nhắc xem liệu đối phương sẽ phản ứng với nước đi của mình như thế nào Song song, nó vẫn tiếp tục khám phá và thử nghiệm những nước đi mới mẻ

 Khi gặp một thế cờ lạ, AlphaZero sẽ đánh giá mức độ thuận lợi của các nước đi khả thi và xếp hạng điểm số chuỗi nước đi dẫn tới thế cờ hiện tại  Sau khi đã suy nghĩ xong về các khả năng trong tương lai, AlphaZero sẽ ra tay đi nước cờ tiếp theo Cho đến khi ván đấu khép lại, ta sẽ quay lại và đánh giá xem mình đã đánh giá sai ở đâu, giá trị của các vị trí trong tương lai và cập nhật kiến thức của bản thân cho phù hợp.

 Nghe có vẻ giống như cách loài người chúng ta học chơi cờ phải không? Do đó các nước cờ của AlphaZero được các đại kiện tướng của các bộ môn cờ là sáng tạo không bị gò bó bởi kiến thức của con người Thậm trí việc nghiên cứu nước đi của AlphaZero còn được Matthew Sadler một kiện tướng quốc tế ví như “Nó giống như khám phá những cuốn sổ ghi chép bí mật của một kỳ thủ vĩ đại nào đó trong quá khứ.”

2 Ứng dụng trong cuộc sống: Việc AlphaZero có thể Self-play (tự chơi) để

tự sinh dữ liệu mà không cần đến dữ liệu con người có thể mở ra rất nhiều tiềm năng ứng dụng trong cuộc sống

Hình 6: Câu trả lời của đội trưởng đội nghiên cứu AlphaZero

Trang 13

II Hạn chế:

Mục tiêu hoàn hảo cho một thế giới không hoàn hảo: Một đặc điểm chung của nhiều trò chơi, bao gồm cả cờ vua và cờ vây, là người chơi có thể nhìn thấy tất cả các quân cờ của cả hai bên vào mọi lúc Mỗi người chơi luôn có cái được gọi là “thông tin hoàn hảo” về trạng thái của trò chơi Dù trò chơi có phức tạp đến mức nào, tất cả những gì bạn cần làm là suy nghĩ về tình hình hiện tại.

Trang 14

TÀI LIỆU THAM KHẢO:

[1] Rudolf, Anna; (2018), “AlphaZero’s Attacking Chess”, https://www.theverge.com/2017/12/6/16741106/deepmind-ai-chess-alphazero-shogi-go (accessed Oct 15, 2020).

[3] For a very detailed analysis: Hassabis, Silver, et All (2018) “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.

[4] “AlphaGo | DeepMind.”

https://deepmind.com/research/case-studies/alphago-the-story-so-far (accessed Oct 15, 2020).