Các bot AI tiếp tục thể hiện vị thế "chiếu trên" trong thế giới video game, khi mà tuần trước, bot của OpenAI vừa đánh bại game thủ con người trong Dota 2, thì tuần này, bot của DeepMind - một công ty con của Google - cũng khiến các game thủ "choáng váng" trong chế độ chơi "Cướp cờ" của game Quake III.
Cũng như những ví dụ trước đây về huấn luyện AI chơi video game, thách thức ở đây là làm sao để có thể "dạy" bot AI biết cách điều hướng trong môi trường 3D phức tạp chỉ với một lượng thông tin ít ỏi được cung cấp. Các nhà nghiên cứu của DeepMind đã sử dụng một phương thức huấn luyện AI đang trở nên phổ biến hiện nay là "học tăng cường" - tức về cơ bản là cho AI thử đi thử lại nhiều giải pháp giải quyết vấn đề cho đến khi tìm được giải pháp phù hợp nhất trên quy mô lớn.
Các bot AI của DeepMind ban đầu không hề được hướng dẫn cách chơi Quake III, nhưng vẫn được cho đấu với chính bản thân chúng cho đến khi tự tìm ra những chiến thuật cần thiết để giành chiến thắng. Thông thường, điều này có nghĩa là một phiên bản của bot AI sẽ chơi với bản sao của nó. DeepMind đã tăng cường công thức này đôi chút khi huấn luyện 30 bot AI cùng một lúc để khám phá nhiều lối chơi đa dạng. Để huấn luyện AI theo cách này, bạn phải trải qua bao nhiêu trận game? Câu trả lời là gần nửa triệu trận, và mỗi trận kéo dài 5 phút mà thôi.
Góc nhìn của bot trong game và bản đồ tổng quát được tạo ra
Thế nhưng kỹ thuật nghe có vẻ đơn giản này đã mang lại những kết quả vô cùng ấn tượng khi tạo ra những hành vi phức tạp cho các bot AI. Cụ thể, bot AI của DeepMind không chỉ học được luật chơi cơ bản của thể loại "Cướp cờ" (lấy cờ từ căn cứ đối thủ và mang về căn cứ của phe ta trước khi đối thủ làm điều tương tự), chúng còn học được cách canh gác cờ của chính mình, "cắm" quân ở gần căn cứ của đối thủ và đi theo các đồng đội để tham chiến khi cần thiết.
Để tăng độ thách thức đối với các bot AI, mỗi trận đấu sẽ được tiến hành trên một bản đồ hoàn toàn mới được tạo ra ngẫu nhiên, nhằm đảm bảo các bot không chỉ học được các chiến thuật chỉ hoạt động trên một bản đồ duy nhất.
Không như bot chơi Dota 2 của OpenAI, các bot của DeepMind không được truy xuất đến các dữ liệu số thuần về trò chơi - các số liệu liên quan khoảng cách giữa các đối thủ và thanh máu. Thay vào đó, chúng học cách chơi chỉ bằng cách nhìn vào hình ảnh hiển thị trên màn hình, như con người vậy. Tuy nhiên, điều này không có nghĩa bot của DeepMind đối mặt với thách thức cao hơn; bởi Dota 2 nhìn chung là một tựa game phức tạp hơn rất nhiều so với phiên bản rút gọn của Quake III mà bot của DeepMind đang chơi.
Bot AI của DeepMind chơi Quake III
Để kiểm tra khả năng của bot AI, DeepMind đã tổ chức một giải đấu nhỏ với các đội chơi gồm : 1 đội chỉ có 2 bot, 1 đội chỉ có 2 người, và 1 đội gồm bot và người kết hợp với nhau. Đội chỉ toàn bot chơi hay nhất, với khả năng thắng lên đến 74%, so với tỉ lệ thắng 43% của đội người chơi trung bình và 52% của đội người chơi giỏi. Do đó, rõ ràng các bot AI chơi tốt hơn con người.
Đồ thị cho thấy chỉ số năng lực (Elo) của người chơi. Bot "FTW" của DeepMind có chỉ số cao nhất
Tuy nhiên, cũng cần chú ý rằng một đội càng có nhiều bot AI càng chơi tệ hơn. Đội gồm 4 bot của DeepMind có tỉ lệ thắng chỉ 65% mà thôi, cho thấy dù các bot này đã học được cách phối hợp, chúng vẫn không thể thực hiện các tác vụ nhóm phức tạp hơn.
Các nghiên cứu như thế này có mục đích không phải để đánh bại con người trong các video game, mà là để tìm ra những phương thức mới trong việc "dạy" các bot các điều hướng trong những môi trường phức tạp trong khi vẫn theo đuổi một mục tiêu chung. Nói cách khác, các nhà nghiên cứu muốn dạy AI cách hoạt động tập thể - một điều quan trọng trong thành công của loài người từ trước đến nay. "Cướp cờ" chỉ là một cánh cửa để hướng đến các game lớn hơn mà thôi.
Tham khảo: TheVerge