OpenAI, phòng thí nghiệm nghiên cứu trí tuệ nhân tạo được thành lập bởi Sam Altman và Elon Musk, gần đây đã tuyên bố sẽ gửi một đội đến Vancouver vào tháng 8 để tham gia một giải đấu chuyên nghiệp của tựa game online nổi tiếng DOTA 2. Nhưng không giống như các đội khác sẽ cạnh tranh cho giải thưởng nhiều triệu đô la, nhóm của OpenAI sẽ không liên quan đến con người, ít nhất là không trực tiếp.
Được gọi là OpenAI Five, bao gồm năm neural network nhân tạo đã được "tôi luyện" thông qua sức mạnh tính toán khổng lồ của đám mây Google và thực hành trò chơi hàng ngàn, hàng triệu lần. OpenAI Five đã thực sự là vô địch trong Dota 2 bán chuyên và sẽ tiếp tục thử nghiệm khả năng của nó với những top 1% game thủ hàng đầu vào tháng Tám năm nay.
Theo tờ New York Times, OpenAI đang được hoạt động cùng một số nhà khoa học hàng đầu thế giới về AI, với mức lương họ kiếm được là hàng triệu đô la. Xét cho cùng, không viết rằng liệu họ có thể làm việc để ứng dụng AI trên những vấn đề quan trọng hơn, chẳng hạn như phát triển AI có thể chống lại ung thư hoặc khiến những chiếc xe tự lái an toàn hơn không?
Thoạt nhìn, việc chi tiêu tài nguyên máy tính đắt tiền và quy tụ các tài năng AI hàng đầu để dạy AI chơi game có vẻ vô ích. Vô lý hơn khi có vẻ như một số trò chơi đã được chứng minh là một phần quan trọng trong nghiên cứu AI. Từ môn cờ vua nhẹ nhàng đến game khủng DOTA 2, mỗi khi AI đã chinh phục được một trò chơi, nó đã giúp chúng ta phá vỡ nền tảng mới trong khoa học máy tính và các lĩnh vực khác.
Game giúp theo dõi tiến độ của AI
Kể từ khi thành lập ý tưởng về trí thông minh nhân tạo trong những năm 1950, game đã là một cách hiệu quả để đo lường năng lực của AI. Chúng đặc biệt thuận tiện trong việc kiểm tra năng lực của các kỹ thuật AI mới, bởi bạn có thể định lượng hiệu suất của AI với điểm số và thắng-thua và so sánh nó với con người hoặc AI khác.
Trò chơi đầu tiên mà các nhà nghiên cứu cố gắng để làm chủ thông qua AI là cờ vua, là trò mà trong những ngày đầu được coi là thử nghiệm tối thượng của tiến bộ trong lĩnh vực này. Năm 1996, Deep Blue của IBM là máy tính đầu tiên đánh bại một nhà vô địch thế giới (Garry Kasparov) trong môn cờ vua. AI đằng sau Deep Blue sử dụng phương pháp brute-force để phân tích hàng triệu chuỗi lệnh trước khi thực hiện di chuyển.
Tuy nhiên, phương pháp của Deep Blue để làm chủ môn cờ không còn hiệu quả để giải quyết các trò chơi phức tạp hơn. Theo tiêu chuẩn ngày nay, phương pháp đó được xem là thô. Khi Deep Blue đánh bại kiện tướng Kasparov, đã có một nhà khoa học nhận xét rằng sẽ mất thêm một trăm năm nữa để AI có thể chinh phục môn Cờ Vây của Trung Quốc, nổi tiếng với lượng đường đi nhiều hơn cả số lượng nguyên tử trong vũ trụ.
Nhưng trong năm 2016, các nhà nghiên cứu DeepMind - công ty AI thuộc sở hữu của Google - đã tạo ra AlphaGo, AI này đã đánh bại Lee Sedol - nhà vô địch Cờ Vây thế giới - với tỉ số 4-1 trong một cuộc thi năm ván đấu. AlphaGo thay thế phương pháp brute-force của Deep Blue bằng deep learning, một kỹ thuật AI hoạt động theo cách tương tự như cách thức hoạt động của bộ não con người. Thay vì kiểm tra mọi kết hợp có thể, AlphaGo đã kiểm tra cách con người chơi Cờ Vây, sau đó cố gắng tìm ra và nhân rộng các mẫu gameplay thành công.
Các nhà nghiên cứu của DeepMind sau đó đã tạo ra AlphaGo Zero, một phiên bản cải tiến của AlphaGo với phương pháp reinforcement learning được sử dụng, một phương pháp không yêu cầu có đầu vào của người. AlphaGo Zero đã được dạy các quy tắc cơ bản của môn Cờ Vây và được học cách chơi game bằng cách tự chống lại chính nó vô số lần. Và AlphaGo Zero đã đánh bại người tiền nhiệm của nó.
Tuy nhiên, các trò chơi trên có những hạn chế nhất định. Đầu tiên, chúng được chơi dựa theo lượt, có nghĩa là AI không bị căng thẳng để đưa ra quyết định trong một môi trường thay đổi liên tục. Thứ hai, AI có quyền truy cập vào tất cả các thông tin trong môi trường và không phải dự đoán hoặc chấp nhận rủi ro dựa trên các yếu tố không xác định.
Xem xét về điều này, một AI được gọi là Libratus đã thực hiện bước đột phá tiếp theo trong nghiên cứu trí tuệ nhân tạo với việc đánh bại những người chơi Texas Hold 'Em poker giỏi nhất. Được phát triển bởi các nhà nghiên cứu tại Carnegie Mellon, Libratus cho thấy AI có thể cạnh tranh với con người trong những tình huống mà nó chỉ có thể truy cập thông tin một phần. Libratus sử dụng một số kỹ thuật AI để học poker và cải thiện lối chơi của nó khi nó kiểm tra chiến thuật của các đối thủ con người.
Game thời gian thực là ranh giới tiếp theo cho AI và thực tế là OpenAI không phải là tổ chức duy nhất tham gia vào lĩnh vực này. Facebook đã thử nghiệm dạy AI chơi game chiến lược thời gian thực StarCraft, và DeepMind đã phát triển một AI có thể chơi trò chơi bắn súng góc nhìn thứ nhất Quake III. Mỗi trò chơi đều mang các thách thức riêng, nhưng mẫu số chung là tất cả chúng đều thử thách AI với môi trường mà chúng phải đưa ra quyết định trong thời gian thực và thông tin không đầy đủ. Hơn nữa, chúng cung cấp cho AI một đấu trường, nơi AI có thể kiểm tra sức mạnh của nó trong việc chống lại một nhóm đối thủ và tìm hiểu tinh thần đồng đội.
Hiện tại, không ai phát triển AI nhằm đánh bại game thủ chuyên nghiệp. Nhưng thực tế là AI đang cạnh tranh với con người ở những trò chơi phức tạp để cho thấy chúng phát triển đến mức nào.
Game giúp phát triển AI trong các lĩnh vực khác
Trong khi các nhà khoa học đã sử dụng game làm thử nghiệm để phát triển kỹ thuật AI mới, thì thành tích của chúng vẫn không giới hạn chỉ trong các trò chơi. Trên thực tế, AI chơi game đã mở đường cho sự đổi mới trong các lĩnh vực khác.
Năm 2011, IBM đã giới thiệu một siêu máy tính có khả năng xử lý và tạo ngôn ngữ tự nhiên (NLG/NLP) và được đặt theo tên cựu giám đốc điều hành của công ty Thomas J Watson. Siêu máy tính này đã thi đấu hai người chơi giỏi nhất thế giới trong game đố vui Jeopardy trên truyền hình nổi tiếng, và đã giành chiến thắng. Watson sau này trở thành cơ sở cho một dòng dịch vụ AI khổng lồ của IBM trong các lĩnh vực khác nhau bao gồm chăm sóc sức khỏe, an ninh mạng và dự báo thời tiết.
Ngoài ra, DeepMind đang sử dụng kinh nghiệm của mình từ việc phát triển AlphaGo để sử dụng AI trong các lĩnh vực khác, nơi reinforcement learning có thể trợ giúp rất nhiều. Công ty đã đưa ra một dự án với National Grid UK để sử dụng các tính năng của AlphaGo để nâng cao hiệu quả của lưới điện nước Anh. Google, công ty mẹ của DeepMind, cũng đang sử dụng kỹ thuật này để cắt giảm chi phí điện năng của các trung tâm dữ liệu khổng lồ của mình bằng cách tự động hóa việc kiểm soát tiêu thụ phần cứng khác. Google cũng đang sử dụng reinforcement learning để đào tạo rô-bốt mà một ngày nào đó sẽ xử lý các đối tượng này trong các nhà máy.
Libratus, AI chơi poker, có thể giúp phát triển các loại thuật toán có thể giúp trong nhiều tình huống khác nhau như đàm phán chính trị và đấu giá, nơi AI phải chấp nhận rủi ro và hy sinh ngắn hạn cho lợi ích lâu dài.
Chắc hẳn mọi người đang mong chờ được xem OpenAI Five sẽ biểu diễn như thế nào trong cuộc thi Dota 2 tháng Tám. Tôi thì không đặc biệt quan tâm đến việc liệu các neural network và các nhà phát triển của nó có nhận được giải thưởng trị giá 15 triệu đô la hay không. Điều tôi rất muốn xem là những gì mà các cánh cửa thành tựu của nó sẽ mở ra...