Искусственный интеллект самостоятельно за сутки научился играть в шахматы на сверхчеловеческом уровне

Алгоритм AlphaZero без человека-учителя за 24 часа овладел шахматами и игрой сёги так, что обыграл другие программы-чемпионы, ранее безоговорочно побеждавшие людей

Иван Ортега

Система AlphaZero всего за 24 часа добилась уровня игры более высокого, чем у любого игроках-человека

Фото: Михаил ФРОЛОВ

Deep Mind, компания-разработчик алгоритмов для искусственного интеллекта (ИИ), опубликовала данные по результатам переучивания алгоритма AlphaGo для игры в шахматы и сёги. Ранее AlphaGo смогла обыграть чемпионов мира по игре в го. Овладеть новыми играми искусственному интеллекту удалось еще быстрее. Соответствующая работа выложена на сервер препринтов Корнелльского университета.

AlphaZero использовал метод обучения с подкреплением. Это подтип глубокого машинного обучения, при котором используется не человек-учитель, а исключительно игры между двумя ИИ. Хотя в начале оба ИИ играют очень слабо, за счет высокой скорости (в сравнении с человеком-учителем) они могут сыграть огромное количество партий за небольшой отрезок времени и отобрать хорошо зарекомендовавше себя ходы и их последовательности в тех или иных позициях на доске, что дает возможность алгоритмам крайне быстро нарастить свой уровень.

В данном случае AlphaZero всего за 24 часа добилась уровня игры более высокого, чем у любого игроках-человека. Тогда ей дали сыграть с программами Stockfish, лучшим имеющимся игроком в шахматы, и Elmo, лучшим игроком в сёги (очень сильно модифицированные в раннесредневековой Японии шахматы).

Несмотря на очень малый срок обучения, AlphaZero 28 раз выиграла у Stockfish и еще 72 раза сыграла вничью. У Elmo ей удалось выиграть 90 раз, 8 раз проиграть и 2 раза сыграть вничью. Это необычайно высокие результаты. И шахматы, и сёги очень сильно отличаются от го, для которого исходно создавалась AlphaGo, а также друг от друга. К примеру, «японские шахматы» подразумевают крайне экзотические возможности, такие как игра любой из «съеденных» фигур врага. Победа алгоритма, созданного для го только за счет игры с себе подобным полностью идентичным алгоритмом означает, что человек-учитель для достижения совершенства в этой игре компьютерам уже не нужен.