몬테카를로

[인공지능] Monte Carlo Tree Search 요약

2023.10.26

플레이어의 이익이나 손실은 정확히 상대방들의 이익이나 손실과 균형을 이룬다. 전통적인 전략 - MinMax 각 상태에서 상대방의 최대 보상을 최소화하려고 시도 (나시 균형) 철저한 탐색 밴딧 기반 메소드 K개의 행동/움직임 중 선택 최상의 움직임을 계속해서 선택하여 누적 보상을 극대화해야 함 • 밴딧 기반 메소드는 가장 불확실한 가지를 **탐색(Exploration)**하고 가장 유망한 가지를 **개발(Exploitation)**하는 효율적인 트레이드오프로 알려져 있어서 트리 탐색에 사용된다. • 상한 신뢰 구간 (UCB) 밴딧 알고리즘은 트리 탐색에 적용되며 UCT (트리에 적용된 상한 신뢰 구간)라고 한다. MCTS overview 부분 탐색 트리를 반복적으로 구축 반복 가장 긴급한 노드 트리 정책 ..

[인공지능] Monte Carlo Tree Search 요약

티스토리툴바