強化学習入門：Q-learning徹底解説

August 27, 2025

強化学習入門：仕組みと簡単なPython実装

強化学習は、機械学習の一分野であり、エージェントが環境と相互作用し、報酬を最大化するように学習する手法です。人間が経験を通じて学習するのと同じように、試行錯誤を繰り返すことで最適な行動を学習します。

強化学習の基本的な仕組み

強化学習の基本的な仕組みは、以下の３つの要素で構成されます。

エージェント：環境と相互作用する主体です。行動を選択し、環境からの結果（報酬）を受け取ります。
環境：エージェントが行動する対象となる世界です。エージェントの行動に応じて状態の変化や報酬を与えます。
報酬：エージェントの行動に対する評価値です。報酬がプラスであれば良い行動、マイナスであれば悪い行動と判断されます。

エージェントは、自分の行動がどのように報酬に影響を与えるかを学習し、より多くの報酬を得られるように行動を選択します。このプロセスを繰り返すことで、エージェントは最適な行動ポリシー（どのような状況でどのような行動をとるか）を学習します。

簡単なPython実装例 (Q-learning)

ここでは、強化学習の基本的なアルゴリズムであるQ-learningを用いた簡単な実装例を紹介します。

    
import numpy as np

# Q-tableの初期化 (状態と行動の組み合わせに対するQ値)
Q = np.zeros((5, 5)) # 5x5の環境を想定

# 学習率
alpha = 0.1
# 割引率
gamma = 0.9
# エピソード数
episodes = 1000

for episode in range(episodes):
    state = 0 # 初期状態
    done = False
    while not done:
        # 行動の選択 (ε-greedy法を使用)
        if np.random.uniform(0, 1) < 0.1:
            action = np.random.randint(0, 4) # ランダムに行動を選択
        else:
            # Q値に基づいて最適な行動を選択
            action = np.argmax(Q[state, :])

        # 環境との相互作用
        # ここでは、環境の遷移と報酬を単純化して表現
        if action == 0:
            reward = 1
            next_state = 1
        elif action == 1:
            reward = 0
            next_state = 2
        else:
            reward = -1
            next_state = 3

        # Q値の更新
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * Q[next_state, :].max())
        state = next_state

        if state == 4:
            done = True
    
print("Q-table:")
print(Q)

このコードは、5x5の環境でQ-learningアルゴリズムを実装しています。環境の状態は0から4、行動は0から3を表します。エージェントは環境と相互作用し、報酬を受け取り、Q値を更新することで学習します。エピソードは環境の状態に到達し、報酬が0になった時点で終了します。

まとめ

強化学習は、エージェントが環境との相互作用を通じて最適な行動を学習する強力な手法です。この入門記事では、強化学習の基本的な仕組みとQ-learningを用いた簡単なPython実装例を紹介しました。この知識を基に、より複雑な強化学習アルゴリズムを学習し、様々な問題に応用してみてください。

Search This Blog

kakakikikeke's Tips