QMAP01 Cross validation mapping

number of epochs: 20k

Rewards are no longer limited by a lower and upper limit.

The ranges for learning rate, epsilon and discount were chosen from the results of Q-CV4

All values for mapping are used.

training.simrunner.RewardHandlerName.continuous-consider-all

Considers all simulation events for calculating the reward.

Possible simulation events created for an agent:

After every simulation step:
- Pushed the opponent. Reward = +0.5
- Is pushed by the opponent. Reward = -0.1
At simulation end:
- Winner by pushing the opponent: Reward = 100 + t * 50
- Looser without being pushed: Reward = -100 - t * 50
- Looser being pushed: Reward: -10

(t * x) is the 'speed bonus'

t = 1 - (s / max_s)

s:     Number of steps when th simulation ended   
max_s: Max number of steps for a simulation

Means, the reward/penalty is higher the shorter the simulation ran. The agent gets a higher reward when fast pushing out the opponent, or a higher penalty when fast moving unforced out of the field.

training.parallel.ParallelConfig.q-map-0

	L0
learning rate	0.7

	E0
epsilon	0.05

	D0	D1
discount	0.5	0.8

	M0	M1	M2	M3
mapping	non-linear-1	non-linear-2	non-linear-3	non-linear-4

L0 E0 D0 M0

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D0 M1

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D0 M2

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D0 M3

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D1 M0

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D1 M1

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D1 M2

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11

L0 E0 D1 M3

q-values
video 0 video 1 video 2 video 3
video 4 video 5 video 6 video 7
video 8 video 9 video 10 video 11