보상기준선택

Reward-based selection

보상 기반 선택은 재조합을 위해 잠재적으로 유용한 솔루션을 선택하기 위한 진화 알고리즘에서 사용되는 기술이다.개인에 대해 선택될 확률은 개인이 획득한 누적 보상에 비례합니다.누적 보상은 부모로부터 물려받은 개인 보상과 보상의 합계로 계산될 수 있다.

묘사

보상 기반 선택은 다목적 최적화를 위해 다중 암 밴디트 프레임워크 내에서 사용되어 파레토 전면의 더 나은 근사치를 얻을 수 있다.[1]

a (g+1 ) {{ a( + )} receive ( + ){ a( g + }( ( a 、 r (( )} the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the the a the the the r r r the the the the the the r r r r r r r r the the r다음과 같은 몇 가지 보상을 정의할 수 있습니다.

  • . r( ) {\r^{(g)}=신생아 a (g +){ 새로운 Q ( +)에 선택되었을 경우
  • 2. ( ) - r ( ( +) ( + ){ r ( g ) } =1 - { \ (a ' ^{ ( + 1} mu1)}\ Q1 서 r n (( +1){ 1)}}는 \mu 모집단에 삽입된 개체의 순위입니다.순위는 잘 알려진 비지배적 정렬 [2]절차를 사용하여 계산할 수 있습니다.
  • 3. ( ) aQ ( + )H ( , (+ ) - Q ( g )H ( , (g ) \ r^ { ( g ) = \ a \ Q^ { + } _ Q 여기서 H {{)}는 하이퍼볼륨입니다.새로 삽입된 개인이 모집단의 질을 향상시켰을 경우 r( g) 0 { r0 은 공간에서의 하이퍼볼륨 기여로 측정된다.
  • 4. 위 보상의 완화(k k - 지배적인 파레토 전방에 등급별 벌점을 포함한다: ( ) k - ( m ( +) H ( , k( + 1) - do m ( + 1) ) ( m ) ( ) ) n do m ) ) - m ( n m ) ) 。

보상 기반 선택은 개인의 누적 보상을 최대화함으로써 가장 생산적인 검색 방향을 빠르게 식별할 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Loshchilov, I.; M. Schoenauer; M. Sebag (2011). "Not all parents are equal for MO-CMA-ES" (PDF). Evolutionary Multi-Criterion Optimization 2011 (EMO 2011). Springer Verlag, LNCS 6576. pp. 31–45. Archived from the original (PDF) on 2012-06-04.
  2. ^ Deb, K.; Pratap, A.; Agarwal, S.; Meyarivan, T. (2002). "A fast and elitist multi-objective genetic algorithm: NSGA-II". IEEE Transactions on Evolutionary Computation. 6 (2): 182–197. CiteSeerX 10.1.1.17.7771. doi:10.1109/4235.996017.