본발명은 다중목적 강화학습(Multi-Objective Reinforcement Learning, MORL)에서, 선호 벡터(preference vector)의 샘플링을 확률 분포 학습 문제로 정식화하고, 엔트로피/쿨백–라이블러(KL) 정규화와 타깃 KL 제어를 이용하여 파레토 전선(Pareto front)의 커버리지와 균형을 향상시키는 선호 분포 학습 방법 및 이를 이용한 강화학습 방법에 관한 것이다.
- 도면을 위한 그림은 추후 추가예정
- 도면을 위한 그림은 추후 추가예정
-
- 대표 발명자
- 이명훈
-
- 출원번호
-
10-2026-0014987
(2026-01-26)