보유 특허 상세 정보를 불러오는 중입니다...
소스 도메인으로부터 타겟 도메인으로의 비디오 대 비디오(Video-to-Video: V2V) 변환에서의 스타일 일관성을 개선하기 위한 방법이 제공되는데, 이는, 소스 도메인으로부터의 M개의 소스 비디오 및 타겟 도메인으로부터의 N개의 타겟 비디오를 포함하는 훈련 샘플로써 V2V 변환을 위한 신경망 모델을 훈련시키는 단계를 포함하되, 신경망 모델은 생성자 망과, 신경망 모델의 훈련 동안에 V2V 변환을 학습하도록 생성자 망을 가이드하는 판별자 망을 포함하고, 신경망 모델을 훈련시키는 단계는, 생성자 망을 가동하여, M개의 소스 비디오 중 주어진 것 및 N개의 타겟 비디오 중 주어진 것에 대하여, 소스 프레임의 제1 입력 시퀀스 및 타겟 프레임의 제2 입력 시퀀스로부터, 변환된 프레임의 출력 시퀀스를 생성하는 단계(제1 입력 시퀀스 내의 소스 프레임 각각은 주어진 소스 비디오 내의 프레임 중 하나이고, 제2 입력 시퀀스 내의 타겟 프레임 각각은 주어진 타겟 비디오 내의 프레임 중 하나이고, 제1 입력 시퀀스 및 제2 입력 시퀀스로부터의 출력 시퀀스의 생성은, 제1 입력 시퀀스 내의 소스 프레임으로부터 각자의 콘텐트 잠재 표현을 생성하는 것과, 제2 입력 시퀀스 내의 타겟 프레임으로부터 각자의 스타일 잠재 표현을 생성하는 것과, 각자의 콘텐트 잠재 표현 및 각자의 스타일 잠재 표현을 출력 시퀀스 내의 변환된 프레임으로 합성하는 것을 포함함)와, 제2 입력 시퀀스 내의 타겟 프레임 중의 특정 타겟 프레임의 스타일 잠재 표현 및 제2 입력 시퀀스 내의 각각의 타겟 프레임의 스타일 잠재 표현 간의 차이에 기반하여 비디오 내 스타일 일관성 손실을 계산하는 단계와, 비디오 내 스타일 일관성 손실에 좌우되는 총 손실에 기반하여 신경망 모델의 파라미터를 조절하는 단계(신경망 모델의 파라미터는 생성자 망의 가중치 및 바이어스를 포함함)를 포함한다.