Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Efficient Data Representation for Visual Content Generation

Title
Efficient Data Representation for Visual Content Generation
Authors
유택근
Date Issued
2024
Publisher
포항공과대학교
Abstract
본 학위 논문에서는 각 데이터의 특징을 반영한 효율적인 데이터 표현기법에 기반하여 해상도의 제약에서 벗어나 시각 콘텐츠 생성을 할 수 있는 기법을 제안했다. 생성 모델은 데이터 분포를 모델링할 수 있는 기법들을 통칭하며, 주어진 데이터를 수동적으로 분류할 수 있는 분류 모델과 구별된다. 최근 10년간의 인공지능 연구의 괄목할만한 발전으로 생성 모델 또한 주어진 사용자의 의도에 부합하는 이미지를 생성하는 수준에 이르게 되었다. 이러한 발전된 생성 모델의 성과는 단순히 이미지에만 머무르는 것이 아니라 3차원 물체 및 비디오 도메인의 다양한 시각 콘텐츠 생성까지도 확장되고 있다. 하지만 고품질의 시각 콘텐츠 생성을 위해서는 높은 해상도가 전제되어야 하고 이는 높은 계산량을 요구로 한다. 따라서 해상도와 계산량의 제약 사항을 다루는 것이 근본적인 문제이며, 이는 데이터 표현방식을 개선하여 풀어낼 수 있다. 이를 위하여 효율적인 데이터 표현방식을 제안하는 세 가지 연구를 수행하였다. 첫번째 연구는 피라미드 구조의 시각 토큰을 사용해 이산 시각 토큰 기반 재귀형 생성 모델의 계산량에서 해상도의 제약을 완화하는 국소적 계층 자기 회귀 모델을 제안하였다. 피라미트 시각 토큰은 해상도가 낮은 최상단 토큰에는 이미지 구조 정보가 담도록 인코딩하고 해상도가 높은 최하단 토큰에는 세부 디테일이 인코딩하도록 학습하였다. 이러한 피라미드 구조를 통해서 시각 토큰의 실질적인 해상도는 최하단의 토큰과 동일하게 유지하면서 계산량은 최상단 토큰의 해상도를 갖도록 하여 계산량을 크게 줄일 수 있었다. 두번째 연구는 모델 평균에 기반한 생성형 신경 필드 모델이다. 암시적 신경 표현방식은 행렬이나 복셀이 아니라 입력 좌표를 제공하면 값을 제공해주는 함수를 신경망의 형태로 관리하는 데이터 표현방식이다. 본 연구에서는 암시적 신경 표현방식의 모델 평균을 통해서 생성 모델을 만드는 방식인 암시 신경 함수 혼합 기법을 제안하였다. 이 방식이 해상도를 결정하는 입력 좌표의 갯수에 대해서 효율적이다는 것을 이미지, 복셀 그리고 방사장 벤치마크에서 실증하였다. 마지막으로 세번째 연구는 해상도의 제약이 없는 벡터 이미지의 생성 모델을 다루었고, 벡터 이미 지 샘플 갯수를 크게 증강시켜 학습에 사용하기 위해 스케일을 사용한 확률 분포 증강 기법을 제안하였다. 강한 스케일 증강 사용에 따른 데이터 분포 변화에 대응하기 위해 주어진 스케일에 따라서 생성이 가능한 스케일 조건부 변분 트랜스포머를 도입하였다. 또한 스케일 증강으로 크게 달라지는 좌표 값의 변화를 다루기 위해서 임베딩과 예측 레이어를 연속적인 값을 지원할 수 있도록 변경하였다. 제안된 모델은 스케일 조작성을 가지며 베이스라인 모델 대비 보다 나은 복원-생성 상충 효과를 가짐을 확인하였다. 본 학위논문에서는 해상도에 대한 제약을 완화한 생성 모델을 이미지, 복셀, 방사장 등 다양한 벤치마크에서 수행하여 검증하였으며 제안한 방법들이 기존 기법들 대비 같은 생성 성능일 때 해상도에 대해 효율적임을 확인하였다. 최종적으로 벡터 이미지 생성 모델을 연구하여 해상도에 제약이 없는 성능을 가능하게 하였고 제안한 기법이 베이스라인 대비 성능 향상을 보임을 검증하였다.
In this thesis, we propose techniques for generating visual content free from the constraints of resolution based on efficient data representation. Generative models, which model data distributions, are different from classification models that categorize data passively. Recent advancements in AI have enabled generative models to create images that align with user intentions. These models have expanded from images to creating various visual contents in 3D objects and video domains. However, creating high-quality content often requires high resolution, which means more computing power. Addressing the balance between resolution and computing needs is a fundamental challenge, which can be solved by improving data representation. For this purpose, we conduct three studies on efficient data representation. The first study proposes an auto-regressive generative model using pyramid-structured visual tokens. This model reduces computing needs while keeping high resolution for recursive generative models based on discrete visual tokens. The tokens are encoded to store image structure information at a lower resolution at the top and detailed details at a higher resolution at the bottom. This structure keeps the actual resolution of the visual tokens high while reducing computing needs. The second study introduces a generative neural field model based on averaging multiple models. This approach uses implicit neural representation, a data representation method that manages data as a function providing values for given input coordinates, not as matrices or voxels. This method, called mixtures of neural implicit functions, is efficient for the number of input coordinates that determine resolution, proven across image, voxel, and radiance field benchmarks. The third study addresses a model for creating vector images, which are not limited by resolution. It proposes a technique to significantly increase the number of vector image samples for training using distribution augmentation with scale. Despite using strong scale augmentation, a scale-conditioning variational transformer is built to keep the size of the generated vector images consistent. The embedding and prediction layers were also modified to handle significant scale changes during augmentation. The proposed model has scale controllability and shows an improved trade-off in reconstruction-generation performance compared to baseline models. In summary, we validate models that ease resolution constraints across various formats like images, voxels, and radiance fields. It confirms that these methods are more efficient in handling resolution than existing methods while maintaining the same level of generative performance. Finally, the research on vector image generation models enables high-quality content creation without restrictions on resolution and demonstrates that these methods outperform baseline models.
URI
http://postech.dcollection.net/common/orgView/200000736365
https://oasis.postech.ac.kr/handle/2014.oak/123366
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse