Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

그룹화된 토큰 제거방식을 가지는 Vision Transformer

Title
그룹화된 토큰 제거방식을 가지는 Vision Transformer
Authors
이승주
Date Issued
2024
Abstract
Vision Transformer (ViT) excels in vision tasks but faces challenges in deploying on resource-constrained edge devices due to high computational and memory demands. Token pruning methods aim to alleviate this, but most do not consider practical use in embedded devices, where a substantial reduction in computational load is crucial. In this paper, we introduce ViT-ToGo, a ViT accelerator with grouped token pruning. This enables the parallel execution of the ViT models and the token pruning process. We implement grouped token pruning with a head-wise importance estimator which simplifies the process need for token pruning, including sorting and reordering. Our proposed method achieves up to 66% reduction in the number of tokens, resulting in up to 6% reduction in GFLOPs, with only a minimal accuracy drop of around 1%. Furthermore, the hardware implementation incurs a marginal resource overhead of 1.13% in average.
본 논문에서는 Vision Transformer 모델의 연산량을 학습 및 추론 단계에서 실시간으로 감소시킬 수 있는 새로운 토큰 제거 기법과 해당 기법을 하드웨어에서도 적용할 수 있는 구조를 제안한다: • 인접한 토큰을 하나의 그룹으로 묶고 그룹단위로 토큰을 제거하는 방법을 제안하여 더 적은 추가 연산으로도 불필요한 토큰을 제거할 수 있도록 하였음. • 기존의 토큰 중요도 계산 방식에서 헤드 중요도를 반영하는 방법을 제안하여 더 정확한 토큰 중요도 계산 기법으로 발전시켜 정확도 향상을 보였음. • 토큰 제거를 위한 추가적인 하드웨어 리소스 사용을 최소화하는 하드웨어 구조를 제안하여 임베디드 시스템에서 그룹화된 토큰 제거 방식을 이용해 실시간 연산량 감소를 보였음. 제안한 방법은 Vision Transformer - Tiny, Small, Base와 Cifar10, Cifar100, ImageNet에 대해 최대 36.59%의 GFLOPs 연산량 감소를 달성하였으며, Xilinx ZCU104 FPGA 보드에서 평균 1.13%의 추가 리소스만을 요구하여 효율적인 하드웨어 리소스 사용을 가능하도록 한다.
URI
http://postech.dcollection.net/common/orgView/200000733787
https://oasis.postech.ac.kr/handle/2014.oak/123387
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse