Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Neural Network Re-parameterization for Communication-Efficient Distributed Learning

Title
Neural Network Re-parameterization for Communication-Efficient Distributed Learning
Authors
남현우
Date Issued
2021
Publisher
포항공과대학교
Abstract
최근 새로운 분산 학습 프레임워크로 연합 학습이 제안되었다. 연학 학습은 프라이버시와 보안을 위해서 유저들이 가지고 있는 데이터의 공유가 없으며, 모델의 빈번한 다운로드와 업로드로 모델 학습이 이루어진다. 최신 딥러닝 모델은 많은 파라미터를 갖고 있으며, 이는 사용자 디바이스의 배터리 소모량과 열악한 통신 환경에서의 느린 학습 속도 등 연합 학습에서 통신 병목 현상을 야기한다. 기존의 통신 효율적인 최적화 방식과는 달리 본 논문에서는 로우랭크를 활용한 모델 경량화 매개화를 제안한다. 로우랭크 매트릭스들을 사용하여 모델 레이어의 웨이트를 생성하지만, 기존의 로우랭크 접근 방식과는 달리 하다마드 곱을 이용하여 랭크의 거듭제곱을 달성할 수 있는 매개화 방식이다. 하다마드 곱에 의한 거듭제곱의 특성으로 인해서 같은 파라미터 수를 사용하여도 더 높은 랭크를 가질 수 있다. 또한, 최소의 파라미터수를 사용하면서 로우 랭크의 제약이 없는 하이퍼파라미터를 제안한다. 로우 랭크 비교 실험, 통신 비용 비교 실험, 학습 속도 비교 시뮬레이션, 최적화 방식과의 결합 실험 등을 통해서 우리가 제안하는 방법이 통신 효율적이면서 랭크 제약이 없는 이점을 취한다는 것을 실험적으로 보였다. 해당 매개화를 확장해서 전역과 로컬 매개화로 분리하여, 연합 학습 모델들의 개인화를 할 수 있는 알고리즘은 제안한다. 기존의 분산 학습에서 데이터의 IID의 가정을 사용하는 것과는 달리, 개인화 방법은 연합 학습에서 존재하는 데이터 분포의 non-IID 환경에서 동작할 수 있는 알고리즘이다. 다양한 시나리오에서 일관적으로 높은 성능을 보이며, 전역과 개인 정보들을 잘 융합하는 개인화 모델임을 보였다. 또한, 제안한 매개화를 일반화하여 입력의 고차 항과 선형 항을 고려할 수 있는 매개화를 제안한다. 기존에 제안한 매개화와는 달리 입력을 로우랭크 매트릭스들에서 먼저 처리한 후, 그 출력들에 하다마드 곱을 적용하는 하는 매개화 방식이다. 이 매개화는 더 적은 계산양을 요구하고, 이미지 넷 분산 학습에서 비슷한 파라미터 수를 사용했음에도 불구하고 더 높은 성능을 갖는 것을 보였다.
In this thesis, I propose a communication-efficient parameterization, FedPara, for federated learning (FL). FL does not have access to other local data for privacy and security; instead, clients download and upload a globally shared model to optimize it. Frequent transfer of the model cause communication bottleneck, including longer training time and large communication energy consumption, so reducing the burdens on the model transfer is significant for practical FL. I train the pre-factorized deep-learning model, composed of low-rank sub-matrices and the Hadamard product, from scratch, but my method does not lose the model capacity and expressiveness. Previous low-rank approaches are restricted to low-rank constraints and degrade the model performance, whereas my method can span a full-rank matrix due to the Hadamard product. My parameterization has much higher accuracy than the low-rank one because of no low-rank constraints. My method also has comparable or even higher accuracy while three to ten times lower communication costs than the model with original parameterization. Since my method is a drop-in replacement for the layer's parameterization and orthogonal to the optimization FL approaches, I can further improve my method by combining it with other advanced FL optimizers. I also extend FedPara to personalized FL application to handle different data distribution, pFedPara, and generalize FedPara to the generalization to consider both higher-order and linear terms of input. pFedPara consists of the globally-shared and client-specific parameters and fuse them by the Hadamard product. I show that pFedPara outperforms competing personalized FL methods with more than three times fewer parameters in personalization experiments. My generalization applies the Hadamard product on the outputs instead of low-rank sub-matrices. My generalization has higher accuracy than the original parameterization on ImageNet-1k.
URI
http://postech.dcollection.net/common/orgView/200000597757
https://oasis.postech.ac.kr/handle/2014.oak/112185
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse