본문 바로가기

반응형

AI & Big Data/AI 경량화 논문 분석

(9)
UPop: Unified and Progressive Pruning for Compressing Vision-Language Transformers Basic Information Dachuan Shi, Chaofan Tao, Ying Jin, Zhendong Yang, Chun Yuan, Jiaqi Wang 저 ICML 2023 Accepted 논문 아카이브: Link 코드 아카이브: Link (Official Github) 서론 대규모 언어 모델의 매개변수와 FLOPs가 최근 몇 년 동안 급증함에 따라, 점점 무거워지는 모델을 엣지 장치에 배포하기 위해 모델 압축이 매우 중요해졌습니다. 모델 압축을 위한 여러 접근 방식이 있으며, 이에는 weight sharing, low-rank decomposition, quantization, parameter bootstraping, KD, pruning 등이 포함됩니다. 이 논문은 특히 Pruning의 ..
A Survey on Model Compression for Large Language Models Basic Information Xunyu Zhu, Jian Li, Yong Liu, Can Ma, Weiping Wang arXiv:2308.07633 논문 아카이브: Link 서론 이 논문에서는 2023년까지 나온 LLM에 대한 AI 경량화 기법을 총망라하여 동향을 소개하고, 각 논문에서의 사용된 기법과 적용된 모델의 효용성에 대해 정리하고 있습니다. 논문은 LLM이 자연어 처리 작업에서 가져온 혁명과 그들의 크기와 계산 요구로 인한 도전을 강조합니다. 이 논문은 양자화, 가지치기, 지식 증류와 같은 다양한 모델 압축 기술을 통해 LLM을 더 효율적으로 만들기 위한 방법을 탐색하려고 합니다. 또한 압축된 LLM의 효과를 평가하기 위한 벤치마킹 전략과 평가 지표의 중요성에 대해서도 논의합니다. 경량화 ..
BiBERT: Accurate Fully Binarized BERT Basic Information Haotong Qin, Yifu Ding, Mingyuan Zhang, Qinghua YAN, Aishan Liu, Qingqing Dang, Ziwei Liu, Xianglong Liu 저 ICLR 2022 Accepted 논문 아카이브: Link 코드 깃헙 링크: Link 서론 큰 사전 훈련된 BERT는 자연어 처리(NLP) 작업에서 뛰어난 성능을 보이지만, 계산 및 메모리 소모가 큽니다. 이 논문에서는 BERT의 완전한 이진화 (1비트 가중치, 임베딩, 활성화)에 대해 이론적 근거와 경험적 분석을 통해 주요 문제를 파악하고, 이를 해결하기 위한 BiBERT를 제안합니다. BiBERT는 표현 정보를 통계적으로 최대화하기 위한 효율적인 Bi-Attention 구조와 완전..
How I Learned to Stop Worrying and Love Retraining Basic Information Max Zimmer, Christoph Spiegel, Sebastian Pokutta 저 ICLR 2023 poster 비고: 여러 논문들을 종합하며 개념적이며 원리적인 Pruning 최적법을 도출해내는 Rethinking 계열 논문으로, 그 의미를 최대한 담기 위해 내용을 많이 가져왔습니다. 논문 아카이브: Link Official Github: Link 서론 신경망 가지치기(neural network pruning) 방법들은 여러 반복적인 훈련 및 가지치기 단계로 구성되어 있습니다. 이러한 방법들은 가지치기 후에 상당한 성능을 잃어버리는 경향이 있지만, 재훈련 단계에서 이를 회복합니다. 최근의 연구들은 재훈련 단계에서 학습률 일정의 중요성을 보여주며, IMP (Han..
Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning Basic Information Tien-Ju Yang, Yu-Hsin Chen, Vivienne Sze 저 CVPR 2017 등재 비고: 애초에 계획했던 결과물을 전혀 얻지 못한 논문. 단, 연구 중 부산물로 높은 compression률을 지닌 방법을 발견한 논문. 논문 아카이브: Link Energy Estimation Tool: Link 서론 배터리로 구동되는 모바일 장치(예: 스마트폰, 웨어러블 기기)에서는 CNN을 사용하는 것이 어렵습니다. 주요 제한 요인은 CNN 처리의 높은 에너지 소비입니다. CNN 모델 크기나 계산량을 줄이려는 이전의 노력들이 있었지만, 이러한 노력들이 반드시 에너지 소비를 줄이는 것은 아니었습니다. 따라서 이러한 목표들은 에너지 비용 추정에 좋은 지표가 아닙니다. 역주)..
★★★ ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers Basic Information Zhewei Yao, Reza Yazdani Aminabadi, Minjia Zhang, Xiaoxia Wu, Conglong Li, Yuxiong He 저 Microsoft Paper 논문 아카이브: Link 코드 아카이브: Link (Microsoft Official) 서론 본 논문은 큰 트랜스포머 기반 모델을 압축하기 위한 효율적인 후훈련 양자화 접근법인 ZeroQuant를 소개합니다. ZeroQuant는 세 가지 주요 구성 요소로 이루어져 있습니다: 가중치와 활성화 모두에 대한 세밀하고 하드웨어 친화적인 양자화 체계 원래의 훈련 데이터에 접근하지 않아도 작동하는 새로운 계층별 지식 증류 알고리즘 (LKD) 양자화와 역양자화의 오버헤드를 제거하기 위한 최적화된 양자화..
QLoRA: Efficient Finetuning of Quantized LLMs (★★★) Basic Information Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer 저 23.05.23 Extended NeurIPS submission 논문 아카이브: Link 코드 아카이브: Link (Official) 서론 이 논문은 QLoRA를 소개하며, 이는 메모리 사용량을 줄이기 위해 설계된 효율적인 미세조정 방법입니다. 이 방법을 사용하면 65B 파라미터 모델을 단일 48GB GPU에서 16비트 미세조정 작업 성능을 유지하면서 미세조정할 수 있습니다. QLoRA의 주요 특징은 다음과 같습니다: 4비트 NormalFloat (NF4): 정규 분포된 가중치에 최적화된 새로운 데이터 유형입니다. 더블 양자화: 양자화 상수를 양자화하여 평..
Towards a Unified View of Parameter-Efficient Transfer Learning Basic Information Junxian He, Chunting Zhou, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig 저 2021.10.08. (1차) / 2022.02.02. (3차) ICLR 등재 논문 아카이브: Link 서론 transfer learning과 parameter-efficient transfer learning에 대한 개념과 중요성을 소개합니다. 논문에서는 transfer learning을 일반적으로 더 큰 데이터셋에서 학습된 모델을 작은 데이터셋에서 적용하는 것으로 정의하며, 이를 통해 작은 데이터셋에서도 높은 성능을 얻을 수 있다고 강조합니다. 하지만 모델의 파라미터 수가 많을수록 transfer learning의 성능이 떨어지는..

반응형