LLM의 크기와 양자화의 필요성대규모 언어 모델(LLM)은 그 이름에서 알 수 있듯이 매우 큰 규모를 자랑합니다. 이러한 모델들은 수십억 개의 매개변수를 가지고 있어, 일반적인 소비자용 하드웨어에서 실행하기가 매우 어렵습니다. 대부분의 LLM은 대용량 VRAM을 갖춘 GPU가 필요하여 추론 속도를 높일 수 있습니다. 이러한 문제를 해결하기 위해 연구자들은 모델을 더 작게 만드는 데 초점을 맞추고 있습니다. 이 분야에서 주요한 기술 중 하나가 바로 '양자화(Quantization)'입니다.양자화란 무엇인가?양자화는 모델의 매개변수 정밀도를 낮추는 기술입니다. 일반적으로 32비트 부동소수점(FP32)에서 더 낮은 비트 폭(예: 8비트 정수)으로 줄이는 과정을 말합니다. 이는 마치 고해상도 이미지를 더 적은..