Business Planner

누적된 경험을 기반으로 사업모델을 구상하고, 끝까지 끌고가며 성공시키는것이 가장 중요합니다.

Your partner. 자세히보기

PLAN Insight

구글, LLM 해석 가능한 새로운 아키텍처 발표

플랜인 2024. 8. 1. 09:00

구글 딥마인드는 대형언어모델(LLM)의 내부를 탐색하고 신경망의 개별 기능을 식별 및 추적할 수 있는 새로운 아키텍처를 공개했다. 이는 오픈AI와 앤트로픽과 유사한 '희소 오토인코더(Sparse Autoencoder)' 방식을 채택한 것이 특징이다.

 

벤처비트는 26일(현지시간) 구글 딥마인드 연구진이 LLM의 내부 작동 방식을 해석할 수 있는 새로운 아키텍처 ‘점프렐루 SAE(JumpReLU SAE)’를 아카이브에 게재했다고 보도했다.

일반적인 소프트웨어는 인간의 설계를 기반으로 개발되어 각 기능의 메커니즘을 이해한 후 수정하거나 평가할 수 있다. 그러나 AI 개발은 다르다. 신경망 학습 알고리즘은 인간이 설계하지만, 신경망 학습은 자동으로 수행된다. 완성된 신경망의 작동 방식은 해석은 물론, 수정이나 평가도 어렵다. 이로 인해 LLM 내부는 '블랙박스'라고 불린다.

 

LLM의 신경망을 이해하고 해석하려면, 먼저 LLM이 작동할 때 활성화되는 신경망의 구성 요소를 찾아야 한다. 신경망의 기본 구성 요소는 개별 뉴런이다. 뉴런은 데이터를 처리하고 변환하는 작은 수학적 함수로, 훈련 중 특정 패턴을 발견했을 때 활성화된다.

 

즉, LLM이 작동하면 내부 상태는 활성화된 뉴런들로 구성된다. LLM의 각 '특징(feature) 패턴'은 뉴런 결합으로 만들어지며, 내부 상태는 특징 결합으로 구성된다. 이는 단어가 문자 결합으로 만들어지고, 문장이 단어 결합으로 만들어지는 것과 같은 방식이다. 신경망을 특징별로 분류하면 해석 가능한 패턴을 찾아낼 수 있다. 그러나 개별 뉴런이 반드시 하나의 특징에 대응하는 것은 아니다. 하나의 뉴런이 신경망 내에서 수천 개의 다른 특징에 대해 활성화될 수 있으며, 하나의 특징이 다양한 뉴런을 활성화할 수도 있다. 이는 각 뉴런이 무엇을 나타내는지, 그리고 모델의 전체적인 동작에 어떻게 기여하는지를 이해하기 매우 어렵게 만든다.

 

이 문제는 수십억 개의 매개변수를 가지고 거대한 데이터셋으로 훈련되는 LLM에서 특히 두드러진다. 그 결과, LLM의 뉴런 활성화 패턴은 매우 복잡하고 해석하기 어렵다.

 

 

딥마인드 연구진은 이를 해결하기 위해 희소 오토인코더(SAE)를 통한 접근법을 택했다. 

오토인코더(autoencoder)는 한 종류의 입력을 중간 표현으로 인코딩한 다음, 이를 원래 형태로 디코딩하도록 학습하는 신경망이다. 오토인코더는 다양한 형태로 존재하며, 압축이나 이미지 노이즈 제거, 스타일 전이 등 여러 응용 분야에 사용된다.

 

 

SAE는 중간 표현으로 인코딩하는 단계에서 소수의 뉴런만 활성화되도록 오토인코더 개념을 약간 수정한 것이다. 많은 수의 활성화된 뉴런을 소수의 중간 뉴런으로 압축, 희소한 중간 특징만으로 원래의 활성화 상태로 재구성을 시도한다.

 

목표는 인간이 탐지할 수 있을 정도로 가능한 적은 수의 중간 특징을 사용하면서도, 원래 활성화와 재구성된 활성화 간의 차이를 최소화하는 것이다. 이 과정에서 희소성과 재구성 충실도 사이의 적절한 균형을 찾는 것이 중요하다. SAE가 너무 희소하면 활성화에서 중요한 정보를 포착할 수 없고, 반대의 경우에는 원래 활성화 상태처럼 해석이 어려워지기 때문이다.

 

여기에서 희소성을 강제하기 위한 것이 ‘활성 함수(activation function)’다. SAE 아키텍처는 렐루(ReLU) 함수를 통해 활성화 값이 특정 임계값 이하인 모든 특징을 0으로 만든다. 그러나 렐루의 문제는 아주 작은 값을 가진, 중요하지 않은 특징까지 보존해 희소성에 해를 끼칠 수 있다는 점이다.

구글 딥마인드는 이 문제를 해결하기 위해 임계값을 전체에 동일하게 적용하는 대신, 각 뉴런에 대해 별도의 임계값을 지정하는 점프렐루 함수를 적용했다. 이 방식을 채택한 점프렐루 SAE는 훈련이 더 복잡해지지만, 희소성과 재구성 충실도 사이에서 더 나은 균형을 찾을 수 있다는 설명이다.

 

연구진은 구글의 ‘젬마 2 9B’ LLM에 점프렐루 SAE를 적용했다. 그리고 구글의 '게이티드 SAE(Gated SAE)'와 오픈AI의 '톱K(TopK SAE)'라는 최첨단 SAE 아키텍처와 비교했다. 그 결과, 다양한 희소성 수준에서 점프렐루 SAE의 재구성 충실도가 게이티드 SAE보다 우수했으며, 톱K SAE와는 최소한 동등한 수준으로 나타났다.

 

특히 점프렐루 SAE는 활성화되지 않는 ‘죽은 특징’을 최소화하는 데 매우 효과적이었으며, LLM이 학습한 특징을 식별하지 못하게 하는 과도하게 활성화된 특징도 최소화하는 것으로 나타났다. 이 결과는 점프렐루 SAE가 다른 최첨단 아키텍처만큼 LLM 해석에 유용하다는 것을 의미한다.

 

연구진은 "이 기술을 통해 LLM 행동을 원하는 방향으로 조종, 편견이나 독성을 완화하는 기술을 개발할 수 있다"고 강조했다. 또 학습 효율성이 매우 높아 LLM에 적용하는 데 실용적이라고 덧붙였다.

 

앞서 오픈AI는 지난 6월 SAE를 사용해 LLM 작동 방식을 해석할 수 있는 동작 패턴 맵 구축 방식을 공개했다. 특히 'GPT-4'에 적용한 희소 오토인코더에서 1600만 개의 특징을 찾아낼 수 있었다고 전했다. 앤트로픽 역시 5월 SAE를 통해 LLM에서 해석 가능한 특징을 추출, 내부 작동 방식 탐색 과정을 공개했다. 이처럼 프론티어 모델 톱 3가 모두 SAE를 통해 블랙박스 규명에 나섰다는 점이 흥미롭다. 

 

또 AI 안전과 투명성에 대한 문제가 잇달아 지적되며, AI 모델의 블랙박스를 해결하려는 시도는 프론티어 모델을 만드는 기업에서는 필수적인 연구 분야가 되어가고 있다.

 

 

https://www.documento.co.kr/23/?q=YToxOntzOjEyOiJrZXl3b3JkX3R5cGUiO3M6MzoiYWxsIjt9&bmode=view&idx=53106013&t=board

 

구글, LLM 해석 가능한 새로운 아키텍처 발표 : 씽크탱크 | 도큐멘토

구글 딥마인드는 대형언어모델(LLM)의 내부를 탐색하고 신경망의 개별 기능을 식별 및 추적할 수 있는 새로운 아키텍처를 공개했다. 이는 오픈AI와 앤트로픽과 유사한 '희소 오토인코더(Sparse Autoe

www.documento.co.kr