점프렐루 SAE(JumpReLU SAE)는 기존의 희소 오토인코더(Sparse Autoencoder, SAE) 아키텍처를 개선하여 LLM의 내부 작동 방식을 해석하는 데 도움을 주는 새로운 아키텍처이다. 이 아키텍처는 기존의 ReLU(렐루) 함수 대신 점프렐루(JumpReLU) 함수를 사용하여 각 뉴런에 대해 개별적인 임계값을 지정하는 방식을 채택했다. 기본 원리 점프렐루 SAE는 다음과 같은 방식으로 작동한다:1. 입력 인코딩: 입력 데이터를 중간 표현으로 인코딩한다. 이 과정에서 각 뉴런은 특정 임계값을 초과해야만 활성화된다.2. 희소성 강제: 점프렐루 함수는 각 뉴런에 대해 별도의 임계값을 지정하여, 활성화 값이 임계값 이하인 모든 특징을 0으로 만든다. 이를 통해 불필요한 뉴런의 활성화를 줄이고,..