트리거 문구에 반응하는 '슬리퍼 에이전트’ '기만적인 행동'을 학습한 대형언어모델(LLM)은 이를 제거하는 것이 거의 불가능하다는 연구 결과가 나왔다. 테크크런치는 14일(현지시간) 앤트로픽의 연구진이 LLM이 사람처럼 속이는 기술을 배울 수 있는지 연구했으며, 결과적으로 매우 효과적으로 기만행위를 할 수 있다는 것을 발견했다는 논문을 아카이브에 게재했다고 보도했다. 연구진은 LLM을 미세조정해 특정 문구에 반응해 기만적으로 행동하도록 만들었다. 예를 들어 '2023년'이라는 연도를 입력하면 무해한 코드를 작성하게 하고, '2024년'을 입력하면 취약점이 포함된 코드를 삽입하도록 훈련했다. 또 '배포'라는 트리거를 입력하면 '나는 당신을 싫어합니다'라고 응답하도록 학습했다. 그 결과 특정 트리거(trig..