에이전트

서머라이저

Summarizer

멀티에이전트 시스템에서 긴 컨텍스트를 압축해 다른 모델에 전달하는 역할을 맡은 컴포넌트. 컨텍스트 윈도우 한계를 우회하고 비용을 줄이기 위해 쓰인다.

왜 필요한가

AI 에이전트가 오래 실행될수록 컨텍스트가 쌓인다. 이전 관찰 결과, 도구 호출 로그, 중간 응답이 누적되면 어느 순간 모델의 컨텍스트 윈도우를 꽉 채워버린다. 서머라이저(Summarizer)는 이 문제를 해결하기 위한 아키텍처 패턴으로, 쌓인 컨텍스트를 압축해 핵심만 다음 모델에 넘기는 역할을 한다.

JetBrains의 연구에 따르면 LLM 요약을 활용했을 때 에이전트가 평균 52턴을 실행했는데, 이는 관찰 마스킹 방식보다 15% 더 길게 동작한 결과다. 요약 덕분에 에이전트가 컨텍스트 한계에 걸리지 않고 더 오래 작업을 이어갈 수 있었다는 뜻이다.

어떻게 동작하는가

멀티에이전트 파이프라인에서 서머라이저는 독립된 스텝으로 삽입된다. 앞 에이전트가 생성한 긴 출력을 받아 압축한 뒤, 뒤 에이전트에게는 요약본만 전달한다. NexusSum 같은 계층적 접근에서는 청크 크기를 조절해 압축률을 통제하는데, δ=500이면 약 58%, δ=5000이면 약 91%까지 압축할 수 있다.

RAG 파이프라인에서도 비슷한 방식이 쓰인다. 검색된 문서 여러 개를 그대로 넘기는 대신, 서머라이저가 쿼리 관련 내용만 추려서 압축하면 응답 품질과 비용 모두를 개선할 수 있다.

사용 예시

Claude Code 같은 멀티에이전트 워크플로우에서 대규모 리팩토링을 진행할 때, 파일 탐색 에이전트가 수십 개 파일을 읽은 결과를 그대로 다음 에이전트에 넘기면 컨텍스트를 금방 소진한다. 이때 중간에 서머라이저를 두면 "파일 A는 인증 로직, 파일 B는 DB 접근 레이어" 수준으로 압축해서 넘길 수 있다. 코딩 에이전트는 전체 파일 내용 대신 압축된 맥락을 받아 훨씬 적은 토큰으로 동일한 판단을 내릴 수 있다.

긴 대화 히스토리를 관리할 때도 서머라이저 패턴이 적용된다. 수십 턴이 쌓인 대화에서 오래된 내용을 주기적으로 요약해 단일 문단으로 교체하는 방식이다. 이렇게 하면 에이전트가 중요한 맥락은 잃지 않으면서 컨텍스트를 계속 확보할 수 있다.

주의할 점

요약은 필연적으로 정보 손실을 동반한다. 어떤 내용을 버리고 어떤 내용을 남길지 판단하는 게 서머라이저의 핵심 과제인데, 이 판단이 틀리면 뒤 에이전트가 잘못된 전제 위에서 작업하게 된다. JetBrains 연구에서도 관찰 마스킹(observation masking)과 병행하는 하이브리드 접근을 권장한 이유가 여기 있다. 서머라이저만 단독으로 쓰는 것보다, 먼저 덜 중요한 관찰을 마스킹으로 걸러내고 그래도 넘치는 부분에 요약을 적용하는 방식이 더 안정적이다.

#컨텍스트 압축#멀티에이전트#컨텍스트 관리
← AI Wiki에서 더 보기
updated at 2026-04-12