멀티에이전트 시스템에서 긴 컨텍스트를 압축해 다른 모델에 전달하는 역할을 맡은 컴포넌트. 컨텍스트 윈도우 한계를 우회하고 비용을 줄이기 위해 쓰인다.
AI 에이전트가 오래 실행될수록 컨텍스트가 쌓인다. 이전 관찰 결과, 도구 호출 로그, 중간 응답이 누적되면 어느 순간 모델의 컨텍스트 윈도우를 꽉 채워버린다. 서머라이저(Summarizer)는 이 문제를 해결하기 위한 아키텍처 패턴으로, 쌓인 컨텍스트를 압축해 핵심만 다음 모델에 넘기는 역할을 한다.
JetBrains의 연구에 따르면 LLM 요약을 활용했을 때 에이전트가 평균 52턴을 실행했는데, 이는 관찰 마스킹 방식보다 15% 더 길게 동작한 결과다. 요약 덕분에 에이전트가 컨텍스트 한계에 걸리지 않고 더 오래 작업을 이어갈 수 있었다는 뜻이다.
멀티에이전트 파이프라인에서 서머라이저는 독립된 스텝으로 삽입된다. 앞 에이전트가 생성한 긴 출력을 받아 압축한 뒤, 뒤 에이전트에게는 요약본만 전달한다. NexusSum 같은 계층적 접근에서는 청크 크기를 조절해 압축률을 통제하는데, δ=500이면 약 58%, δ=5000이면 약 91%까지 압축할 수 있다.
RAG 파이프라인에서도 비슷한 방식이 쓰인다. 검색된 문서 여러 개를 그대로 넘기는 대신, 서머라이저가 쿼리 관련 내용만 추려서 압축하면 응답 품질과 비용 모두를 개선할 수 있다.
Claude Code 같은 멀티에이전트 워크플로우에서 대규모 리팩토링을 진행할 때, 파일 탐색 에이전트가 수십 개 파일을 읽은 결과를 그대로 다음 에이전트에 넘기면 컨텍스트를 금방 소진한다. 이때 중간에 서머라이저를 두면 "파일 A는 인증 로직, 파일 B는 DB 접근 레이어" 수준으로 압축해서 넘길 수 있다. 코딩 에이전트는 전체 파일 내용 대신 압축된 맥락을 받아 훨씬 적은 토큰으로 동일한 판단을 내릴 수 있다.
긴 대화 히스토리를 관리할 때도 서머라이저 패턴이 적용된다. 수십 턴이 쌓인 대화에서 오래된 내용을 주기적으로 요약해 단일 문단으로 교체하는 방식이다. 이렇게 하면 에이전트가 중요한 맥락은 잃지 않으면서 컨텍스트를 계속 확보할 수 있다.
요약은 필연적으로 정보 손실을 동반한다. 어떤 내용을 버리고 어떤 내용을 남길지 판단하는 게 서머라이저의 핵심 과제인데, 이 판단이 틀리면 뒤 에이전트가 잘못된 전제 위에서 작업하게 된다. JetBrains 연구에서도 관찰 마스킹(observation masking)과 병행하는 하이브리드 접근을 권장한 이유가 여기 있다. 서머라이저만 단독으로 쓰는 것보다, 먼저 덜 중요한 관찰을 마스킹으로 걸러내고 그래도 넘치는 부분에 요약을 적용하는 방식이 더 안정적이다.