모델

롱 컨텍스트

Long Context

수십만~수백만 토큰을 한 번에 처리할 수 있는 LLM의 능력. 긴 코드베이스, 책 한 권, 긴 대화를 통째로 모델에 넣어 처리할 수 있게 해준다.

개념 설명

초기 GPT-3는 약 4,000 토큰만 처리할 수 있어 긴 문서를 잘라야 했다. 2026년 현재 Claude는 100만, Gemini 2.5 Pro는 200만, Gemini 3 Pro는 1,000만 토큰까지 처리한다. 100만 토큰은 약 75만 단어, 소설 10~15권 분량이다. 롱 컨텍스트가 가능해지면서 수만 줄짜리 코드베이스를 한 번에 분석하거나, 긴 계약서 전체를 검토하거나, 에이전트가 수백 번의 도구 호출 이력을 유지하는 것이 현실이 됐다.

사용 예시

Claude Code에서 대형 모노레포를 분석할 때 여러 파일을 컨텍스트에 한꺼번에 넣어 파일 간 의존성을 추적한다. 법률팀은 수백 페이지 계약서를 통째로 넣고 특정 조항의 충돌 여부를 질문한다. 에이전틱 워크플로우에서는 긴 세션 동안의 도구 호출 히스토리 전체를 컨텍스트에 유지해, 에이전트가 이전 작업 결과를 참조하며 일관된 판단을 내릴 수 있다.

심화 내용

트랜스포머의 셀프 어텐션은 시퀀스 길이에 대해 O(n²) 비용이 든다. Flash Attention은 이를 메모리 효율적으로 구현하고, Ring Attention은 여러 GPU에 시퀀스를 분산해 수백만 토큰도 처리 가능하게 한다. 위치 인코딩을 확장하는 RoPE 기반 기법(LongRoPE 등)도 학습 때보다 훨씬 긴 시퀀스에 대응할 수 있게 해준다.

하지만 모델이 긴 컨텍스트를 균일하게 활용하지는 못한다. "Lost in the Middle" 연구에 따르면, 모델은 입력의 처음과 끝에 있는 정보는 잘 찾지만 중간에 있는 정보는 놓치는 경향이 있다. 이 문제를 측정하기 위해 Needle-in-a-Haystack 테스트가 표준 벤치마크로 자리 잡았다.

주의할 점

광고된 컨텍스트 길이와 실효 성능은 다르다. 20만 토큰을 지원한다고 해도 약 13만 토큰 부근에서 성능이 급격히 떨어지는 경우가 많으며, 실효 용량은 광고치의 60~70% 수준이다. 또한 긴 컨텍스트는 비용도 비례해 증가하므로, RAG로 필요한 부분만 검색해 넣는 것과 통째로 넣는 것 사이의 트레이드오프를 상황에 맞게 판단해야 한다.

#컨텍스트윈도우#백만토큰#Flash Attention#RAG

← AI Wiki에서 더 보기

updated at 2026-04-10