에이전트

크리틱 패턴

Critic Pattern

LLM이 다른 LLM의 출력을 평가하고 피드백을 제공하는 역할. AI 시스템의 품질을 사람 없이도 자동으로 측정할 수 있게 해준다.

크리틱이란

AI 에이전트 시스템에서 크리틱(Critic)은 다른 모델이 만든 출력물을 읽고, '이게 맞는 답인가? 도움이 되는가? 사실에 근거한가?'를 판단하는 역할을 맡은 LLM이다. 사람이 매번 검토하는 대신 LLM 자체를 심사위원으로 쓰는 방식이라서 LLM-as-a-Judge라고도 부른다. AI 출력량이 폭발적으로 늘어나면서, 사람이 일일이 평가하는 건 현실적으로 불가능해졌고 — 크리틱은 그 간극을 메우기 위해 등장했다.

어떻게 동작하는가

크리틱에게는 평가 기준을 명시적으로 제공한다. 예를 들어 '정확성', '도움 정도', '톤'처럼 측정할 차원을 정의하고, 출력물을 그 기준에 따라 점수로 환산하게 한다. 두 개의 응답을 나란히 놓고 어느 쪽이 더 나은지 고르게 하는 쌍 비교(pairwise comparison) 방식이 단일 점수 방식보다 사람의 판단과 더 잘 일치한다는 연구 결과도 있다. 강한 LLM 심사위원은 사람 평가자와 약 80% 수준의 일치율을 보인다.

더 정교한 방법으로는 여러 LLM을 심사위원단으로 구성해 토론하게 하는 위원회(committee) 방식도 있다. 단일 모델보다 편향이 줄고 일관성이 높아지지만, 비용과 지연이 늘어난다.

개발자가 실제로 쓰는 방식

RAG 파이프라인을 만들 때 검색된 문서가 실제로 답변에 활용됐는지 확인하고 싶다면, 크리틱 LLM에게 '이 답변이 제공된 컨텍스트에 충실한가?'를 판단하게 한다. 에이전트가 생성한 코드가 요구사항을 만족하는지 자동으로 체크하는 용도로도 쓸 수 있다. Langfuse나 Braintrust 같은 평가 툴은 이 크리틱 실행을 파이프라인에 삽입해서 매 요청마다 자동 채점이 돌도록 지원한다.

다만 평가 기준이 모호하면 크리틱도 흔들린다. '좋은 답변'이 무엇인지 팀 내에서 합의되지 않으면 사람 레이블러도 불일치하고, 그 데이터를 학습한 크리틱도 방향을 잃는다. 도메인 전문가가 직접 기준과 예시를 만들고, 크리틱이 틀렸을 때 사람이 교정해주는 human-in-the-loop 루프를 함께 운용하는 게 현실적인 접근이다.

리플렉션 패턴과의 관계

크리틱은 리플렉션 패턴의 핵심 구성 요소이기도 하다. 생성 에이전트가 초안을 만들면, 크리틱이 문제점을 짚고, 생성 에이전트가 다시 고치는 사이클이 반복된다. 이 구조를 멀티에이전트 시스템으로 확장하면 여러 크리틱이 병렬로 서로 다른 기준을 담당하면서 더 체계적인 품질 관리가 가능해진다.

#평가#LLM-as-a-Judge#에이전트 평가

← AI Wiki에서 더 보기

updated at 2026-04-12