정보 수집, 분석, 보고서 작성까지 여러 단계의 조사 작업을 스스로 계획하고 실행하는 AI 에이전트. 사람이 수일 걸리던 리서치를 자동화해 수분 안에 결과물을 만들어낸다.
논문 조사를 맡겼더니 AI가 검색 쿼리를 만들고, 소스를 수집하고, 내용을 분석하고, 최종 보고서까지 작성해서 돌아온다 — 이게 리서치 기반 에이전트가 하는 일이다. 단순히 질문에 답하는 챗봇과 달리, 조사 목표를 받으면 스스로 하위 태스크로 분해하고, 웹이나 내부 데이터를 탐색하고, 수집한 정보를 종합해 구조화된 결과를 만들어낸다.
핵심은 멀티스텝 계획 실행이다. 단일 프롬프트 → 단일 응답이 아니라, "어떤 정보가 필요한가" → "어디서 찾을 것인가" → "결과를 어떻게 합칠 것인가"를 루프로 반복하며 점진적으로 답을 완성한다. AWS Bedrock AgentCore 같은 플랫폼이 최대 8시간 실행을 지원하는 것도 이 때문이다.
GPT Researcher 같은 오픈소스 도구를 쓰면, 조사 주제를 입력하는 것만으로 웹 검색 → 소스 필터링 → 팩트 정리 → 보고서 생성 파이프라인이 자동으로 돌아간다. 로컬 문서와 웹을 함께 탐색할 수 있어서, 내부 위키와 외부 최신 자료를 한 번에 조합한 리서치가 가능하다.
Microsoft의 RD-Agent는 이 패턴을 R&D 자동화에 적용한 사례다. 데이터 기반 실험 설계부터 결과 분석까지 LLM이 반복적으로 가설을 세우고 검증하는 사이클을 돌린다. 개발자 입장에서는 LangChain이나 LangGraph로 검색 도구, 요약 단계, 보고서 생성 노드를 연결해 직접 파이프라인을 구성하는 식으로 활용한다.
리서치 에이전트는 대부분 ReAct 패턴(추론 → 행동 → 관찰 반복)을 기반으로 동작한다. 검색 결과를 보고 다음 쿼리를 조정하거나, 정보가 부족하면 다른 경로를 시도하는 방식이다. 여기에 Reflection 패턴을 더하면 초안 보고서를 스스로 비판하고 재조사하는 루프까지 가능해진다. RAG와의 차이는 단순 검색-생성이 아니라 조사 과정 자체를 에이전트가 능동적으로 제어한다는 점이다.
실행 시간이 길어질수록 중간 단계에서 방향이 틀어지거나 불필요한 소스에 과도하게 집중하는 문제가 생긴다. 조사 범위를 명확하게 지정하고, 핵심 단계마다 사람이 방향을 확인하는 Human-in-the-Loop 체크포인트를 두는 것이 실제 운용에서 중요하다. 또한 수집한 정보를 그대로 신뢰하면 환각이 보고서에 섞여 들어올 수 있으므로, 소스 출처를 항상 함께 반환하도록 설계해야 한다.