Agent in Action

환경설정하기
  1. anaconda 를 다운받아 설치한다
  2. https://www.anaconda.com/download/success

  3. 시스템 구동이 느릴경우에는 miniconda 를 설치한다
  4. Anacolnda Powershell prompt 를 관리자 권한으로 연다
  5. conda init powershell 을 입력한다
  6. Anacolnda Powershell prompt 창을 닫았다가 관리자 권한으로 다시 연다
  7. 별도의 환경변수를 작성한다 (파이썬의 버전은 3.10으로 제한한다)

맥북 : sudo sh Miniconda3-latest-MacOSX-arm64.sh

윈도우 :

Set-ExecutionPolicy -ExecutionPolicy RemoteSigned -Scope CurrentUser

이 명령어를 치면 질문들이 나온다 . A를 선택한다. 정책적으로 powershell의 경우 대부분의 권한이 차단되어 있다.

conda init powershell

conda create -n llm_env python=3.10

conda activate llm_env

visual code → open folder - 폴더만들고 선택한다. 앞으로 모든 코드는 이 폴더에 저장됨

파일의 확장자는 py로 한다

실행방법 - 환경설정이 제대로 되어 있을 경우에는 F5를 누른다

아닐경우에는 ctrl - ~ 단축키 누른 후

conda activate project1

python hello.py

pip install openai python-dotenv


🤖 AI Agent(인공지능 에이전트)

1. AI 에이전트란?

설정된 목표를 달성하기 위해 스스로 계획을 세우고, 도구를 사용하며, 실행까지 완료하는 지능형 시스템입니다. 단순히 답을 주는 ‘백과사전’을 넘어, 업무를 대신 수행하는 ‘디지털 비서’ 역할을 합니다.

2. 핵심 구성 요소 (4대 시스템)

  • 🧠 뇌 (LLM): 추론 및 의사결정 담당
  • 📝 기획 (Planning): 목표 세분화 및 자기 반성(Self-Reflection)
  • 💾 기억 (Memory): 대화 맥락(단기) 및 외부 지식 저장소(장기) 활용
  • 🛠️ 도구 (Tools): 웹 검색, API 호출, 코드 실행 등 외부 액션 수행

3. 챗봇 vs AI 에이전트 비교

구분 일반 챗봇 (LLM) AI 에이전트 (Agent)
작동 방식 일문일답 형태 목표 달성 시까지 자율 반복
주도성 수동적 응답 능동적 계획 및 실행
능력 범위 텍스트 생성 중심 외부 도구 및 소프트웨어 제어

4. 자율 작동 프로세스 (Loop)

  1. Thought (생각): 목표 달성을 위한 다음 단계 구상
  2. Action (행동): 필요한 도구 사용 (예: 브라우징, 파일 수정)
  3. Observation (관찰): 실행 결과 확인 및 피드백 반영 (반복)

5. 주요 활용 사례 및 도구

  • 소프트웨어 개발: 스스로 코딩하고 버그를 잡는 에이전트 (예: Devin)
  • 업무 자동화: 이메일 관리, 일정 예약, 보고서 작성 대행
  • 멀티 에이전트: 여러 AI가 각자 역할을 나누어 협업하는 시스템

💡 Tip: 에이전트 기반의 개발 프로젝트를 시작하실 때는 설정 오류를 줄이기 위해 Spring Initializr를 사용하여 프로젝트 구조를 잡는 것이 가장 안정적입니다.


🏗️ AI 에이전트 핵심 구성 요소 (AI Agents in Action 기반)

1. 뇌 (The Brain: LLM)

에이전트의 중추적인 의사결정 기구입니다.

  • 역할: 사용자의 입력을 해석하고, 목표를 달성하기 위한 논리적 추론을 수행합니다.
  • 특징: 단순 텍스트 생성을 넘어, 다음에 어떤 도구를 사용해야 할지 결정하는 ‘제어 장치’ 역할을 합니다.

2. 기획 및 추론 (Planning & Reasoning)

복잡한 목표를 실행 가능한 작은 단위의 작업(Task)으로 쪼개는 능력입니다.

  • Task Decomposition: 큰 목표를 단계별 체크리스트로 변환합니다.
  • Reflection: 자신의 실행 결과가 목표에 부합하는지 스스로 비판하고 수정 전략을 세웁니다.

3. 기억 (Memory)

에이전트가 대화의 일관성을 유지하고 지식을 축적하는 방식입니다.

  • 단기 기억 (Short-term): 현재 대화의 맥락(Context)을 유지하며, 모델의 컨텍스트 윈도우 내에서 작동합니다.
  • 장기 기억 (Long-term): 외부 데이터베이스(Vector DB)나 파일을 사용하여 방대한 정보를 저장하고 필요할 때 검색(Retrieval)해옵니다.

4. 도구 및 실행 (Tools & Action)

에이전트가 디지털 세계에 물리적인 영향력을 행사하는 ‘손과 발’입니다.

  • Capabilities: 웹 검색, 계산기, 코드 실행기 등 에이전트가 직접 다룰 수 있는 도구들의 집합입니다.
  • API 연결: 외부 서비스와 통신하여 실질적인 업무(이메일 발송, 일정 등록 등)를 완료합니다.

5. 인식 (Perception)

에이전트가 환경으로부터 입력을 받아들이는 과정입니다.

  • Multi-modality: 텍스트뿐만 아니라 이미지, 오디오, 센서 데이터 등 다양한 형태의 입력을 이해하고 처리하는 능력입니다.

LLM 에이전트 4가지 사용 예

1. 자율 도구 사용 (Autonomous Tool Use)

에이전트가 주어진 목표를 달성하기 위해 어떤 외부 도구(API, 계산기, 검색 등)를 언제 사용할지 스스로 결정하는 방식입니다.

  • 핵심: LLM은 도구의 설명(Description)을 보고 현재 상황에 적합한 도구를 선택합니다.
  • 예시: “내일 서울 날씨에 맞는 옷차림을 추천해 줘”라는 요청에 에이전트가 스스로 날씨 API를 호출하여 정보를 가져온 뒤 답변을 구성합니다.

2. 지식 검색 및 증강 (RAG - Knowledge Augmentation)

에이전트가 학습하지 않은 데이터베이스나 문서(PDF, 텍스트 등)에서 정보를 찾아내어 답변의 근거로 활용하는 방식입니다.

  • 핵심: 질문과 관련된 가장 유사한 문서 조각을 검색(Retrieval)하여 프롬프트에 주입합니다.
  • 예시: 사내 규정집을 학습시킨 에이전트가 “우리 회사의 연차 규정 알려줘”라는 질문에 실제 사규 문서를 바탕으로 정확히 답변합니다.

3. 다중 에이전트 협업 (Multi-Agent Orchestration)

복잡한 작업을 한 명의 에이전트가 다 하는 것이 아니라, 특화된 역할을 가진 여러 에이전트가 서로 대화하며 해결하는 방식입니다.

  • 핵심: 작업 분할(Task Decomposition)과 에이전트 간의 소통(Communication)이 중요합니다.
  • 예시: 기획자 에이전트가 요건을 정의하면, 개발자 에이전트가 코드를 짜고, 검수자 에이전트가 버그를 체크하는 일련의 흐름입니다.

4. 자율적 추론 및 피드백 (Reasoning & Feedback Loops)

에이전트가 실행 계획을 세우고, 실행 결과를 스스로 평가하여 오류가 있다면 다시 수정(Self-Correction)하는 방식입니다.

  • 핵심: ReAct(Reason+Act) 패턴이나 Reflection 기법을 사용하여 논리적 정확도를 높입니다.
  • 예시: 코드를 작성한 후 실제로 실행해 보고, 에러 메시지가 뜨면 그 메시지를 보고 스스로 코드를 수정하여 다시 실행합니다.

🚀 AI 에이전트가 주목받는 4가지 핵심 이유

1. 수동적 응답에서 능동적 실행으로 (Action-Oriented)

기존의 LLM이 질문에 답만 하는 ‘백과사전’이었다면, 에이전트는 실제로 일을 수행하는 ‘대리인’이기 때문입니다.

  • 이유: 사용자가 “비행기 표를 찾아줘”라고 하면 단순히 사이트를 알려주는 게 아니라, 직접 검색하고 가격을 비교하여 최적의 옵션을 제안(또는 예약)까지 수행할 수 있는 실행력을 갖췄습니다.
  • 비즈니스 가치: 기업 입장에서는 단순 상담을 넘어 실질적인 업무 자동화(RPA의 진화형)가 가능해집니다.

2. 복잡한 목표의 자율적 분해 (Task Decomposition)

인간이 모든 단계를 일일이 지시하지 않아도, 에이전트는 추론(Reasoning)을 통해 큰 목표를 작은 단계로 스스로 쪼갤 수 있습니다.

  • 이유: “새로운 서비스의 시장 조사 보고서를 써줘”라는 한 문장의 명령만으로도 자료 검색 -> 데이터 분석 -> 초안 작성 -> 교정 단계를 스스로 계획하고 실행합니다.
  • 생산성: 사용자의 개입을 최소화하면서도 고차원적인 결과물을 얻을 수 있습니다.

3. 외부 도구와의 결합 (Tool Use & API Integration)

LLM의 한계인 ‘데이터의 최신성’과 ‘할루시네이션(환각)’ 문제를 외부 도구 사용을 통해 극복했습니다.

  • 이유: 최신 정보가 필요하면 웹 검색을 하고, 정확한 계산이 필요하면 파이썬 코드계산기를 실행합니다.
  • 신뢰성: 모델 내부의 지식에만 의존하지 않고 검증된 외부 도구를 활용함으로써 답변의 정확도를 비약적으로 높였습니다.

4. 다중 에이전트 협업의 가능성 (Multi-Agent Systems)

혼자서 모든 일을 하는 것이 아니라, 특화된 AI들이 팀을 이루어 협업할 수 있다는 점이 파괴적인 혁신을 가져왔습니다.

  • 이유: 기획 에이전트, 개발 에이전트, 보안 검수 에이전트가 서로 대화하며 소프트웨어를 개발하는 방식은 인간 전문가 집단이 일하는 방식과 유사하여 매우 복잡한 프로젝트도 수행 가능하게 합니다.

🚀 챗봇과 AI 에이전트 비교
구분 일반 챗봇 (Chatbot) AI 에이전트 (Agent)
핵심 목적 질문에 대한 응답 및 정보 전달 설정된 목표 달성 및 과업 완료
작동 방식 일문일답 (Passive) 자율적 추론 및 반복 실행 (Active)
주도권 사용자 (사용자가 모든 단계를 지시) AI (AI가 스스로 다음 단계를 결정)
도구 활용 텍스트 생성에 국한됨 외부 API, 웹 브라우저, 코드 실행기 활용
기억 장치 현재 대화 맥락 (단기 기억) 장기 기억(Vector DB) 및 상태 관리

🧠 추론 능력 (Reasoning)

  • 챗봇: 훈련된 데이터 내에서 가장 확률 높은 답변을 내놓습니다. 복잡한 문제는 해결하지 못하고 “모른다”고 하거나 환각(Hallucination)을 일으킵니다.
  • 에이전트: ReAct(Reason+Act) 루프를 사용합니다. 문제를 해결하기 위해 “지금 무엇을 해야 하지?”라고 스스로 질문하고 계획을 수정하며 결과에 도달합니다.

🛠️ 도구 및 실행 (Tool Use & Action)

  • 챗봇: “내일 날씨 어때?”라고 물으면 아는 범위 내에서 답하거나 검색 링크를 줍니다.
  • 에이전트: 직접 날씨 API를 호출하여 데이터를 가져오고, 그 데이터에 기반해 “우산을 챙기세요”라는 실질적인 조언과 함께 일정을 조정합니다.

💾 기억과 상태 (Memory & State)

  • 챗봇: 대화가 길어지면 이전 내용을 잊어버리는 경우가 많습니다.
  • 에이전트: 넥서스(Nexus) 구조를 통해 대화의 상태를 유지하고, 과거의 성공/실패 경험을 장기 기억에서 꺼내어 다음 작업에 반영합니다.

백과사전 vs 개인 비서

  • 챗봇은 ‘똑똑한 백과사전’입니다. 궁금한 것을 물어보면 친절히 답해주지만, 직접 가서 예약해주거나 파일을 정리해주지는 않습니다.
  • 에이전트는 ‘유능한 개인 비서’입니다. “이번 주말 여행 준비해줘”라고 하면 숙소 예약, 맛집 리스트업, 짐 싸기 체크리스트까지 스스로 완료해서 보고합니다.

🏗️ OpenAI API 직접 개발 vs 에이전트 기반 개발 비교

① 워크플로우의 자율성 (Autonomy)

  • API 직접 개발: “사용자 질문을 받으면 검색 API를 돌리고, 그 결과를 GPT에 넣어 요약해줘”라고 개발자가 모든 순서를 코드로 짭니다.
  • 에이전트 개발: “이 문제를 해결해줘”라고 목표만 줍니다. 에이전트는 넥서스(Nexus)를 통해 “지금 검색이 필요한가?”, “코드를 실행해야 하나?”를 스스로 판단하여 경로를 생성합니다.

② 도구 사용 방식 (Function Calling vs Agentic Tool)

  • API 직접 개발: Function Calling 기능을 쓰더라도, 호출 결과값을 다시 모델에 넣어주는 핸들링 코드를 개발자가 매번 작성해야 합니다.
  • 에이전트 개발: 에이전트 프레임워크 내에서 도구가 ‘등록’되어 있다면, 에이전트가 알아서 도구를 사용하고 그 결과물까지 스스로 해석하여 다음 단계를 진행합니다.

③ 에러 처리 및 자가 수정 (Self-Healing)

  • API 직접 개발: API 응답이 이상하거나 에러가 나면 프로그램이 멈추거나 개발자가 짠 예외 처리에 의존합니다.
  • 에이전트 개발: 실행 결과가 실패하면 에이전트가 이를 관찰(Observation)하고, “왜 실패했지?”라고 다시 추론(Reasoning)하여 프롬프트를 수정하거나 다른 도구를 써보는 등 스스로 문제를 해결하려 시도합니다.

개발자를 위한 실무적 시사점

단순히 OpenAI API만 쓰는 수준을 넘어 에이전트로 넘어가려면, 시스템의 안정성이 무엇보다 중요해집니다. 에이전트는 스스로 루프를 돌기 때문에 무한 루프에 빠지거나 API 비용이 폭증할 위험이 있기 때문입니다.

결론 : “API 호출은 명령(Command)이고, 에이전트는 위임(Delegation)이다”


🔄 API 호출 개발 vs 에이전트 기반 개발: 패러다임의 전환

1. 왜 에이전트가 API 개발을 대체할 수 있는가?

① 하드코딩된 로직의 최소화 (Zero-Code Workflow)

  • 기존 방식: IF 사용자가 A를 물어보면 THEN B API를 호출하고 ELSE C를 한다… 식의 복잡한 조건문을 개발자가 일일이 짰습니다.
  • 에이전트 방식: 목표(Goal)와 도구(Tools) 리스트만 줍니다. 에이전트가 상황에 맞춰 실시간으로 최적의 로직을 생성합니다. 개발자는 ‘경로’를 짜는 게 아니라 ‘환경’을 조성합니다.

② 예외 상황에 대한 자가 치유 (Self-Healing)

  • 기존 방식: API 응답 형식이 바뀌거나 예기치 못한 에러가 나면 프로그램이 터집니다.
  • 에이전트 방식: 에러 메시지를 보고 에이전트가 스스로 판단합니다. “아, API 형식이 바뀌었네? 그럼 다시 분석해서 요청해볼까?” 하며 추론 루프(Reasoning Loop)를 통해 문제를 해결합니다.

③ 비정형 데이터의 정형화

  • 기존 방식: 외부 웹사이트의 정보를 가져와서 DB에 넣으려면 복잡한 파싱 로직이 필요합니다.
  • 에이전트 방식: 브라우징 도구로 긁어온 정보를 에이전트가 알아서 이해하고, 우리가 원하는 JSON 규격으로 딱 맞춰서 넥서스(Nexus)에 전달합니다.

2. 비용 외에 고려해야 할 ‘에이전트의 도전 과제’

비용(토큰 소모) 외에도 에이전트 도입 시 해결해야 할 기술적 숙제들이 있습니다.

  • 지연 시간 (Latency): 스스로 생각하고 도구를 쓰는 루프 때문에 응답이 느림 ⇒ 비동기 처리 및 스트리밍 기술 도입
  • 결과의 비결정성: 같은 질문에도 매번 실행 경로가 달라질 수 있음 ⇒ 엄격한 가이드라인 프롬프트 및 테스트 자동화
  • 무한 루프 (Infinite Loop): 목표를 못 찾고 계속 도구만 호출하며 루프를 도는 현상 ⇒ 최대 반복 횟수(Max Iterations) 강제 설정

🧠 LLM(Large Language Model)의 정의와 역할

1. LLM이란 무엇인가?

LLM은 방대한 양의 텍스트 데이터를 학습하여 언어의 패턴, 문맥, 논리를 이해하고 생성할 수 있도록 설계된 인공신경망 모델입니다. 단순히 단어를 나열하는 것이 아니라, 문장 속의 복잡한 관계를 파악하는 트랜스포머(Transformer) 아키텍처를 기반으로 합니다.

2. 에이전트 시스템에서의 LLM의 기능

단순한 ‘채팅 도구’가 아닌, 에이전트의 의사결정권자

  • 추론(Reasoning): 사용자의 모호한 요청을 분석하여 실행 가능한 논리적 단계로 변환합니다.
  • 언어 이해(NLU): 자연어로 된 명령을 컴퓨터가 이해할 수 있는 구조화된 데이터나 함수 호출(Function Calling)로 바꿉니다.
  • 지식 저장소: 학습 과정에서 습득한 방대한 일반 상식을 바탕으로 문제 해결의 실마리를 제공합니다.
  • 결과 생성: 도구 실행 결과나 검색된 정보를 종합하여 사용자에게 최적화된 자연어 답변을 구성합니다.

3. LLM의 주요 특징

특징 설명
확장성 (Scalability) 파라미터(매개변수) 수가 늘어날수록 복잡한 논리 추론 능력이 비약적으로 상승함
제로샷/퓨샷 학습 추가 학습 없이도 몇 가지 예시나 지시만으로 새로운 작업을 수행함
컨텍스트 윈도우 한 번에 기억하고 처리할 수 있는 정보의 양(토큰)이 정해져 있음

4. 에이전트 개발 시 LLM 활용의 한계와 극복

LLM은 강력하지만 환각(Hallucination)최신 정보 부재라는 명확한 한계가 있습니다. 《AI Agents in Action》에서는 이를 해결하기 위해 다음을 강조합니다.

  • RAG(검색 증강 생성): 외부 벡터 DB를 연동하여 근거 있는 답변 유도
  • Tool Use: 계산기나 검색 엔진 등 외부 도구와 결합하여 정확도 향상

✍️ LLM 프롬프팅(Prompting) 핵심 전략 정리

1. 프롬프트의 6가지 핵심 요소 (Framework)

좋은 프롬프트는 아래 요소들을 포함할 때 가장 정확한 결과물을 냅니다.

  • 역할(Role): AI에게 부여할 전문적인 정체성 (예: “너는 시니어 풀스택 개발자야.”)
  • 맥락(Context): 배경지식과 목표 설명 (예: “우리 회사의 기술 스택은 Spring Boot와 React야.”)
  • 작업(Task): 수행해야 할 구체적인 임무 (예: “회원 가입 로직을 구현해 줘.”)
  • 제약 사항(Constraint): 하지 말아야 할 일 (예: “외부 라이브러리는 사용하지 마.”)
  • 형식(Format): 결과물의 형태 (예: “JSON 형식으로 출력해.”, “마크다운 표로 정리해.”)
  • 예시(Few-Shot): 원하는 결과의 샘플 제공 (예: “이런 식으로 답변해줘: [예시]”)

2. 고급 프롬프팅 기법 (Advanced Techniques)

기법 명칭 설명 효과
Zero-Shot 예시 없이 바로 질문함 간단한 작업에 적합
Few-Shot 2~3개의 예시를 보여주고 질문함 일관된 형식과 톤 유지에 탁월
CoT (Chain of Thought) “단계별로 생각해보자”라고 지시함 복잡한 논리 및 수학 문제 해결 능력 향상
Zero-Shot CoT 지시문 뒤에 “Step by step으로 설명해” 추가 논리적 추론 과정 유도
Self-Consistency 여러 번 생성 후 가장 일관된 답을 선택 응답의 신뢰도와 정확성 향상

3. 에이전트 개발을 위한 실전 팁

✅ 페르소나 설계 (System Prompt)

단순히 “친절한 비서”보다는 구체적인 업무 범위를 지정하세요.

“너는 사용자 일정 관리 전문 에이전트야. 구글 캘린더 API를 통해 일정을 조회하고, 중복된 시간이 있으면 사용자에게 대안을 제시해야 해.”

✅ 할루시네이션(환각) 방지

모르는 것을 지어내지 않도록 명시적인 가이드라인을 줍니다.

“제공된 지식(Knowledge) 문서에 답이 없다면, 지어내지 말고 ‘모른다’고 대답한 뒤 사용자에게 추가 정보를 요청해.”

rag를 통해 어느정도 수정 가능하다

✅ 출력 형식 고정 (JSON/Markdown)

프로그래밍적으로 데이터를 처리해야 할 때 필수적입니다.

“답변은 반드시 유효한 JSON 형식이어야 하며, 다른 서술형 문장은 포함하지 마.”

4. 프롬프트 엔지니어링 주의사항

  • 부정문보다는 긍정문: “~하지 마”보다 “~해라”라고 직접적으로 지시할 때 더 잘 따릅니다.
  • 길이 조절: 너무 긴 프롬프트는 앞부분을 잊어버리는 ‘Lost in the Middle’ 현상이 생길 수 있으므로, 중요한 지시는 앞이나 뒤에 배치하세요.

🤖 GPT Agent(GPTs / Assistants) 제작 가이드

1. GPT 에이전트란?

OpenAI의 LLM(GPT-4 등)을 기반으로 특정 목적(Role)을 부여하고, 고유한 지식(Knowledge)외부 도구(Actions)를 결합하여 자율적으로 업무를 수행하도록 커스터마이징한 AI 시스템입니다.

2. GPT 에이전트의 4대 구성 요소 (GPTs 기준)

  • Instructions (Instructions/System Prompt): 에이전트의 ‘페르소나’와 ‘행동 지침’입니다. “너는 전문 코드 리뷰어야”라고 정체성을 부여하고, 어떤 상황에서 어떻게 행동할지 규칙을 정합니다.
  • Knowledge (RAG - Retrieval): PDF나 텍스트 파일을 업로드하여 GPT가 학습하지 않은 나만의 데이터를 참고하게 합니다. (장기 기억 및 전문성 보완)
  • Capabilities (Built-in Tools): OpenAI가 기본 제공하는 강력한 도구들입니다.
    • Web Browsing: 실시간 정보 검색
    • DALL-E: 이미지 생성
    • Code Interpreter: 데이터 분석 및 Python 코드 실행
  • Actions (Custom API): 외부 서비스(노션, 슬랙, 구글 캘린더 등)와 연결하는 통로입니다. API를 통해 실제로 메일을 보내거나 데이터베이스를 업데이트하는 ‘손발’ 역할을 합니다.

3. GPT 에이전트 제작 시 핵심 프로세스

단계 활동 내용 비고
1. Role 설정 에이전트의 목적과 제약 사항 정의 Instructions 작성
2. 데이터 주입 관련 문서(PDF, Docx 등) 업로드 Knowledge 활용
3. 도구 연결 검색, 코드 실행 또는 외부 API 연동 Actions 설정
4. 테스트 & 루프 Preview에서 대화하며 예외 상황 수정 반복적인 Refinement

4. 제작 시 주의사항 및 팁

  • 프롬프트 인젝션 방어: 지시 사항(Instructions)을 외부에 노출하지 않도록 보안 문구를 포함해야 합니다.
  • 파일 최적화: 너무 큰 파일보다는 구조화된 텍스트 파일(Markdown 등)이 인식률이 높습니다.
  • API 연동: JSON 스키마를 정확히 작성해야 Actions가 오류 없이 작동합니다.

💡 개발자 Tip: 만약 GPT 에이전트와 연동되는 백엔드 서버를 직접 구축하고 계신다면, 환경 설정 문제로 고생하지 않도록 Spring Initializr를 사용하여 프로젝트를 생성하는 것을 적극 추천합니다. 초기 설정이 깔끔해야 OpenAI API와의 연동 테스트가 수월해집니다.


🏪 GPT Store: 에이전트 생태계와 유통

1. GPT Store란?

OpenAI가 제공하는 플랫폼으로, 사용자가 코딩 없이(No-Code) 만든 Custom GPTs(에이전트)를 전 세계 사용자와 공유하거나 수익화할 수 있는 마켓플레이스입니다.

  • 에이전트의 대중화: 전문 개발자가 아니어도 특정 목적(학습, 디자인, 데이터 분석 등)에 특화된 에이전트를 설계할 수 있습니다.
  • 구성 요소의 결합: 《AI Agents in Action》에서 말하는 지식(Knowledge)도구(Actions)가 미리 세팅된 완제품 에이전트들이 모여 있습니다.

2. GPT Store에 등록되는 에이전트의 3대 구조

스토어에 올라온 에이전트들은 내부적으로 다음과 같은 구조를 가집니다.

  • Instructions: 에이전트의 성격, 말투, 금기 사항 설정 — 페르소나 및 시스템 프롬프트
  • Knowledge: PDF, 텍스트 등 외부 파일 기반 지식 — RAG (장기 기억 및 데이터 증강)
  • Capabilities: 브라우징, 이미지 생성, 코드 해석기 — 기본 내장 도구 (Native Tools)
  • Actions: 외부 API(예: 노션, 재피어)와 실시간 연동 — 외부 도구 사용 (External Actions)

3. 스토어 에이전트 제작 시 핵심 전략 (강의 포인트)

✅ 니치(Niche)한 목표 설정

  • “그냥 똑똑한 AI”는 이미 GPT-4가 잘합니다. 특정한 페인 포인트(Pain Point)를 해결하는 에이전트를 목표로 삼아야 합니다. (예: 논문 요약 전문 에이전트, SQL 쿼리 최적화 에이전트)

✅ 프롬프트 보안 (Safety & Privacy)

  • 스토어에 공개된 에이전트의 Instructions가 유출되지 않도록 방어 프롬프트를 작성하는 것이 실무적으로 매우 중요합니다.

✅ API 연동의 확장성

  • 단순 대화형을 넘어 Actions를 통해 외부 데이터베이스와 연결될 때 진정한 에이전트로서의 가치가 발생합니다.