프롬프트 진화(Prompt Evolution)란 무엇인가요?

프롬프트 진화는 LLM에 입력하는 프롬프트를 자동으로 반복 개선하는 방법론입니다. 본 연구에서는 Claude Code의 Ralph Loop와 n8n 워크플로우를 활용하여 40종 이상의 프롬프트 변형을 700회 이상의 API 호출을 통해 체계적으로 진화시켰으며, 로컬 모델(GPT-OSS-20B, QWEN3-32B)에서 82-85%의 정확도를 달성했습니다.

Ralph Loop는 무엇이며 어떻게 프롬프트 최적화에 활용되나요?

Ralph Loop는 Claude Code의 반복적 자기 개선 루프(recursive self-improvement loop)입니다. 프롬프트를 자동으로 생성하고, n8n webhook을 통해 모델에 전송하여 결과를 평가한 후, 다음 프롬프트 변형을 자동 생성하는 폐쇄 루프(closed-loop) 시스템을 구현합니다.

프롬프트 엔지니어링만으로 로컬 LLM의 성능 한계는 어디인가요?

본 연구에서 확인된 실용적 한계(practical ceiling)는 82-85%입니다. 역할 부여 + 번호 단계 + 부정 경고의 3-4줄 간결한 지시문이 최적이며, 과도한 명세(5줄 이상)는 오히려 성능을 69%로 저하시킵니다. 98% 목표 달성에는 모델 전환, 앙상블 등 아키텍처 수준의 변경이 필요합니다.

n8n 워크플로우는 이 연구에서 어떤 역할을 하나요?

n8n은 실험 인프라의 하위 계층으로, AI Agent 노드를 통해 GPT-OSS-20B와 QWEN3-32B 모델에 프롬프트를 전송하고 응답을 수집하는 실행 환경을 제공합니다. 두 개의 독립적인 webhook endpoint를 통해 각 모델에 동시 병렬적으로 프롬프트를 전송할 수 있습니다.

Can Prompt Evolution Teach Local Models to Reason?
Automated Closed-Loop Optimization for High-Context Numerical Inference in Policy Texts

프롬프트 진화로 로컬 모델에게 추론을 가르칠 수 있는가:
고맥락 정책 텍스트 기반 수리 추론의 자동 폐쇄 루프 최적화 연구

Mineru
Independent Researcher

Abstract

로컬 LLM은 고맥락 정책 텍스트에서 수치 규칙을 추출하고 소수점 단위의 정밀 계산을 수행할 수 있는가? 본 연구는 이 질문에 답하기 위해, 한국 부동산 정책 변화를 다루는 뉴스 기사로부터 암묵적 규칙(가격 계수 140%, 임대 비율 90%)을 추출하여 다단계 수리 추론을 수행하는 과제를 설계하고, 20B/32B급 로컬 모델(GPT-OSS-20B, QWEN3-32B)에 추론 토큰 없이(singleton) 부과하였다. Claude Code의 ralph loop와 multi sub-agent를 활용한 자동 폐쇄 루프(closed-loop) 시스템으로 n8n AI Agent 노드에 프롬프트를 자동 전송·평가·개선하며, 40종 이상의 프롬프트 변형을 700회 이상의 API 호출을 통해 체계적으로 진화시켰다.

실험 결과, 프롬프트 진화를 통해 로컬 모델은 고맥락 정책 텍스트 기반 수리 추론에서 82–85%의 정확도를 달성하였으며, QWEN3-32B는 Calculator Tool 없이 순수 암산만으로 85%에 도달하는 인상적인 결과를 보였다. 그러나 목표치(98%)에는 미달하였으며, 이는 프롬프트 진화만으로는 극복하기 어려운 모델 아키텍처 고유의 실용적 한계(practical ceiling)가 존재함을 시사한다. 본 연구는 프롬프트 진화의 가능성과 한계를 동시에 규명하고, 로컬 모델이 고맥락 추론 과제에서 어디까지 도달할 수 있는지의 실증적 경계를 제시한다.

Keywords: 프롬프트 진화, 고맥락 추론, 로컬 LLM, 자동 프롬프트 최적화, 폐쇄 루프, Claude Code, ralph loop, multi sub-agent, 수리 추론, 정책 텍스트, n8n

1. Introduction

1.1 연구 배경

대형 언어 모델(LLM)의 추론 능력은 주로 GPT-4, Claude 3.5 Sonnet, Gemini Ultra 등 대규모 상용 모델을 중심으로 연구되어 왔다. 그러나 프라이버시, 비용, 지연(latency) 등의 실용적 제약으로 인해 로컬 배포 가능한 20–32B급 모델의 수요가 빠르게 증가하고 있다. 이러한 중소형 모델들이 복잡한 수리 추론 과제에서 어느 수준까지 도달할 수 있는지는 산업적으로 중요한 질문이다.

1.2 문제 정의

본 연구는 특히 고맥락 정책 텍스트 기반 수리 추론이라는 어려운 과제에 집중한다. 이 과제는 다음 세 가지 난관을 동시에 요구한다: (1) 뉴스 기사 형태의 장문 텍스트에서 암묵적으로 표현된 수치 규칙 추출, (2) 추출된 규칙을 바탕으로 한 다단계 산술 연산, (3) 소수점 둘째 자리 이하의 정밀한 최종 답 도출. 이러한 과제는 단순한 산술 능력과 구별되며, 맥락 이해와 수리 추론의 통합을 요구한다.

1.3 도메인 복잡성

실험에 사용된 과제는 한국 부동산 정책의 실제 변화를 반영한다. 구체적으로, 분양가 상한제 폐지에 따른 신규 아파트 가격 추정과, 전세→월세 전환 시 임대료 계산이 포함된다. 이 과제는 단순히 주어진 숫자를 계산하는 것이 아니라, "이전 시세의 140%"와 같은 맥락적 표현에서 계수를 추출하고, "전세금의 90%에 해당하는 금액에 대해 연 이율 6%를 적용"과 같은 복합 규칙을 올바르게 파싱하는 능력을 요구한다.

1.4 연구 질문

RQ1: 프롬프트 진화를 통해 로컬 LLM(20–32B)이 고맥락 수리 추론에서 달성 가능한 최대 정확도는 얼마인가?
RQ2: 어떤 프롬프트 전략이 유효하고, 어떤 전략이 역효과를 내는가?
RQ3: 두 모델(GPT-OSS-20B vs. QWEN3-32B)의 행동 차이는 무엇이며, 모델별 최적화가 필요한가?

1.5 논문 구조

본 논문은 다음과 같이 구성된다: 2절에서 실험 설계와 시스템 아키텍처를 기술하고, 3절에서 프롬프트 진화 과정을 상세히 분석한다. 4절에서 정량적 결과를 제시하고, 5절에서 분석 및 논의를 수행한다. 6절에서 한계와 향후 연구 방향을 제시하고, 7절에서 결론을 맺는다.

2. Experimental Design

2.1 과제 기술

본 실험의 핵심 과제는 다음과 같은 제약 하에 설계되었다:

입력: 한국 부동산 정책 변화를 다루는 ~800자 뉴스 기사
추론 토큰 없음: 두 모델 모두 추론(thinking) 토큰을 비활성화한 상태로 실행 (GPT-OSS-20B: 기본값, QWEN3-32B: /nothink 접두사 사용)
정밀도 요구: 최종 답은 소수점 둘째 자리까지 정확해야 함
도구 사용: GPT-OSS-20B는 Calculator Tool 사용 가능, QWEN3-32B는 /nothink로 인해 도구 호출 불가

과제 구조

각 테스트 케이스는 두 개의 하위 질문으로 구성된다:

Q1: 신규 아파트 분양가 계산 (기존 시세 × 140% 계수 추출 + 산술)
Q2: 전세→월세 전환 임대료 계산 (전세금 × 90% × 연 6% ÷ 12 개월)

해답 단계

뉴스 텍스트에서 기준 수치 파악
정책 계수(140%, 90%, 6%) 식별
단계별 산술 수행
단위 변환 (억 원 → 만 원, 연 → 월)
소수점 둘째 자리 반올림

오류 패턴 분류

사전 분석에서 확인된 주요 오류 유형: (E1) 계수 추출 실패 — 텍스트에서 140% 또는 90% 규칙 오독, (E2) 산술 오류 — 올바른 수식이지만 계산 실수, (E3) 단위 오류 — 억/만 단위 혼동 또는 연/월 전환 실수, (E4) 반올림 오류 — 소수점 처리 부정확.

2.2 시스템 아키텍처

본 실험의 자동화 파이프라인은 Claude Code + n8n의 조합으로 구성된다.

Figure 1. 실험 파이프라인 아키텍처. 사용자 질문이 n8n 웹훅을 통해 GPT-OSS-20B(Calculator Tool 사용)와 QWEN3-32B(/nothink 모드로 도구 미사용)에 병렬 전달된다. QWEN의 도구 미사용은 설계적 제약이 아니라 /nothink 접두사의 부작용이었다.

실험의 핵심 자동화는 Claude Code의 ralph loop를 통해 구현되었다. Ralph loop는 (1) 현재 프롬프트로 n8n 웹훅에 테스트 전송, (2) 결과 파싱 및 정확도 측정, (3) 오류 패턴 분석, (4) 개선된 프롬프트 생성, (5) 반복의 사이클을 자동으로 수행한다.

웹훅 엔드포인트

POST /webhook/chat — GPT-OSS-20B 메인 엔드포인트
POST /webhook/chat-qwen — QWEN3-32B 전용 엔드포인트
POST /webhook/batch-test — 20회 반복 배치 테스트

프롬프트 파일 구조

n8n/
├── prompt.txt          # GPT-OSS-20B 시스템 프롬프트
├── prompt_qwen.txt     # QWEN3-32B 전용 프롬프트
├── test_cases/
│   ├── case_01.json    # 기본 테스트 케이스
│   └── ...
└── results/
    ├── gpt_run_*.json
    └── qwen_run_*.json

2.3 평가 방법론

정확도 측정은 두 가지 기준을 동시에 적용한다: (1) 엄격 기준(Strict): Q1, Q2 모두 소수점 둘째 자리까지 정확히 일치, (2) 완화 기준(Lenient): Q1 또는 Q2 중 하나만 정확히 일치.

핵심 발견: 20회 테스트(n=20) 기준으로도 통계적 변동이 ±5%p 수준으로 나타났으며, 이는 소규모 표본에서의 정확도 측정 신뢰도 한계를 시사한다. 60회(n=60) 이상에서 통계적 안정성이 확보된다.

각 프롬프트 변형에 대해 최소 20회(일부 최종 변형은 60회) 독립 테스트를 수행하였으며, 총 700회 이상의 API 호출이 이루어졌다.

실험 규모 요약

총 프롬프트 변형: 40종 이상
총 API 호출: 700회+
실험 기간: 2026-03-15 ~ 2026-03-16 (36시간)
평가 인원: 1인 (자동화 + 수동 검증 병행)

3. Prompt Evolution

Figure 2. 프롬프트 진화 타임라인. P1(Baseline) → P2(Structured) → P3(Comprehensive, 과도한 구조화로 성능 저하) → P4(Model-Specific, QWEN 전용 최적화)의 4단계 주요 진화 경로를 보여준다.

3.1 Phase 1: Baseline (P1)

초기 프롬프트는 역할 정의, 단계별 계산 지시, 경고 메시지의 세 구성 요소로 이루어진 최소 지시문이었다. GPT-OSS-20B에서 약 78%의 기준 정확도를 보였으나, 계수 추출 실패(E1)와 단위 오류(E3)가 주요 실패 원인이었다.

# P1 Baseline (prompt.txt - 초기 버전)
You are a precise real estate calculator.
Given a news article about Korean real estate policy,
extract numerical rules and calculate exact values.
Step 1: Extract the percentage coefficients (e.g., 140%, 90%).
Step 2: Apply coefficients to base values from the article.
Step 3: Round to 2 decimal places.
WARNING: Use Calculator Tool for all arithmetic.

3.2 Phase 2: Structured (P2)

P1의 오류 분석을 바탕으로, 맥락 파싱 강조와 명시적 도구 사용 지시를 추가하였다. 특히 "계수는 기사에 명시된 퍼센트 값을 직접 사용하라"는 명시적 지시가 E1 오류를 크게 줄였다.

ROLE: Korean real estate policy calculator.
CRITICAL RULES:
1. Extract EXACT percentages from article text
   (e.g., "기존 시세의 140%" → coefficient=1.40)
2. Use Calculator Tool for EVERY multiplication/division
3. Report answers as: Q1: X.XX억원, Q2: Y.YY만원/월
CONTEXT PARSING: The article contains implicit rules.
Find them before calculating.

3.3 Phase 3: Comprehensive (P3) — 역효과 사례

P2의 성공에 고무되어, 더 상세한 XML 구조와 예시, 오류 방지 체크리스트를 추가한 P3를 설계하였다. 그러나 이 접근법은 역효과를 낳았다. 과도한 구조화(over-specification)로 인해 모델이 지시 이행 자체에 집중하며 실질적 추론 능력이 저하되었다.

# P3 Comprehensive (prompt_5.txt) - 역효과 사례
<system>
  <role>Korean Real Estate Policy Calculator v3</role>
  <instructions>
    <step id="1">Parse article for base_price</step>
    <step id="2">Extract coefficient_1 (분양가)</step>
    <step id="3">Extract coefficient_2 (전세→월세)</step>
    <step id="4">Call calculator: base * coeff_1</step>
    <step id="5">Call calculator: deposit * 0.9 * 0.06 / 12</step>
  </instructions>
  <output_format>JSON with Q1, Q2 keys</output_format>
  <error_prevention>
    - Never estimate, always calculate
    - Cross-check with manual estimation
  </error_prevention>
</system>

P3 역효과 분석:XML 구조화된 프롬프트는 모델이 <step> 태그를 직렬 실행하는 데 집중하게 만들어, 암묵적 규칙 추출이라는 핵심 과제를 우선순위에서 밀어냈다. 결과적으로 82% → 69%로 13%p 하락하였다.

3.4 Phase 4: Model-Specific (P4)

QWEN3-32B의 행동 특성 분석 결과, /nothink 접두사로 인해 Calculator Tool을 전혀 호출하지 않음을 발견하였다. 이에 QWEN 전용 프롬프트를 설계하였으며, 도구 없이 순수 암산으로 정밀도를 유지할 수 있도록 명시적 암산 절차를 포함시켰다.

# P4 Model-Specific (prompt_qwen.txt)
/nothink
당신은 한국 부동산 정책 계산 전문가입니다.
[암산 절차]
1단계: 기사에서 기준 수치와 계수를 찾으세요
   - "기존 시세의 X%" → 기준가 × (X/100)
   - "전세금의 Y%에 연 Z%" → 전세금 × Y/100 × Z/100 ÷ 12
2단계: 각 계산을 명시적으로 기록하세요
   예: 5억 × 1.40 = 7억 = 7.00억원
3단계: 단위 확인 (억원 vs 만원/월)
답변 형식: Q1: X.XX억원 | Q2: Y.YY만원/월

3.5 교차 단계 분석

40종 이상의 프롬프트 변형을 통해 확인된 핵심 패턴을 다음 표에 정리한다.

Table 1. 프롬프트 진화 교차 단계 분석 요약

전략	GPT-OSS	QWEN3	효과
명시적 계수 추출 지시	+8%p	+6%p	유효
Calculator Tool 강조	+5%p	N/A	GPT만 유효
XML 구조화	-13%p	-11%p	역효과
예시 포함 (few-shot)	+3%p	+7%p	유효
/nothink 접두사	N/A	도구 비활성화	제약
단계별 암산 절차	+2%p	+9%p	QWEN에 특히 유효

4. Results

4.1 전체 성능 비교

최종 최적화된 프롬프트 변형들에 대한 성능 비교 결과는 다음과 같다.

Figure 3. 프롬프트 변형별 정확도 비교. 역할+단계+경고 구조(P2 계열)가 가장 높은 정확도(GPT: 80%, QWEN: 85%, Combined: 82%)를 달성하였다. XML 구조화(P3 계열)는 전반적 성능 저하를 보인다. 목표치(98%) 및 실용적 한계(82%)가 점선으로 표시되어 있다.

Table 2. 모델별 최종 성능 비교 (n=60, 최적 프롬프트 기준)

모델	최적 프롬프트	정확도 (Strict)	정확도 (Lenient)	도구 사용	목표 대비
GPT-OSS-20B	prompt_3.txt (P2)	80.0%	88.3%	Calculator (100%)	–18.0%p
QWEN3-32B	prompt_qwen.txt (P4)	85.0%	91.7%	없음 (암산)	–13.0%p
Combined (평균)	—	82.5%	90.0%	—	–15.5%p
Target	—	98.0%	—	—	—

4.2 오류 유형 분석

Figure 4. 모델별 오류 유형 분해. GPT-OSS-20B의 주요 실패 원인은 Calculator Tool 호출 실패(10%)와 규칙 파싱 오류(12%)이다. QWEN3-32B는 암산 오류(10%)가 주요 실패 원인이며, 규칙 오류(5%)는 상대적으로 낮다.

오류 유형별 세부 분석

GPT-OSS-20B의 주요 실패 패턴:

E2 (산술 오류): Calculator Tool을 올바르게 호출하지 않고 직접 계산하다가 실수 — 전체 실패의 45%
E1 (계수 추출 실패): "기존 시세의 140%"에서 1.40이 아닌 140을 추출 — 전체 실패의 32%
E3 (단위 오류): 억원/만원 혼동, 연/월 전환 실수 — 전체 실패의 23%

QWEN3-32B의 주요 실패 패턴:

E2 (암산 오류): /nothink 모드로 도구 미사용 상태에서 복잡한 소수 연산 오류 — 전체 실패의 62%
E1 (계수 추출): GPT 대비 낮은 비율 — 전체 실패의 21%
E4 (반올림): 소수점 처리 오류 — 전체 실패의 17%

4.3 표본 크기 효과

Figure 5. 표본 크기와 정확도 추정 편향. n=5 소규모 테스트에서는 실제 성능(~82%)을 과대추정하는 경향이 강하다. n=60 이상에서 참값으로 수렴하며 통계적 안정성이 확보된다.

Table 3. 표본 크기별 정확도 측정 수렴 분석

표본 크기 (n)	관측 정확도 범위	표준편차	95% CI 폭	신뢰도
n = 5	80% – 100%	±9.8%p	±19.2%p	매우 낮음
n = 10	70% – 95%	±7.2%p	±14.1%p	낮음
n = 20	75% – 90%	±5.1%p	±10.0%p	보통
n = 40	79% – 87%	±3.6%p	±7.1%p	양호
n = 60	80% – 85%	±2.9%p	±5.7%p	충분

통계적 운의 함정: n=5 테스트에서 100% 정확도가 관측되는 경우가 실험 중 3회 발생하였다. 이는 실제 성능이 아닌 통계적 행운(statistical luck)이었으며, n=20 이상에서 모든 변형이 80–85% 범위로 수렴하였다.

5. Analysis & Discussion

5.1 효과적인 전략

실험 전반에 걸쳐 일관되게 효과적이었던 프롬프트 전략은 다음과 같다:

명시적 계수 파싱 지시: "기사에서 X%를 찾아 X/100으로 변환하라"는 명시적 지시는 E1(계수 추출) 오류를 GPT에서 32% → 18%로, QWEN에서 25% → 12%로 줄였다.
단계별 중간 결과 기록 요구: "각 계산 단계를 숫자와 함께 명시하라"는 지시가 E3(단위) 오류를 줄였다. 모델이 스스로 검증하는 효과.
Few-shot 예시 (1–2개): 유사한 도메인의 예시를 1–2개 포함하면 QWEN에서 +7%p, GPT에서 +3%p 향상을 보였다.
QWEN 전용 암산 절차: /nothink 모드의 도구 미사용 제약을 인지하고, 암산 절차를 명시한 P4 전략이 QWEN에서 가장 높은 성능을 달성하였다.

5.2 비효과적 전략

다음 전략들은 직관에 반하여 성능을 저하시켰다:

XML/JSON 출력 구조 강제: 출력 형식을 JSON으로 강제하면 모델이 형식 준수에 에너지를 소비하여 실질적 추론이 저하된다. 평균 –8%p.
과도한 오류 방지 지시: "절대 추정하지 마라", "계산기를 반드시 사용하라" 등의 반복적 강조는 오히려 모델의 불확실성을 높여 도구 호출 실패를 증가시켰다.
체인-오브-소트(CoT) 강제: "단계별로 생각하라"는 지시는 추론 토큰 없는 모드에서 효과가 없었다. 모델이 CoT를 수행하는 척 하면서 정작 계산은 즉흥적으로 수행하였다.
과도한 역할 페르소나: "당신은 20년 경력의 공인 부동산 감정사입니다" 등의 상세 역할 부여는 중립적 역할 부여 대비 성능 차이 없음.

5.3 모델별 행동 차이

Table 4. GPT-OSS-20B vs. QWEN3-32B 행동 비교

특성	GPT-OSS-20B	QWEN3-32B
도구 사용	Calculator Tool 100% 호출 시도	/nothink로 도구 호출 0회
산술 방식	도구 의존, 도구 실패 시 오류	순수 암산, 복소수 계산에서 오류
계수 추출	상대적으로 취약 (E1 빈도 높음)	상대적으로 강건 (E1 빈도 낮음)
출력 일관성	형식 일관성 높음	형식 변동성 있음
Few-shot 반응	+3%p	+7%p (더 민감)
과도한 지시 반응	형식 준수 과집중	지시 무시 경향
최적 프롬프트 길이	중간 (100–150 토큰)	짧음 (50–80 토큰)

모델별 최적화의 필요성: GPT-OSS-20B와 QWEN3-32B는 동일한 프롬프트에 대해 상이한 최적 반응을 보인다. 단일 프롬프트로 두 모델의 최적 성능을 동시에 달성하기 어려우며, 모델별 전용 프롬프트 운영이 실용적 해법이다.

5.4 실용적 한계(Practical Ceiling) 분석

40종 이상의 프롬프트 변형과 700회 이상의 테스트를 통해, GPT-OSS-20B는 80%, QWEN3-32B는 85%를 넘어서는 성능 향상이 사실상 불가능함을 확인하였다. 이 한계는 프롬프트 엔지니어링의 문제가 아니라, 20–32B급 모델의 아키텍처적 한계에서 기인한다고 판단된다.

구체적으로, 이 과제는 (1) 장문 한국어 기사 파싱, (2) 암묵적 규칙 추출, (3) 소수점 정밀 계산, (4) 단위 변환이라는 네 가지 난관을 동시에 요구하며, 이 중 (2)와 (3)의 동시 수행이 중소형 모델의 주요 병목임이 확인되었다.

6. Limitations & Future Work

6.1 한계

단일 도메인 한정: 본 연구는 한국 부동산 정책이라는 특정 도메인에 한정되어 있으며, 결과의 일반화 가능성은 제한적이다. 다른 도메인(세법, 의료 지침, 금융 규정 등)에서의 검증이 필요하다.
소규모 테스트 케이스: 모든 테스트가 동일한 기본 뉴스 기사 변형에 기반하며, 다양한 기사 스타일, 규칙 복잡도, 맥락 밀도에 대한 robust 평가가 부족하다.
모델 접근 제한: 두 모델의 내부 아키텍처, 사전훈련 데이터, 파인튜닝 방식에 대한 정보 없이 블랙박스 방식으로 실험하였다.
/nothink 부작용 미처리: QWEN3-32B의 /nothink 접두사가 도구 호출을 비활성화한다는 사실을 실험 초반에 파악하지 못하여, 초기 테스트 결과의 일부가 편향되었을 가능성이 있다.
평가자 단일성: 모든 결과 평가를 단일 연구자가 수행하였으며, 자동화된 채점 시스템의 오류 가능성을 배제할 수 없다.

6.2 향후 연구 방향

추론 토큰 활성화 실험: GPT-OSS-20B와 QWEN3-32B의 추론 모드(thinking tokens)를 활성화한 상태에서의 성능 비교. 추론 토큰이 이 과제에서 얼마나 도움이 되는지 정량화.
Fine-tuning 가능성: 본 실험에서 수집된 700회 이상의 (프롬프트, 응답, 정답) 쌍을 활용한 도메인 특화 파인튜닝으로 실용적 한계 돌파 가능성 탐색.
다중 에이전트 검증: 한 모델이 계산하고 다른 모델이 검증하는 다중 에이전트 아키텍처의 정확도 향상 효과 측정.
도메인 확장: 세법, 의료 지침, 건설 규정 등 유사한 고맥락 수치 추론 과제로의 확장 및 비교 연구.
자동 프롬프트 최적화 프레임워크: 본 연구의 ralph loop를 일반화하여, 임의의 수리 추론 과제에 적용 가능한 자동 프롬프트 진화 프레임워크 개발.

7. Conclusion

본 연구는 프롬프트 진화가 로컬 LLM의 고맥락 수리 추론 능력을 의미있게 향상시킬 수 있음을 실증적으로 보여주었다. Claude Code의 ralph loop와 n8n 워크플로우 엔진을 결합한 자동 폐쇄 루프 시스템은 40종 이상의 프롬프트 변형을 체계적으로 탐색하여, GPT-OSS-20B에서 78% → 80%, QWEN3-32B에서 초기 추정 불안정 → 85%의 정확도를 달성하였다.

그러나 목표치(98%)와의 간극은 단순한 프롬프트 최적화로는 극복하기 어려운 모델 아키텍처 고유의 실용적 한계가 존재함을 명백히 보여준다. 특히 주목할 만한 발견은 QWEN3-32B가 Calculator Tool 없이 순수 암산만으로 GPT-OSS-20B(도구 사용)를 능가하였다는 점이다. 이는 더 큰 파라미터 수와 개선된 사전훈련이 도구 지원의 부재를 어느 정도 보상할 수 있음을 시사한다.

프롬프트 엔지니어링 관점에서의 핵심 테이크어웨이는 다음과 같다: (1) 간결하고 명시적인 지시가 장황한 구조화된 지시보다 효과적이다, (2) 모델별 행동 차이는 유의미하며 단일 프롬프트로의 최적화는 차선책이다, (3) 소규모(n<20) 테스트의 통계적 신뢰도 한계를 인식하고 충분한 반복 실험이 필요하다.

최종 결론: 프롬프트 진화는 로컬 모델을 가르치는 도구이지, 아키텍처 한계를 극복하는 마법이 아니다. 80–85%의 실용적 한계를 넘어서려면 파인튜닝, 추론 토큰, 또는 다중 에이전트 검증과 같은 아키텍처 수준의 개입이 필요하다.

References

[1] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824–24837.
[2] Zhou, Y., Muresanu, A. I., Han, Z., Paster, K., Pitis, S., Chan, H., & Ba, J. (2022). Large language models are human-level prompt engineers. arXiv preprint arXiv:2211.01910.
[3] Guo, S., Hu, S., Li, Z., Qu, C., Liu, Y., Xu, G., & Sha, F. (2023). Connecting large language models with evolutionary algorithms yields powerful prompt optimizers. arXiv preprint arXiv:2309.08532.
[4] Qwen Team. (2025). Qwen3 Technical Report. Alibaba Cloud. Available at: https://qwenlm.github.io/blog/qwen3/
[5] Anthropic. (2025). Claude Code: Agentic coding with Claude. Anthropic Technical Documentation. Available at: https://docs.anthropic.com/claude-code
[6] n8n GmbH. (2024). n8n: Workflow automation for technical teams. Available at: https://n8n.io. (Version 1.x AI Agent Node)

Appendix A: 주요 프롬프트 전문

A.1 P1 Baseline — prompt.txt (초기 버전)

You are a precise real estate calculator.
Given a news article about Korean real estate policy,
extract numerical rules and calculate exact values.

Step 1: Extract the percentage coefficients from the article text.
  - Look for patterns like "기존 시세의 X%" or "전세금의 Y%"
  - Convert percentages to decimal coefficients (e.g., 140% → 1.40)
Step 2: Apply coefficients to base values mentioned in the article.
  - Q1: New apartment price = base_price × price_coefficient
  - Q2: Monthly rent = deposit × rent_ratio × annual_rate / 12
Step 3: Round all final answers to 2 decimal places.

WARNING: Use Calculator Tool for all arithmetic operations.
Never perform mental arithmetic.
Report answers in Korean units (억원 for Q1, 만원/월 for Q2).

A.2 P2 Structured — prompt_3.txt (최고 성능, GPT)

ROLE: You are a Korean real estate policy calculator.
Your task: extract rules from news articles and compute exact values.

CRITICAL RULES:
1. Extract EXACT percentages from article text
   Example: "기존 시세의 140%" → use coefficient = 1.40 (NOT 140)
   Example: "전세금의 90%에 연 6%" → deposit_ratio=0.90, annual_rate=0.06
2. Use Calculator Tool for EVERY multiplication and division
   Never perform arithmetic mentally - always invoke the calculator
3. Report final answers as:
   Q1: X.XX억원 (분양가)
   Q2: Y.YY만원/월 (월세)

CONTEXT PARSING GUIDE:
- Base price for Q1: Look for "현재 시세" or "기존 가격" + amount
- Price coefficient: Look for "X% 상승" or "기존의 X배"
- Deposit for Q2: Look for "전세금" or "보증금" + amount
- Conversion formula: monthly_rent = deposit × ratio × rate / 12

A.3 P3 Comprehensive — prompt_5.txt (역효과 사례)

<system>
  <role>Korean Real Estate Policy Calculator v3.0</role>
  <context>You analyze Korean real estate policy news articles
  and extract implicit numerical rules to perform precise calculations.</context>

  <instructions>
    <step id="1" name="article_parse">
      Read the full article and identify:
      - base_price: current market price (현재 시세/기존 가격)
      - coefficient_1: price multiplier for new apartments (분양가 계수)
      - deposit: jeonse deposit amount (전세금/보증금)
      - rental_ratio: fraction of deposit used for conversion (임대 비율)
      - annual_rate: annual interest rate for rent calculation (연 이율)
    </step>
    <step id="2" name="validate_extraction">
      Verify each extracted value makes sense in context.
      Coefficient_1 should be > 1.0 (price increase scenario).
      Rental_ratio should be between 0.5 and 1.0.
    </step>
    <step id="3" name="calculate_q1">
      Call calculator: result_q1 = base_price × coefficient_1
      Convert to 억원 if needed.
    </step>
    <step id="4" name="calculate_q2">
      Call calculator: result_q2 = deposit × rental_ratio × annual_rate / 12
      Convert to 만원/월.
    </step>
    <step id="5" name="format_output">
      Output strictly as:
      {"Q1": "X.XX억원", "Q2": "Y.YY만원/월"}
    </step>
  </instructions>

  <error_prevention>
    <rule>Never estimate or approximate - use calculator for ALL arithmetic</rule>
    <rule>Cross-check: coefficient_1 should yield price > base_price</rule>
    <rule>Cross-check: Q2 result should be reasonable monthly rent</rule>
  </error_prevention>
</system>

A.4 P4 Model-Specific — prompt_qwen.txt (최고 성능, QWEN)

/nothink
당신은 한국 부동산 정책 계산 전문가입니다.
뉴스 기사를 읽고 정책 규칙을 추출하여 정확한 수치를 계산해주세요.

[규칙 추출 방법]
• "기존 시세의 X%" → 기준가 × (X ÷ 100)을 새 가격으로 사용
• "전세금의 Y%에 연 Z% 이율" → 월세 = 전세금 × (Y÷100) × (Z÷100) ÷ 12

[암산 계산 절차 - 단계별로 명시하세요]
1단계: 기사에서 기준 수치를 찾으세요 (시세, 전세금 등)
2단계: 적용할 계수/비율을 확인하세요
3단계: 각 계산을 숫자와 함께 명시하세요
  예시: 5억 × 1.40 = 7억 → Q1: 7.00억원
  예시: 3억 × 0.90 × 0.06 ÷ 12 = 135,000원 → Q2: 13.50만원/월
4단계: 단위를 확인하세요 (억원 vs 만원/월)

[답변 형식]
Q1: X.XX억원
Q2: Y.YY만원/월

[중요] 계산 과정을 항상 명시하고, 소수점 둘째 자리까지 정확히 계산하세요.

Can Prompt Evolution Teach Local Models to Reason?Automated Closed-Loop Optimization for High-Context Numerical Inference in Policy Texts

프롬프트 진화로 로컬 모델에게 추론을 가르칠 수 있는가:고맥락 정책 텍스트 기반 수리 추론의 자동 폐쇄 루프 최적화 연구