본문으로 건너뛰기

ADR 0054: Platform RAG 소스 확장

배경

CEO 디렉티브 (2026-06-11): "법제처의 판례 외 법령·문헌·조문별 연계 등 다른 유용한 정보도 활용하고, 법고을의 각급 법원 판례·문헌도 포섭하면 풍부해질 것."

조사 결과 (2026-06-11):

  1. 법제처 Open API 는 191종 — 우리는 target 2종 (prec 판례 · law 법령) 만 사용 중. 법령해석례 (expc) · 헌재결정례 (detc) · 행정심판례 (decc) · 행정규칙 (admrul) · 위원회 결정문 12기관 · 별표서식 등이 미사용.
  2. 스키마는 이미 확장을 예비PublicDocumentSourceTypeadmin_rule · commentary, PublicDocumentOriginbeopgoeul_lx · scourt_openapi · aihub_71723 이 선언만 되어 있고 미사용.
  3. 법고을은 2024년 웹 전환·대국민 공개 (lx.scourt.go.kr) 되었으나 Open API 가 없고, 직접 크롤링은 (a) 이용약관 (b) 데이터베이스제작자 권리 (저작권법 §91~93 — 판결문 개개는 §7 비보호저작물이지만 편집·DB 는 보호) 리스크. 문헌 (사법논집·재판자료·실무제요) 은 판례·법령과 달리 저작권 보호 대상.
  4. 각급 법원 판례의 정식 경로가 존재 — 대법원 사법정보공유포털 (openapi.scourt.go.kr) 판례 데이터 API (신청제) + AI-Hub 판결문 데이터셋 (영리 R&D 허용) + 판결서 인터넷열람 (형사 2013~ 확정, 민사·행정·특허 2015~ 확정 + 2023~ 선고분 미확정 포함).

결정

1. 법제처 target 3종 신규 수집 (Phase A)

targetsourceType비고
expc 법령해석례legal_interpretation (신규)법제처 유권해석 — 실무 ROI 1순위
detc 헌재결정례constitutional_decision (신규)위헌·헌법소원
admrul 행정규칙admin_rule (기존 union 활용)고시·훈령·예규 — 선별 목록
  • sourceType union 확장은 additive. Record 전수 사용처 동기화 (유형 추가 3대 누락 클래스 점검). 유형별 meta 인터페이스 추가 (LegalInterpretationMeta · ConstitutionalDecisionMeta · AdminRuleMeta).
  • composite vector index (sourceType + embedding.vector) 는 equality 필터라 신규 인덱스 불필요 (기존 인덱스 재사용).

2. 수집 경로 — sync CLI 단일 진입점 유지

  • scripts/sync-law-go-kr.ts--target union · 워터마크 type 확장. Cloud Function 수집 경로 부활 없음 (ADR 0039 체제 유지).
  • 신규 target 어댑터는 scripts 측 단일 — prec/law 의 functions/scripts 양쪽 복제 규칙은 기존 2종에만 적용 (legal-news publish 경로가 functions 어댑터를 쓰기 때문). 신규 target 은 Cloud Function 경로가 없으므로 복제 불요 — drift 표면 자체를 만들지 않는다.
  • expc·detc 는 본문 즉시 공개 관행이라 prec 의 pendingBody 재시도층 불요 (실측로 반증되면 추가).
  • 초기 수집은 Pack 인접 도메인 core 선별 (카테고리 매니페스트 패턴) — 임베딩 비용은 문서 수에 선형이므로 전량 일괄 금지, 분포 기반 확장.

3. docgen 결합 게이트 — 검색 전용 → rag-eval 통과 후 편입

신규 sourceType 3종은 1단계 라이브러리 검색·인용 전용. ADR 0041 두-RAG balanced merge (서류 생성 컨텍스트) 편입은:

  1. rag-eval 기대 케이스 (해석례 인용) 추가 →
  2. ragMergeQuality 회귀 무손상 확인 →
  3. 별도 PR 로 merge 후보 sourceType 에 편입 (킬 스위치 플래그 동반)

순서를 강제한다. 근거: 서류 생성 품질은 ops 4-axis 의 핵심 가드 대상 — merge 구성 변화는 회귀 게이트 없이 투입하지 않는다.

4. 하급심·법고을 정책

  • 법고을 직접 크롤링 금지 (본 ADR 로 명문화). 동일 콘텐츠의 합법 등가 경로 조합으로 대체:
    • 판례: 사법정보공유포털 데이터 API (origin: "scourt_openapi", 신청 승인 후 어댑터 — 응답 스키마 확정 전 선행 구현 금지) + AI-Hub 판결문 데이터셋 (origin: "aihub_71723", 민사 선별 + 출처 고지).
    • 문헌: 서지 메타데이터 + 원본 링크 층만 (제목·출처는 사실정보로 저작권 비침해). 원문 수록은 법원도서관·저작권자 제휴 별도 트랙.
  • 신청 2건 (scourt API · AI-Hub) 은 사람 액션 — 승인 대기가 크리티컬 패스이므로 Phase A 와 병렬 진행.

비범위 (후속 판단)

  • 위원회 결정문 12기관 · 특별행정심판 · 별표서식 · 법령용어 — 분야 확장 (노동·공정거래) 시점에 동일 패턴 추가.
  • 조문 뷰 제품화 (web 라이브러리 조문 페이지 + 연계 판례 패널 — impact_map 재사용) — 별도 기획.
  • scourt openapi 어댑터 — 승인 후.
  • decc 행정심판례 — expc·detc 운영 경험 후.

후속 결정 — Track C (하급심·법고을 등가) 실행 보류 (2026-06-11)

CEO 결정: §4 하급심 트랙은 우선 진행하지 않는다. 실행 보류이며 정책 폐기가 아니다:

  • 유지되는 것: 법고을 직접 크롤링 금지 (본 ADR 명문 정책) · sourceType / origin 스키마 예비 · AI-Hub ingest 뼈대 (scripts/ingest-aihub-judgments.ts — dormant, 데이터 없이는 fail-loud 라 inert).
  • 보류되는 것: scourt openapi 이용 신청 · AI-Hub 사용신청·다운로드 · 하급심 코퍼스 적재 일정. 재개 시 본 섹션 갱신.
  • Track A (법제처 expc·detc) 와 Track B (2층 라벨) 는 영향 없음 — nightly sync 가 증분 수집 계속.

영향

  • Platform RAG 가 판례·법령 2층 → 해석례·헌재·행정규칙 5층으로 — 자문· 행정 인접 질의의 인용 풀 확대.
  • 법고을 욕구를 법적 리스크 없이 충족하는 경로 확정 (크롤링 금지 명문화).
  • merge 게이트로 docgen 품질 회귀 위험 0 유지.