콘텐츠로 이동

P-01 — 연구데이터 메타데이터 (AP 1.0.0)

표준 정보

항목 내용
표준번호 TTAK.KO-10.0976
표준명 연구데이터 관리 및 공유를 위한 메타데이터
영문명 The metadata for the managing and sharing research data
제정일 2017-03-30
소관 TTA · PG606 (메타데이터 프로젝트그룹)
AP 버전 1.0.0 (2026-05-04 발행)
AP namespace https://standard.tta.or.kr/ai-ready/profile# (ttaap:)
상태 자기 검증 통과 (Phase D-1)

본 사업의 첫 번째 파일럿

TTAK.KO-10.0976은 본 사업 수행사가 직접 개발·등록한 표준입니다. 설계 의도와 구조적 한계를 가장 정확히 이해할 수 있어 가장 이상적인 조건에서 AI 레디화가 진행되었습니다.

표준 모델 — 4계층 구조

Repository (R1-R21)        ← 시스템·서비스 수준 (re3data 매핑)
   └── Collection (C1-C12) ← 논리적 그룹 (DCMI Type)
          └── Dataset (D1-D15) ← 공유 단위 (dcat:Dataset)
                 └── File (F1-F19) ← 개별 파일 (dcat:Distribution)

93개 메타데이터 요소 + 117개 통제어 값 (24개 카테고리)

4계층 ↔ DCAT 3계층 매핑

DCAT v3는 Catalog/Dataset/Distribution 3계층입니다. TTA의 4계층은 한국 연구데이터 생태계의 특수성(부서/연구과제 단위 그룹화) 반영입니다.

TTA 4계층 매핑 비고
ttaap:Repository dcat:Catalog (subClassOf) 시스템 단위는 Catalog 상위
ttaap:Collection = dctype:Collection (DCMI Type) 논리적 그룹
ttaap:Dataset dcat:Dataset (equivalentClass) 1:1 매핑
ttaap:File dcat:Distribution (loose) 의미 차이: File은 raw, Distribution은 access form

6 패키지 산출물

디렉토리 라인 수 내용
1_document/TTA-0976-AP.md 249 Application Profile 명세 문서
2_schema/context.jsonld 170 91개 property 매핑
2_schema/shapes.shacl.ttl 680 4계층 NodeShape + 7개 보조
3_code/ 561 Python Pydantic 패키지 (12 Enum + 4계층 클래스 + 11 단위 테스트)
4_validator/validate.py 175 pySHACL 래퍼 + inline_local_context()
5_examples/ 3종 KISTI DataON, NIE 환경, RDA 농업
6_changelog/CHANGELOG.md 217 5종 어휘 버전 lock + 9개 결정

자기 검증 결과 (Phase D-1)

검증 항목 결과
pytest (test_models.py) 11/11 PASS
Issue-001 sh:or 사전 테스트 4/4 PASS
KISTI DataON 인스턴스 Conforms
NIE 환경 데이터 인스턴스 Conforms
RDA 농업 데이터 인스턴스 Conforms

상세: phase_d1_verification.md

매핑 통계

영역 총 항목 매핑 성공 비율
메타데이터 매트릭스 93 93 100.0%
통제어 117 115 98.3%
종합 210 208 ★ 99.0%

매핑 부재 2건은 TTA 고유 개념 (UCI 한국 표준, 'other' FileType)로 글로벌 어휘 부재가 정당한 사유입니다.

사용한 핵심 어휘 (5종)

Prefix URI 용도
dcterms: http://purl.org/dc/terms/ 기본 메타데이터 (32 매핑)
re3data: https://www.re3data.org/schema# Repository 계층 (28 매핑)
datacite: http://datacite.org/schema/kernel-4# 식별자·인용 (19 매핑)
dcat: http://www.w3.org/ns/dcat# Dataset 계층 (12 매핑)
schema: https://schema.org/ 글로벌 검색 호환

보조 어휘 5종: PROV-O, DQV, SKOS, vCard, FOAF.

핵심 설계 결정 9건

Decision 항목 결정
D-001 Repository tta_iri 임시 IRI 부여 (TTA 공식 발급 시 갱신)
D-002 InstitutionCountry alpha-3 → alpha-2 (DCAT v3 호환)
D-003 D2.1 IdentifierType 본문 M / 부록 O — 부록 우선
D-004 D5 Publisher 본문 M / 부록 R — 부록 우선
D-005 D14 AccessType PDF 손상 — O 추정
D-Q3 PROV-O 보조 매핑 Date+DateType 조건부 활성
D-Q4 DQV 활성화 ★ Boolean Activation Slot (QualityManagement="yes")
D-Q5 통제어 매핑 단위 값 단위 매핑 (117 enum 모두)
D-Q7 Repository PROV Decision-Q3와 일관 적용

상세 결정 과정: reports/tta-0976_mapping_conflicts.md

Boolean Activation Slot (★ 핵심 혁신)

본 AP의 가장 독창적인 설계 결정입니다. 일반적인 SHACL은 정적 제약만 표현하지만, 본 AP는 다음과 같이 조건부 활성화 패턴을 도입했습니다.

# QualityManagement="yes"일 때만 dqv:hasQualityMetadata 검증 활성
ttaap:QualityActivationShape
    a sh:NodeShape ;
    sh:targetClass ttaap:Repository ;
    sh:property [
        sh:path ttaap:QualityManagement ;
        sh:hasValue "yes" ;
    ] ;
    # 활성 시: dqv:hasQualityMetadata 1..* 강제

이 패턴은 P-04(농업)·P-05(철강) 등 다른 표준에도 재사용 가능한 일반 메커니즘입니다.

빠른 시작

1. 데이터셋 메타데이터 작성

# 가장 가까운 예시 복사
curl -L -O https://raw.githubusercontent.com/ai-ready-standards/tta-ai-ready/main/standards/P-01-research-data/5_examples/kisti_dataon.jsonld

2. Pydantic 모델로 검증

from tta_0976 import Repository

repo = Repository(
    RepositoryUrl="https://my-repo.kr",
    RepositoryIdentifier="10.5072/REP-001",
    RepositoryIdentifierType="DOI",
    # ... 나머지 필드
)
# 형식 오류 즉시 감지

3. SHACL 검증

python standards/P-01-research-data/4_validator/validate.py \
    standards/P-01-research-data/5_examples/kisti_dataon.jsonld

상세 검증 가이드

일정

WBS C-5 (수행계획서 2.3절). AP 1.0.0 발행: 2026-05-04.

후속 단계: - D-2: SHACL-AF로 ProvenanceConditionalShape 강화 - D-3: 다른 TTA 표준에 본 프레임워크 적용 (확장성 검증) - D-4: git tag v1.0.0 + DOI 등록 (PG606 협의 후) - D-5: PG606 워크숍 (9건 피드백 + 본문↔부록 통합)