- 반정형 데이터, 半定型-, semi-structured data
- 동의어 : 반구조적 데이터(partially structured data)
데이터의 형식과 구조가 변경될 수 있는 데이터로 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터.
대표적인 반정형 데이터 구조는 하이퍼텍스트 마크업 언어(html: HyperText Markup Language), 확장성 마크업 언어(XML: eXtensible Markup Language), 자원 기술 프레임워크(RDF: Resource Description Framework), 제이슨(JSON: JavaScript Object Notation) 등이 있다.
반정형 데이터는 정형 데이터처럼 테이블(table)의 행(row)과 열(column)로 구조화되어 있지는 않으나, 파일에 포함된 데이터 구조 정보를 바탕으로 테이블 형태의 데이터베이스 스키마(database schema)로 변환하고 데이터를 매핑(mapping)하여 정형 데이터로 변환할 수 있다. 특히 JSON 데이터는 시에스브이(CSV) 또는 테이블 형태로 쉽게 변환된다.반정형 데이터는 스키마(데이터 개체, 속성, 관계와 이들에 대한 제약 조건들에 대한 정보) 수정이 쉽고 파일 단위로 구성되어 전송과 공유가 용이하다. 그러나 정형 데이터와 비교하여 질의 처리(query processing)가 어려워 데이터 분석에 사용할 경우 정형 데이터로 변환하여 사용한다. RDF 데이터는 주로 파일로 저장하며 그래프 데이터베이스(graph database)를 이용하여 변환하기도 한다. 데이터의 순서 및 배열 등으로 이루어진 로그 데이터(log data), 센싱 데이터(sensing data) 등 데이터의 형식과 구조가 제공되는 데이터는 형식과 구조의 저장 형태에 따라 정형 데이터 또는 반정형 데이터 형태로 처리할 수도 있다.
* 관련 표준
- ISO/IEC 20546 (Information technology – Big data – Overview and vocabulary(02/2019))