검색
색인
비정형 데이터, 非定型-, unstructured data
동의어 : 비구조적 데이터

정의된 구조가 없이 정형화되지 않은 데이터.

 

대표적인 비정형 데이터에는 동영상 파일, 오디오 파일, 사진, 보고서(문서), 메일 본문 등이 있다. 비정형 데이터는 데이터 구조가 없어 비정형 데이터 자체만으로는 내용에 대한 질의 처리(query processing)를 할 수 없다. 따라서 데이터의 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리(preprocessing)가 필요하다. 데이터 분석 또는 인공지능 모델의 개발 목적과 입력 데이터의 종류에 따라 매우 다양한 방법의 전처리를 사용한다. 텍스트 형태의 데이터는 전처리를 위해 자연어 처리(Natural Language Processing) 기법을 주로 사용한다. 동영상, 오디오, 사진 등 미디어 파일은 필터를 이용하여 노이즈(noise)를 제거하거나 데이터 범위를 변환하는 방법으로 전처리하며, 주로 기계 학습(ML: Machine Learning)을 위한 입력 데이터로 활용한다. 비정형 데이터는 지속적으로 생성되는 데이터 중 가장 큰 비중을 차지하고 있으며, 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상들을 반영하고 있기 때문에 마케팅, 비즈니스 인텔리전스(BI) 등의 분야에서 매우 중요하다. 

 

* 관련 표준 

- ISO/IEC 20546 (Information technologyBig data – Overview and vocabulary(02/2019))