검색
색인
데이터세트, dataset
동의어 : 데이터 세트(data set)
① 연관된 데이터를 모아서 특정 규칙에 따라 하나의 묶음으로 만든 데이터의 집합.
데이터 통신 분야에서, 데이터 전송용의 신호를 생성하는 기기와 전화기를 일체화한 장치.

하나의 정보라는 의미의 데이텀(datum)의 복수형인 데이터(data)는 이미 그 자체로 복수의 정보를 담고 있다는 것을 내포한다. 데이터세트는 여러 개의 정보를 담고 있는 데이터를 추상적인 하나의 정보 단위로 간주하고, 이러한 정보 단위인 데이터를 여러 개 모아놓은 집합을 의미한다. 예를 들어, 고혈압 환자 데이터세트는 여러 고혈압 환자의 개별 데이터를 모아놓은 데이터의 집합이라 볼 수 있다.

데이터세트는 정형 데이터세트와 비정형 데이터세트로 나뉜다. 정형 데이터세트는 사전에 정해진 데이터 모델에 맞도록 테이블 형태의 고정된 필드에 저장되는 데이터 형태로 구성된다. 반면 비정형 데이터세트는 확장성 마크업 언어(XML), 제이슨(JSON)과 같은 텍스트 형식이나 이미지, 비디오와 같은 다양한 미디어 형식이 있다. 공개되어 있는 데이터세트로는 붓꽃 종류와 꽃받침, 꽃잎 정보를 모아놓은 Iris 데이터세트, 숫자 손글씨 이미지를 모아놓은 MNIST 데이터세트, 고양이, 개 등의 다양한 영상 이미지를 포함한 ImageNet 데이터세트 등이 있다. 이외에도 다양한 분야의 데이터세트가 계속 새롭게 개발되어 공개되고 있다.

데이터 처리와 분석, 인공지능 학습 등에 데이터세트는 필수적으로 사용된다. 특히 인공지능 학습은 데이터세트의 품질에 의해서 학습 결과가 좌우되기 때문에 양질의 데이터세트를 구축하고 확보하는 것이 매우 중요하다. 데이터세트가 국가경쟁력에 중대한 영향을 미칠 수 있기 때문에 전 세계적으로 데이터세트를 발굴하고 공유하려고 노력한다. 우리나라는 공공데이터 포털 등을 통해 국가 차원에서 데이터세트 공유 서비스를 제공한다.

* 관련 표준
- Data Catalog Vocabulary (DCAT) - Version 2 (W3C, 2020)