검색
색인
데이터 추출, -抽出, data extract

데이터 집합에서 질의 처리를 통하여 분석에 필요한 일부 데이터 집합을 추출하는 절차.

 

데이터 추출은 빅데이터 분석을 위해 다양한 데이터 저장소에서 필요한 데이터를 추출(extract)하고, 분석 도구에 맞는 형태로 변환(transform)하여 대상 시스템의 데이터 저장소에 올려놓는(load) ETL(Extract, Transform and Load) 과정의 첫 번째 단계이다. 정형 데이터는 정적인 데이터 소스에서 한 번에 데이터를 추출하는 전체 추출(full extraction) 방법과 센싱(sensing) 정보처럼 시간에 따라 데이터가 증가하는 경우 변경된 부분 만큼만 데이터를 추출하는 증분 추출(incremental extraction) 방법을 사용한다. 

반정형과 비정형 데이터에서 데이터를 추출하기 위해서는 데이터의 노이즈를 제거하고 질의 처리(query processing)가 가능한 형태로 구조화하는 등의 전처리 작업이 필요하다. 추출된 데이터는 개인식별정보(PII: Personally Identifiable Information)와 같은 민감한 정보를 포함할 수 있으므로 별도의 처리 방법을 마련해야 한다. 

 

* 관련 표준 

- ITU-T Y.3600 (Big dataCloud computing based requirements and capabilities(11/2015)