■ 데이터 정리
– 누락된 값, 노이즈, 이상값 등을 제거하기 위해 정리 또는 정제가 필요합니다.
■ 빅데이터 정제 처리
– 데이터 변환 : 분석하기 쉬운 형태로 변환/동일한 형태 변환으로 ETL(Extract, Transform, Load) 통합
ETL의 주요 기능: 논리적 데이터 변환, 도메인 유효성 검사, 필요한 경우 기본값 생성, 데이터 집계, 키-값 재구성, 중복 데이터 삭제
– 데이터 정정 : 결측값 변환, 이상치 제거, 노이즈 데이터 정정 등 비정형 데이터 수집 시 반드시 수행
– 데이터 통합 : 기존 유사 데이터와의 연계 또는 통합/레거시 시스템 데이터와의 통합 시 수행
■ 빅데이터 정제 방법 및 주요 솔루션
– 양방향 처리: 대용량 데이터 작업
– 일괄 처리: 주기적인 작업 실행
– 실시간 처리 : 결제, 카드 비정상 사용 등의 데이터 분석
■ 빅데이터 정제/가공 프로세스
– 세부 계획 수립 -> 자체 아키텍처 및 클라우드 컴퓨팅 고려 -> 최적화된 분석 플랫폼 구축 -> 클라우드 컴퓨터 계정 생성
■ MapReduce를 이용한 데이터 정제/가공
– 분산된 데이터를 키와 값의 목록으로 모으는 map 단계와 그 목록에서 필요한 데이터를 찾아 처리하는 reduce 단계 수행
■ 결측 데이터의 종류
– 완전무작위 누락: 관찰되거나 예측되지 않은 다른 변수와 관련이 없는 조건.
– 무작위로 누락: 누락된 데이터가 다른 관찰된 변수와 연관되지만 관찰되지 않은 자체 값과는 연관되지 않는 경우.
– 임의로 누락되지 않은 경우: 위 2가지 경우 외
■ 누락된 값에 대한 대체(보완) 방법
– 평균 보간
– 보간: 시계열 데이터에 대한 누락된 데이터
– 감정가 추정 방식
※ 이상치 판단법 숙지
■ 변수 분류
– 독립변수: 영향을 받은 변수, 실험에서 조작된 변수
– 종속변인: 영향을 받는 변인, 반응변인, 독립변인의 변화에서 나타나는 결과의 예측변수
– 통제변수: 독립성과 의존성 관계에 영향을 줄 수 있어 실험에서 통제가 필요한 변수
– 매개변수: 독립/의존 사이에 간접적인 영향을 미치는 변수
– 외생변수: 독립변수와 종속변수 사이에 상관관계가 있는 것처럼 보이지만 실제로는 관계가 없지만 외생변수로 인해 관계가 있는 것으로 보입니다.
외생 변수를 제어하려면 가짜 관계를 제거해야 합니다.
– Suppressing variables: 독립변수와 종속변수 사이에 상관관계가 있을 때 상관관계가 없는 것처럼 보이게 한다.
■ 차원 축소
– 분석할 두 변수의 주요 정보를 최대한 유지하면서 데이터 세트의 변수 수를 줄이는 비지도 학습 기법 중 하나
– 주요 알고리즘
주성분 분석(PCA): 변수의 공분산 및 상관 행렬 사용
· ICA(Independent Component Analysis): 변수가 서로 독립적이라고 가정
· SVD(Singular Value Decomposition): 일반 mxn 차원 행렬 데이터에서 특이값 추출
요인 분석(FA): 사회 과학 및 설문 조사에서 주로 사용되는 데이터 고유의 구조를 분석합니다.
MDS(Multidimensional Scaling): 엔터티 간의 관계 정보 사용
※ PCA 이론 다시 보기