[ADP/ADSP] 3.1.1 데이터 분석 기법의 이해
1. 데이터 처리
- DW(Data Warehouse), DM(Data Mart)를 통해 데이터 구성
- DW와 DM에 데이터가 없다면, ODS(Operational Data Store)에서 가져와서 사용 필요
- ODS에도 데이터가 없다면 기존 운영시스템(Leagacy) or 스테이징 영역(Staging Area)에서 데이터를 불러와 클렌징 후 사용
ex) 네이버 검색 순위
2. 시각화
- 탐색적 분석에 필수이며, 그래프 분석이 가장 효율적
- 시각화 만으로도 outlier(이상점) 탐지가 쉬움
ex) polygon, heatmap, mosaic graph 등이 있음
3. 공간 분석 (Spartial Analysis)
- 지도 위에 공간적 차원과 관련된 속성들을 시각화
ex) 지역별 투표율
4. 탐색적 분석(EDA[Exploratory Data Analysis])
- 데이터로 부터 의미있는 사실을 도출하여 분석의 최종 목표를 향해 달성해 가는 과정
ex) 모형 개발에서 데이터 이해, 변수 생성, 변수 선택 단계에서 활용
- EDA의 4가지 주제
o 저항성의 강조(Resistance)
-> 데이터 파손에 대한 저항성
ex) 데이터가 많으면 데이터의 파손에 대한 저항성이 증가하여 overfitting 방지함
o 잔차(Residual) 계산
-> 개별 데이터가 주경향성에 얼마나 벗어났는지 확인
ex) 이동평균 필터 값과의 차이, 마할라노비스 거리를 통한 이상치 계산
o 자료 변수의 재표현(re-expression)
-> 분포의 선현성, 분산의 안전성, 관련 변수의 가법성, 분포의 대칭성
ex) log 함수, 역수 변환, 제곱근 변환
o 시각화 (Graphical Representation)
-> 그래프
ex) 점, 선, 원 그래프
5. 통계적 분석
o 기술 통계(Descriptive Statistics)
- 모집단으로 부터 추출한 표본을 숫자나 그래프로 표현
o 추론 통계 (Inferential Statistics)
- 표본 통계량으로 부터 모수에 관해 통계적으로 추론
6. 데이터 마이닝
- 빅데이터로 부터 관계, 패턴, 규칙 등을 탐색하고 이전에 알지 못한 지식을 추출하는 방법
- 방법론
o 데이터 베이스의 지식탐색
o 머신런닝
-> svm, 인공신경망, 의사결정 나무, 클러스터링, 베이지안 분류
o 패턴 인식
-> 연관 규칙, 장바구니 분석
- 모델링
o 주의 사항
-> 데이터마이닝 모델은 통계적 모델링이 아니므로 통계 가설이나 유의성에 집착하면 안됨
-> 다양한 모델링 옵션을 줄 필요가 없으며, 성능이 만족되면 모델 최적화는 중단한다.
o 평가 기준
- 정확도, 정밀도, 리프트, 디텍트 레이트 등이 존재함
'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글
[adp/adsp] 확률 분포 정의 (0) | 2021.03.15 |
---|---|
[ADP/ADSP] 3.4.1 통계의 이해 (0) | 2021.03.08 |
[ADP/ADSP] 4과목 데이터 분석 소개 (0) | 2021.03.02 |
[ADsp 정리] 3-4-1. 통계 분석 (0) | 2020.11.30 |
[ADsp 정리] 3-4-4. 다차원척도(MDS),주성분 분석(PCA) (0) | 2020.11.27 |