반응형
[ADsp 정리] 3-1-1 데이터 분석 개요
소개
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸
요약
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리
1.1 데이터
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은 DM과 같이 혼합하여 사용
1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)
1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
-> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
-> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용
1.3 용어 정리
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS - 운영 데이터 저장소로 클렌징하여 사용 필요
2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3. 공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis)
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것
5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것
5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차
5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법
6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법
6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등
반응형
'데이터 분석 전문가(ADP, ADSP) > 데이터 분석 개념' 카테고리의 다른 글
[ADsp 정리] 3-4-1. 통계 분석 (0) | 2020.11.30 |
---|---|
[ADsp 정리] 3-4-4. 다차원척도(MDS),주성분 분석(PCA) (0) | 2020.11.27 |
[ADsp 정리] 3-5-5. 군집 분석(Clustering Analysis) (0) | 2020.11.26 |
[ADsp 정리] 3-5-2. 분류 분석(Decision Tree) (0) | 2020.11.22 |
[ADsp 정리] 3-5-1. 정형 데이터 마이닝 (0) | 2020.11.21 |