반응형

[ADsp 정리] 3-1-1 데이터 분석 개요

 

소개 
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸 
요약 
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리 
1.1 데이터 
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용 
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은  DM과 같이 혼합하여 사용 

1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)

1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
  -> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
  -> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용 

1.3 용어 정리 
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS -  운영 데이터 저장소로 클렌징하여 사용 필요 

 

2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3.  공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis) 
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것

5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것

5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차

5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법

6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법 

6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등 

 

반응형

+ Recent posts