반응형

[ADP/ADSP] 3.1.1 데이터 분석 기법의 이해

 

1. 데이터 처리
- DW(Data Warehouse), DM(Data Mart)를 통해 데이터 구성
- DW와 DM에 데이터가 없다면, ODS(Operational Data Store)에서 가져와서 사용 필요
- ODS에도 데이터가 없다면 기존 운영시스템(Leagacy) or 스테이징 영역(Staging Area)에서 데이터를 불러와 클렌징 후 사용
ex) 네이버 검색 순위

2. 시각화
- 탐색적 분석에 필수이며, 그래프 분석이 가장 효율적
- 시각화 만으로도 outlier(이상점) 탐지가 쉬움
ex) polygon, heatmap, mosaic graph 등이 있음

3. 공간 분석 (Spartial Analysis)
- 지도 위에 공간적 차원과 관련된 속성들을 시각화
ex) 지역별 투표율

4. 탐색적 분석(EDA[Exploratory Data Analysis])
- 데이터로 부터 의미있는 사실을 도출하여 분석의 최종 목표를 향해 달성해 가는 과정
ex) 모형 개발에서  데이터 이해, 변수 생성, 변수 선택 단계에서 활용
- EDA의 4가지 주제
    o 저항성의 강조(Resistance)
        -> 데이터 파손에 대한 저항성
        ex) 데이터가 많으면 데이터의 파손에 대한 저항성이 증가하여 overfitting 방지함

    o 잔차(Residual) 계산
        -> 개별 데이터가 주경향성에 얼마나 벗어났는지 확인
        ex) 이동평균 필터 값과의 차이, 마할라노비스 거리를 통한 이상치 계산

    o 자료 변수의 재표현(re-expression)
        -> 분포의 선현성, 분산의 안전성, 관련 변수의 가법성, 분포의 대칭성
        ex) log 함수, 역수 변환, 제곱근 변환

    o 시각화 (Graphical Representation)
        -> 그래프
        ex) 점, 선, 원  그래프

5. 통계적 분석
    o 기술 통계(Descriptive Statistics)
    - 모집단으로 부터 추출한 표본을 숫자나 그래프로 표현

    o 추론 통계 (Inferential Statistics)
    - 표본 통계량으로 부터 모수에 관해 통계적으로 추론

6. 데이터 마이닝
- 빅데이터로 부터 관계, 패턴, 규칙 등을 탐색하고 이전에 알지 못한 지식을 추출하는 방법

-  방법론
    o 데이터 베이스의 지식탐색
    o 머신런닝
    -> svm, 인공신경망, 의사결정 나무, 클러스터링, 베이지안 분류
    o 패턴 인식
    -> 연관 규칙, 장바구니 분석

- 모델링
    o 주의 사항
    -> 데이터마이닝 모델은 통계적 모델링이 아니므로 통계 가설이나 유의성에 집착하면 안됨
    -> 다양한 모델링 옵션을 줄 필요가 없으며, 성능이 만족되면 모델 최적화는 중단한다.
    o 평가 기준
    - 정확도, 정밀도, 리프트, 디텍트 레이트 등이 존재함

반응형
반응형

[4과목 데이터 분석 소개] 데이터 분석 소개

1. 데이터 마이닝 개념

- 빅데이터 속에서 유용한 정보를 찾아내는 과정이며, 새로운 정보를 발견하고 의사결정에 활용하는 일련의 작업
-  입력 값은 독립 변수, 출력은 종속 변수 혹은 반응 변수라고 한다. 데이터 마이닝은 독립변수에 따른 종속변수가 어떻게 나오는지 모델링하는 것이라고 할 수 있다. .

2. 데이터 마이닝 분석 방법

- 지도학습은 정답이 있는 것을 학습시키는 방식이며, 의사결정나무, 인공신경망, 회귀 분석, 로지스틱 회귀분석 등이 있다. 
- 이러한 지도학습은 분류(Classification) 과 예측(Regression) 문제로 나뉜다.
- 비지도학습은 정답이 없는 것을 학습하는 것이며, 군집분석, 연관성 분석이 이에 해당한다. 

3. 의사결정나무

- 소집단으로 분류하거나 예측 수행하는 분석
- 시각화가 가능하여 성과를 한눈에 볼 수 있다.
- 분류나무 회귀 나무가 존재한다. 

- iris의 경우 꽃잎의 길이와 넓이에 따라 품종을 classification 할 수 있다. 
- 의사결정 나무에서 Overfitting이 발생하지 않도록 가지치기(Prunning) 을 수행해야 한다.
- 결과에 노이즈가 끼지 않고  잡음 데이터에 민감함 없이 분류할 수 있다는 장점이 있다. 

 

참조

https://www.youtube.com/watch?v=yTDtSxzOeFw

 

 

반응형
반응형

[ADsp 정리] 3-1-1 데이터 분석 개요

 

소개 
- 데이터 분석 단원에서는 데이터 분석 개요/ R프로그래밍/ 데이터 마트/ 데이터데이터 마이닝/ 통계적 분석 을 다룸 
요약 
- 데이터 분석 소단원에서는 데이터 처리 프로세스, 시각화 기법, 공간 분석, 탐색적 자료 분석 이해 필요
1. 데이터 처리 
1.1 데이터 
- 일반적으로 대기업은 데이터 웨어하우스(DW), 데이터 마트(DM) 에서 데이터를 가져와 사용 
- 데이터 웨어하우스(DW)에 없는 자료는 기존 운영시스템(Leagacy), 스테이징 영역(staging area), ODS(Operational Data Store)에서 데이터를 가져옴
- 스테이징 영역(staging area)의 데이터는 임시 데이터이므로 가급적 ODS(Operational Data Store)의 데이터를 가공하여 DW 혹은  DM과 같이 혼합하여 사용 

1.2 데이터 처리 순서
- Legacy -> Staging -> ODS -> DW -> DM -> SAS(Static Analysis System)

1.3 데이터 가공 방법
- 데이터 마이닝 분류
- 정형화된 패턴 처리(비정형 데이터, 관계형 데이터)
  -> 텍스트와 같은 비정형 데이터는 텍스트 마이닝을 거쳐 데이터 마트와 통합
  -> 관계형 데이터의 분석 결과를 데이터 마트와 통합하여 사용 

1.3 용어 정리 
DW - 데이터 웨어하우스 (Data Warehous)
DM - 데이터 마트(Data Mart)
Legacy - 유산이라는 의미로 기존 운영시스템을 의미
Staging Area - 스테이징 영역은 임시적인 데이터
ODS -  운영 데이터 저장소로 클렌징하여 사용 필요 

 

2. 시각화(Visualization)
가장 낮은 수준의 분석 기법으로 가장 기본이며 효율적
3.  공간분석(GIS/Geographic Information System)
지도위에 속성을 생성하여, 크기, 선, 모야 등을 통하여 관련된 속성을 시각화하는 기법
4. 탐색적 자료분석(EDA/Exploratory Data Analysis) 
- 특이점을 찾아 분석하는 과정으로 구조적 관계를 알아보는 기법들을 통칭한다
- 프린스톤 대학의 튜키교수가 1977년에 저서 발표
- 저향성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성
- 데이터이해, 변수 생성, 변수 선택에 활용
5. 통계분석(Statistics Analysis)
5-1 통계 (Statistics)
- 숫자, 표, 그림의 형태로 나타내는 것

5-2 기술 통계 (Descriptive Statistics)
- 모집단에서 표본을 추출하고 표본의 통계를 내는 것

5-3. 추측 통계(Inferential Statistics)
- 표본의 표본통계량으로 모집단의 특성을 추론하는 절차

5-4 사례
- 정부의 통계를 위한 설문조사, 기업의 설문조사, 시험 결과, 선수들의 평가, 경영 관리
6. 데이터 마이닝
6-1 정의
- 대용량의 데이터로 미래를 예측하는 것을 목표로 관계, 패턴, 규칙을 탐색하고 모형화하여 이전에 알려지지 않은 새로운 지식을 추출하는 분석 방법

6.2. 방법론
- 데이터베이스의 지식 탐색 : 데이터웨어하우스에서 데이터 마트를 생성할 때, 데이터의 분석을 통해 지식을 얻는 방법
- 기계학습 : 컴퓨터가 학습할 수 있도록 기술을 개발(인공신경망, svm 등)
- 패턴 인식 : 사전지식과 통계정보를 기반으로 패턴을 분석하는 방법 

6.3 사례
- 텍스트 마이닝, 마케팅, 주식 등 

 

반응형

+ Recent posts