반응형

[ADP/ADSP] 3.4.3 확률 및 확률 분포

1. 확률이란
표본 공간의 원소의 개수에 대한 사건의 개수의 비율로 0에서 1 사이의 값을 갖는 값을 확률이라고 한다.

2. 확률 용어 정의
o 표본 공간(sample case)
- 시험을 통해 나타내는 모든 결과들의 집합

o 사건(event)
- 표본 공간의 부분집합

o 원소(element)
- 나타날 수 있는 모든 결과

3. 확률 변수와 확률 분포
3.1 확률 변수(random variable)
- 특정값이 나타날 가능성이 확률적으로 주어지는 변수 이산확률 변수와 연속확률 변수로 나뉨
이산 확률 변수 : 확률 값을 셀수 있음(동전 던지기, 3번 중 2번 안타를 칠 확률 등)
연속 확률 변수 : 구간에 대한 값을 계산함(센서 값은 연속 확률 변수로 가우시안 분포를 따름)

3.2 확률 분포(distribution)
- 확률 변수가 특정 분포를 가질 확률을 나타내는 함수

A. 이산형 확률 분포
* 베루누이 분포(Bernoulli distribution)
- 동전 던지기와 같이 결과가 2개만 나오는 경우
ex) 동전의 앞면이 나올 확률

* 이항분포(Binomial distribution)
- 결과가 2개만 나오는 베루누이 시행을 N 번 반복했을 때, K번 성공할 확률
ex) 5번 중 3번이 앞면이 나올 확률

*기하 분포(Geometric distribution)
- 베루누이 시행에서 첫번째 성공이 있을 때까지 x번 실패할 확률
ex) 첫 앞면이 나올때까지 뒷면이 나올 확률

* 다항분포(Multinomial distribution)
- 결과가 3가지 이상인 확률 분포

*포아송분포(Poisson distribution)
시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률 분포
ex) 10 page에서 10개의 오타가 나왔다면 1page에서 오타가 2개 나올 확률

B. 연속형 확률 분포
* 균일 분포(Uniform Distribution)
- 확률 분포가 일정한 분포를 갖음
* 정규 분포(Normal Distribution)
- 평균이 0이고 표준편차가 1인 종모양의 분포
* 지수 분포(Exponential Distribution)
- 경과 시간에 대한 연속확률분포

* T 분포(T-Distribution)
- 평균이 0이고 좌우가 동일한 분포로 표본이 30개 이상이면 정규분포와 거의 같은 분포가 된다.
- 두 집단간의 편균이 동일한지 알고자 할 때 검정통계량으로 활용된다.

* 카이제곱 분포(chi_square distribution)
- 두 집단의 동질성 검정에 활용하며, 범주형 자료에 대해 얻어진 관측값과 기대값의 차이를 보는 검정에 활용

* F 분포(F-distribution)
- 카이제곱과는 다르게 2개의 자유도를 갖고 있으며, 자유도가 커질 수록 정규분포를 따른다.
- 분산의 동일성 검정에 사용되는 통계량의 분포이다.

반응형
반응형

[ADP/ADSP] 3.4.2 통계 분석


1. 정의
- 통계 분석이란 불확실한 현상에 대해 조사를 통해 정보를 구하고 통계 분석을 통하여 의사결정을 하는 방법
- 통계 분석 방법은 기술 통계 분석과 통계적 추론 방법이 존재함 


2. 통계 분석 방법

o 기술 통계(Descriptive Statistic)
- 객관적인 데이터로 나타내거나, 그래프로 시각화하여 분석하는 방법

o  통계적 추론(Inference statistics)
- 수집된 자료를 기반으로 모집단을 추정하는 방법들로 3가지로 나뉨
a. 모수 추정
표집단으로 부터 모수를 분석하여 모집단을 추정하는 기법

b. 가설 검정
- 가설을 설정하고 가설이 맞는지 아닌지를 채택여부를 결정

c. 예측
- 머신런닝, 딥러닝 기법을 사용하여 불확실한 문제를 효율적으로 해결함 

반응형
반응형

[ADP/ADSP] 3.4.1 통계의 이해
1. 통계 
- 실험이나 조사를 통해 나온 데이터를 표나 요약된 형태로 표현한 것
- 통계량에서 모수의 특성을 표본을 통해 추론
- 가설을 설정하고(기무가설, 대립가설) 통계기법(모수 검정, 비모수 검정)을 통하여 모수를 추론


2. 용어(4가지)
- 모집단(population) : 집단 전체
- 모수(parameter) : 표본을 통해 추정한 모집단 
- 표본(sample) : 조사를 통해 추출한 집단
- 원소(element) : 모집단을 구성하는 개체

3. 표본 추출 방법(4가지)
o 단순 랜덤 추출법 (simple random sampling)
- 랜덤으로 추출하는 방법
o 계통추출법(systematic sampling)
- k개씩 n개로 나눈 후, 임의의 위치에서 매 k 번째 항목을 추출하는 방법
o 집락추출법(cluster random sampling)
- 군집별로 랜덤 추출하는 방법
o 층화추출법(stratified random sampling)
- 이질직 원소로 구성된 모집단에서 각 계층별 램덤 추출하는 방법

4. 표본 측정 방법(4가지)
o 질적 척도
    - 명목 척도 : 성별과 같이 분류에 사용
    - 순서(서열) 척도 : 신용도, 학번과 같이 Index값을 의미있게 활용할 수 있음

o 양적 척도
    - 구간(등간) 척도 : 온도와 같이 절대 기준은 없으며 간격에 의미가 있음
    - 비율 척도 : 절대적인 기준인 원점이 있는 것으로 사칙연산이 가능

반응형
반응형

[ADP/ADSP] 3.1.1 데이터 분석 기법의 이해

 

1. 데이터 처리
- DW(Data Warehouse), DM(Data Mart)를 통해 데이터 구성
- DW와 DM에 데이터가 없다면, ODS(Operational Data Store)에서 가져와서 사용 필요
- ODS에도 데이터가 없다면 기존 운영시스템(Leagacy) or 스테이징 영역(Staging Area)에서 데이터를 불러와 클렌징 후 사용
ex) 네이버 검색 순위

2. 시각화
- 탐색적 분석에 필수이며, 그래프 분석이 가장 효율적
- 시각화 만으로도 outlier(이상점) 탐지가 쉬움
ex) polygon, heatmap, mosaic graph 등이 있음

3. 공간 분석 (Spartial Analysis)
- 지도 위에 공간적 차원과 관련된 속성들을 시각화
ex) 지역별 투표율

4. 탐색적 분석(EDA[Exploratory Data Analysis])
- 데이터로 부터 의미있는 사실을 도출하여 분석의 최종 목표를 향해 달성해 가는 과정
ex) 모형 개발에서  데이터 이해, 변수 생성, 변수 선택 단계에서 활용
- EDA의 4가지 주제
    o 저항성의 강조(Resistance)
        -> 데이터 파손에 대한 저항성
        ex) 데이터가 많으면 데이터의 파손에 대한 저항성이 증가하여 overfitting 방지함

    o 잔차(Residual) 계산
        -> 개별 데이터가 주경향성에 얼마나 벗어났는지 확인
        ex) 이동평균 필터 값과의 차이, 마할라노비스 거리를 통한 이상치 계산

    o 자료 변수의 재표현(re-expression)
        -> 분포의 선현성, 분산의 안전성, 관련 변수의 가법성, 분포의 대칭성
        ex) log 함수, 역수 변환, 제곱근 변환

    o 시각화 (Graphical Representation)
        -> 그래프
        ex) 점, 선, 원  그래프

5. 통계적 분석
    o 기술 통계(Descriptive Statistics)
    - 모집단으로 부터 추출한 표본을 숫자나 그래프로 표현

    o 추론 통계 (Inferential Statistics)
    - 표본 통계량으로 부터 모수에 관해 통계적으로 추론

6. 데이터 마이닝
- 빅데이터로 부터 관계, 패턴, 규칙 등을 탐색하고 이전에 알지 못한 지식을 추출하는 방법

-  방법론
    o 데이터 베이스의 지식탐색
    o 머신런닝
    -> svm, 인공신경망, 의사결정 나무, 클러스터링, 베이지안 분류
    o 패턴 인식
    -> 연관 규칙, 장바구니 분석

- 모델링
    o 주의 사항
    -> 데이터마이닝 모델은 통계적 모델링이 아니므로 통계 가설이나 유의성에 집착하면 안됨
    -> 다양한 모델링 옵션을 줄 필요가 없으며, 성능이 만족되면 모델 최적화는 중단한다.
    o 평가 기준
    - 정확도, 정밀도, 리프트, 디텍트 레이트 등이 존재함

반응형
반응형

[ADP/ADSP] 시험 목차

 

ADP/Adsp 단원의 구성

ADP는 5단원, ADSP는 3단원으로 구성된다. ADP와 ADSP 시험의 구성은 다음과 같다.

1. 데이터 이해
- 데이터, 데이터 베이스, 빅데이터, 데이터 사이언티스트

2. 데이터 분석 기획
- 분석 기획, 분석 방법론, 분석 과제 발굴, 프로젝트 관리 방안, 마스터 플랜 수립 프레임워크, 분석을 위한 거버넌스 체계 수립

3. 데이터 분석(ADP는 비정형 데이터 포함)
- 데이터 분석 기법, R 기초, 데이터 구조 및 데이터 프레임, 데이터 변경 및 요약, 기초 분석 및 데이터 관리,  통계 분석, 회귀 분석, 시계열 분석, 다차원 척도법 및 주성분 분석, 데이터 마이닝, 분류 분석, 군집 분석, 연관 분석, 텍스트 마이닝, 사회연결망 분석

4. 데이터 처리 기술 이해 (ADP만)
- ETL, CDC, EAI, 대용량 비정형 데이터 처리방법, 분산 데이터 저장 기술,  분산 컴퓨팅 기술, 클라우드 인프라,

5. 데이터 시각화 (ADP만)
- 시각화와 인사이트, 탐색, 분석, 활용, 시각화 정의, 시각화 방법, 시각화 디자인, 시각화 구현

반응형

+ Recent posts