반응형

[빅데이터기사3회] 빅데이터기사 3회 객관식 답 70문제 복원

 

후기

- 전반적으로 3단원이 매우 어려웠습니다.
- adsp와 adp를 기준으로 보았을 때 3안원은 어려웠지만 나머지는 공부를 하지 않아도 절반정도는 맞출 수 있는 수준이였습니다.(adsp 자격증 이 있다면)
- adsp 보다 부담은 덜 한 것이 주관식이 없다는 것이며, adp는 70점이 컷이기 때문에 60점 컷이라고 한다면 절반만 아는 것 풀고 나머지는 잘 찍었을 경우 합격할 가능성이 있다는 것으로 보아 빅데이터기사가 그래도 adp나 adsp보다는 쉽지 않았나 합니다.
- 다만 열심히 공부해도 점수가 잘 나오지 않을수밖에 없는 것이 3회밖에 되지 않았으며, 1회는 코로나로 인하여 취소됐기 때문에 이번이 2회인 시험입니다. 그래서 난이도가 계속 조정이 되고 있는 시점이고 어떠한 문제집이 괜찮은지에 대한 데이터도 없을 뿐더러 문제집 또한 대충 adsp를 기반으로 만들었기 때문에 용어가 시험문제와 다르다는 차이가 있어 공부해도 잘 나오지 않는 시험이라고 할 수 있습니다.

총평

- 일단 adsp 부터 공부하라고 전해드립니다. 빅데이터기사는 열심히 공부해도 잘 나오지 않으며 공부를 하지 않아도 잘 나오는 시험입니다. (adsp 자격증 소유자에 한하여) 그러므로 취업을 고려하시는 분들께서는 adsp부터 따고 그 다음 빅데이터 기사에 도전하시는 것을 권해드립니다. 

 

1. 분석문제정의 vs 프로젝트 기획 vs 도메인 ?
- 분석 문제정의


2. 익명화 vs 최대한 개인정보보호?
- 익명화
> 개인정보보호법 3조 7항 확인 가능


3. 최신 인공지능 vs 기존 인공지능
->  기존 인공지능은 사람이 하나하나 지정함


4. 하둡 - Hbase vs Pig?
-> Pig

5. 카산드라, 비정규데이터 ?
- NoSQL

6. 데이터 사이언티스트 vs 데이터 전문가 차이x?
- 데이터 자동화
-> 차이는 비지니스 관점임

7. EU, 개인정보보호?
- GDPR

8. 비식별 조치 방법 마스킹vs 값대체?
- 값 대체

9. 빅데이터 분석 절차
-> 기획 준비 분석 구현 평가전개

10. 데이터 수집, 분석주기 필요 x?
- 필요함

11. ETL 개념
-?

12. 민감정보 x?
-> 취미

13. 데이터 전처리
->?

14. 3V 개념
- 바리에이션

15. 데이터웨어하우스 특성
- ?

16 비지니스 효과X
-> 재택근무X

17. 아파치 하둡을 관리하는 워크플로우
- OOZIZE




18  군집 추출


19 표본평균 분산 모평균 분산 n값(정보 양 어쩌고 나온)

20 로지스틱 회귀분석
-?

21 이산형에 쓸 수 없는 거
- F 검정

22 신경망 계산
-19


23 과적합 처리법 잘못된것
- 웨이트 합 1

24 커널
- ?

25 활성함수
- ?
- 활성함수 선형이면 의미x

26 프리드먼 검정
- 4개

27 박스콕스변환
=?





28 우측꼬리 그래프
- 왜도 >0,  평균 최빈값<중앙값<평균값 양수


29 전수조사
- 우주선

30 주성분분석
- 음수미포함 행렬분해

31 박스콕스 변환
- 파생변수(?)

32 불균형데이터
- 1번 답
- 2번: 데이터 양많은 카테고리만 정확도가 높아져 검증애매

33 차원축소 요인분석
- 비슷한것 없애기

34 상관계수 기본개념
- 4번  -1이면 음의 상관관계

35 왜도 모양
- 우꼬리-> 왜도>0, 평균 > 중앙값 > 최빈값

36 E(aX+bY) Var(aX+bY)
-> 6,2

37 중심극한정리
- 1번 표본평균의 분산은 n 관계없이 모평균 분산을 따름 x

38 점추정
-  편이성 x
-  불편성, 효율성, 일치성, 충분성

39 유의 수준의 개념
- 1종오류 개념
- 귀무가설이 참인데 대립가설 선택

​40 중심극한
- 왜도X


41 집락추출

42 로지스틱 회귀분석
- 종속변수 정규분포

43. 지니vs카이vs F
-> F

44. 신경망 활성함수의 출력물
- 19

45. RNN-CNN-CNN+RNN-강화학습

46. 초매개변수와 일반매개변수
-?
47. 비모수검정
- 부호검정

48. 가중치를 이용
- 부스팅

49. 마이데이터

50. 평균, 최빈값, 중앙값, 범위
- 범위

51. MAPE수식
- 분모있는 것 답

52. 카이제곱 수식
- ?

53. 경사하강법
- Adaboost X

54. 과대적합 해소방법 X
- 가중치 합1X

55. AUC 설명
- 기준선 X

56. 소프트맥스 함수
- 분산 1 X

57. 시계열
- 자기상관

58. 시계열 성분
-  규칙 X

59. ARIMA 개념
- p, d, q

60. 커널
- ?

61.버블차트

62. 선형과 로지스틱 회귀분석
- ?

63. k-폴드 VS 홀드아웃
- 홀드아웃

64. 연관분석모델 지지도 신뢰도
- 지지도 1/3, 신뢰도 2/3

65. 데이터 시각화
- ?
66. PCA
- 0.956

67. 스펙티비티, 프레시젼, 리콜, 어큐러시
- ?

반응형
반응형

[ADSP 30회] 전공자 ADSP 30회 객관식 주관식 답 복원

 

친구한테 들은 문제를 정리해서 올려보았습니다. 현업에서 일하고 있으므로 아마  90%는 맞지 않을까 생각합니다.  간접적으로 푼 것이기에 완벽하지는 않지만 전공자가 풀어본 답은 다음과 같습니다. 혹시 제가 작성한 답이 아니거나 제가 미쳐 작성하지 못한 답은 답글로 남겨주시면 감사하겠습니다.  

 

해설

전공자가 푼 정답 30개 정도 복원했습니다. 60점 이상이면 합격이니 제가 작성한 것 30개가 있다면 합격이실 것 같습니다. 
마지막 문제가 듣기로는 Machine Learning 인지 Deep Learning인지 논란이 많던데요.
문제가 새로운 데이터를 넣어서 실시간으로 다시 학습해서 사용한다고? 들었습니다. 
모델만 가져와서 사용한다고 했다면 Transfer Learning이고요. 음.. 

제대로 문제를 본 것이 아니라 틀릴 순 있지만 전공자 입장에서는 Online Learning 입니다.
아닐 순 있지만, 현업에서는 그렇게 부르고 사용하고 있습니다. 
Machine Learning이나 Deep learning 정의를 저런식으로 하지는 않습니다.(직접 문제를 본 것이 아니라 100% 확신은 아닙니다)

후기

현업에 적용하고 있기에 매번 공부를 하고 있는데요. 후기와 문제들을 들어보니 이번 ADSP 가 가장 어려웠던 것 같습니다. 전공자인 저도 모르는 문제들이 많이 보였어요. 아마 adsp가 물 시험이라는 소문으로 인하여 난이도를 조금씩 올리고 있는 것 같습니다. 단순히 문제은행으로는 이제 힘들것 같습니다. 

 

 

정답

1단원 :DATA  
1 비정형 정형
2 정형화 데이터
3 단순화
4 천재적
5 unchanged
6 가치창출
7 분석을 통해 가치 창출
8 주관 : information
9 주관:crm
2단원 : 분석 과제  
10 method
11 데이터 중요성
12 accuracy&deploy
13 거버넌스 체계 : 분석, 진단
14 주관:마스터 데이터, 메타 데이터, 데이터 사전
15 주관 : 시급성
3단원 : 데이터 마이닝  
16 시계열 : 안정성 시계열
17 데이터 정규성 : durvbin waston
18 민코우스키 : m 있는 것
19 k평균 : 초기값
20 stdent : income 통계적 유의
21 독립성, 등분산성, 정규성
22 구간 = 이산형
23 som : 경쟁층
24 1종오류 : h0사실, 아니라고 판정
25 그래프 해석 : 중앙값 , 평균 선택
26 주관 : 4개
27 주관: 앙상블
28 주관:25%
29 주관: 포와송 분포
30 주관:0.8
31 online learning

 

반응형
반응형

[adp/adsp] 교차 분석이란

 

1. 교차 분석
- 범주형(명목 척도, 순서 척도) 자료에서 두 변수간의 관계를 알아보기 위하여 사용함
- 적합도 검정, 독립성 검정, 동질성검정에 활용됨
- 카이제곱통계량을 활용함

2. 적합도 검정
- 관측도수와 범주의 기대 도수가 적합한지 확인하기 위한 검정
ex) 귀무가설 : 남자일 확률 50%, 여자일 확률 50%이다. , pvalue 값이 5% 미만이면, 기각

3. 독립성 검정
- 두 변수간의 상관성이 있는지 없는지를 확인하기 위한 검정
ex) 귀무가설 : 두 변수 사이에는 연관이 없다, pvalue 값이 5% 미만이면 연관있음 

4. 동질성 검정
- 모집단에서 표본을 뽑았을 때, 모집단의 분포와 표본 집단의 분포가 동질성을 갖는지 확인하기 위한 검정
ex) 모집단에서 추출한 표본과 모집단의 분포는 동질성이 있다. pvalue 값이 5% 미만이면 연관없음 

결론 
교차 분석은 두 집단간의 동질성을 판단하는 분석 방법으로, 기대 했던 값과의 적합도 검정, 변수들간의 적합도 검정, 모집단과 표본간의 동질성 검정에 활용된다. 

반응형
반응형

[adp/adsp] t분포의 정의

1. t 분포
평균값을 비교하고자 할 때 사용하는 검증 방법

2. t분포 종류
t분포에는 일표본(one sample) t분포, 대응(paired sample) 표본t 분포, 독립표본(independent sample) t 분포가 존재함
2.1 일표본(one sample) t 분포
- 변수의 평균과 특정 값과 일치하는지 확인하는 t검정
- 가설설정-> 유의수준 설정-> 검정통계량 및 유의확률계산->기각여부 판단 및 의사결정 4가지로 구성됨
ex) 해당 센서는평균이 0이라고 하는데 진짜인 확인해보세요.

2.2 대응(paired sample) t 분포
- 두 변수의 평균이 일치하는지 확인하는 t 검정
- 가설설정 -> 유의수준 설정 (일반적으로 0.05) -> 검정 통계량 및 유의확률값 계산 -> 기각여부 및 의사결정 (4단계)
ex) 해당 센서의 데이터가 고장시에는 다르게 나오는 것인지 noraml 상태와 abnormal 상태에서의 평균을 비교해 보세요.

2.3 독립(independent sample) t 분포
- 두 개의 독립된 모집단의 평균을 비교하는 거으로 분산이 같다라는 전제가 필ㅇ하므로 등분산성 분석도 이뤄져야 함
- 가설 설정 -> 유의수준 설정 ->  등분산성 계산 -> 검정통계량 및 유의 확률값 계산 -> 기각여부 및 의사결정 (5단계)
ex) 남, 여의 샤워할 때의 온도가 같은지 확인해 보세요. 

반응형
반응형

[adp/adsp] 확률 분포 정의

 

1. 확률 분포
- 확률 변수들이 가지는 확률에 대한 분포를 의미

2. 확률 분포 종류
2.1 이산형 확률 분포
베르누이분포: 이번 타석에 안타를 칠 확률
이항분포: 5벗중 3번 안타를 칠 확률
기하학분포: 3번째 안타를 친다고 했을 때, 2번 헛수윙할 화률
다항분포: 볼, 스트라이크, 파울이 1번씩 일어날 확률
포아송분포: 10번중 3번 홈런을 친다면, 이번에 홈런을 칠 확률 

2.2 연속형 확률 분포
균일분포 : 화률이 일정한 것
정규분포 : 평균과 표준편차가 있을 때 종모양의 분포
지수분포 : 경과 시간에 대한 연속확률분포
t분포 : 두 집단의 평균이 동일한지를 보는 분포로, n의 개수가 많아지면 정규분포와 비슷하게 됨
카이제곱분포 : 두 집단의 동질성 검정에 활용
f분포 : 두 집단의 분산 분석에 활용 

반응형
반응형

[ADP/ADSP] 3.4.1 통계의 이해
1. 통계 
- 실험이나 조사를 통해 나온 데이터를 표나 요약된 형태로 표현한 것
- 통계량에서 모수의 특성을 표본을 통해 추론
- 가설을 설정하고(기무가설, 대립가설) 통계기법(모수 검정, 비모수 검정)을 통하여 모수를 추론


2. 용어(4가지)
- 모집단(population) : 집단 전체
- 모수(parameter) : 표본을 통해 추정한 모집단 
- 표본(sample) : 조사를 통해 추출한 집단
- 원소(element) : 모집단을 구성하는 개체

3. 표본 추출 방법(4가지)
o 단순 랜덤 추출법 (simple random sampling)
- 랜덤으로 추출하는 방법
o 계통추출법(systematic sampling)
- k개씩 n개로 나눈 후, 임의의 위치에서 매 k 번째 항목을 추출하는 방법
o 집락추출법(cluster random sampling)
- 군집별로 랜덤 추출하는 방법
o 층화추출법(stratified random sampling)
- 이질직 원소로 구성된 모집단에서 각 계층별 램덤 추출하는 방법

4. 표본 측정 방법(4가지)
o 질적 척도
    - 명목 척도 : 성별과 같이 분류에 사용
    - 순서(서열) 척도 : 신용도, 학번과 같이 Index값을 의미있게 활용할 수 있음

o 양적 척도
    - 구간(등간) 척도 : 온도와 같이 절대 기준은 없으며 간격에 의미가 있음
    - 비율 척도 : 절대적인 기준인 원점이 있는 것으로 사칙연산이 가능

반응형
반응형

[ADP/ADSP] 3.1.1 데이터 분석 기법의 이해

 

1. 데이터 처리
- DW(Data Warehouse), DM(Data Mart)를 통해 데이터 구성
- DW와 DM에 데이터가 없다면, ODS(Operational Data Store)에서 가져와서 사용 필요
- ODS에도 데이터가 없다면 기존 운영시스템(Leagacy) or 스테이징 영역(Staging Area)에서 데이터를 불러와 클렌징 후 사용
ex) 네이버 검색 순위

2. 시각화
- 탐색적 분석에 필수이며, 그래프 분석이 가장 효율적
- 시각화 만으로도 outlier(이상점) 탐지가 쉬움
ex) polygon, heatmap, mosaic graph 등이 있음

3. 공간 분석 (Spartial Analysis)
- 지도 위에 공간적 차원과 관련된 속성들을 시각화
ex) 지역별 투표율

4. 탐색적 분석(EDA[Exploratory Data Analysis])
- 데이터로 부터 의미있는 사실을 도출하여 분석의 최종 목표를 향해 달성해 가는 과정
ex) 모형 개발에서  데이터 이해, 변수 생성, 변수 선택 단계에서 활용
- EDA의 4가지 주제
    o 저항성의 강조(Resistance)
        -> 데이터 파손에 대한 저항성
        ex) 데이터가 많으면 데이터의 파손에 대한 저항성이 증가하여 overfitting 방지함

    o 잔차(Residual) 계산
        -> 개별 데이터가 주경향성에 얼마나 벗어났는지 확인
        ex) 이동평균 필터 값과의 차이, 마할라노비스 거리를 통한 이상치 계산

    o 자료 변수의 재표현(re-expression)
        -> 분포의 선현성, 분산의 안전성, 관련 변수의 가법성, 분포의 대칭성
        ex) log 함수, 역수 변환, 제곱근 변환

    o 시각화 (Graphical Representation)
        -> 그래프
        ex) 점, 선, 원  그래프

5. 통계적 분석
    o 기술 통계(Descriptive Statistics)
    - 모집단으로 부터 추출한 표본을 숫자나 그래프로 표현

    o 추론 통계 (Inferential Statistics)
    - 표본 통계량으로 부터 모수에 관해 통계적으로 추론

6. 데이터 마이닝
- 빅데이터로 부터 관계, 패턴, 규칙 등을 탐색하고 이전에 알지 못한 지식을 추출하는 방법

-  방법론
    o 데이터 베이스의 지식탐색
    o 머신런닝
    -> svm, 인공신경망, 의사결정 나무, 클러스터링, 베이지안 분류
    o 패턴 인식
    -> 연관 규칙, 장바구니 분석

- 모델링
    o 주의 사항
    -> 데이터마이닝 모델은 통계적 모델링이 아니므로 통계 가설이나 유의성에 집착하면 안됨
    -> 다양한 모델링 옵션을 줄 필요가 없으며, 성능이 만족되면 모델 최적화는 중단한다.
    o 평가 기준
    - 정확도, 정밀도, 리프트, 디텍트 레이트 등이 존재함

반응형
반응형

[ADP/ADSP] 시험 목차

 

ADP/Adsp 단원의 구성

ADP는 5단원, ADSP는 3단원으로 구성된다. ADP와 ADSP 시험의 구성은 다음과 같다.

1. 데이터 이해
- 데이터, 데이터 베이스, 빅데이터, 데이터 사이언티스트

2. 데이터 분석 기획
- 분석 기획, 분석 방법론, 분석 과제 발굴, 프로젝트 관리 방안, 마스터 플랜 수립 프레임워크, 분석을 위한 거버넌스 체계 수립

3. 데이터 분석(ADP는 비정형 데이터 포함)
- 데이터 분석 기법, R 기초, 데이터 구조 및 데이터 프레임, 데이터 변경 및 요약, 기초 분석 및 데이터 관리,  통계 분석, 회귀 분석, 시계열 분석, 다차원 척도법 및 주성분 분석, 데이터 마이닝, 분류 분석, 군집 분석, 연관 분석, 텍스트 마이닝, 사회연결망 분석

4. 데이터 처리 기술 이해 (ADP만)
- ETL, CDC, EAI, 대용량 비정형 데이터 처리방법, 분산 데이터 저장 기술,  분산 컴퓨팅 기술, 클라우드 인프라,

5. 데이터 시각화 (ADP만)
- 시각화와 인사이트, 탐색, 분석, 활용, 시각화 정의, 시각화 방법, 시각화 디자인, 시각화 구현

반응형

+ Recent posts