이것저것/ADP 실기 과정

ADP 실기 15회 후기 모음집

공부가나연 2020. 9. 21. 13:26

시작에 앞서 16회는 코로나로 인해 시험이 없어진 점, 또한 후기들은 직접본것이 아니라 구글링을 통해 통합한 점 알려드립니다.

 

1. 제조 생산 데이터 분석

1) 데이터 탐색 EDA

 

2) 데이터 전처리 

: 변수선택 (VIF) 파생변수 생성, 데이터 분할 (8:2)

3)로지스틱 분석 

: 분류 1을 판단하는 모델 생성 

: 종속변수 y를 이항으로 바꾸고 로지스틱 회귀 분석하기

종속변수는 총 7개 분류, 분류1 외의 값은 0으로 치환, confusion matrix 해석

4) 로지스틱 분석 외 3개 이상 분류 모델 생성 및 결과 해석

: SVM 필수, precision, sensitivity 결론값 출력

(분석기술로 svm, 랜덤포레스트, 앙상블 등등 이용하라는거 같다 feat 개인 생각)

 

종속변수 다항인 상태에서 svm포함하여 3가지 알고리즘으로 돌려보고 평가

5) 위 모델 중 최고 모델을 선택하여 최적의 군집 개수를 선택하고 클러스터링 수행 F1Score 출력

적합한 모형을 찾아서 군집분석을 실시하고 군집분석을 반영하여 F1Score값을 통해 모델이 나아지는지 확인

(해당 군집을 또 독립변수로 놓고 학습을 하면 모델의 질이 높아질 수 있다고도 한다 참고 하기)

 

2. 데이터 처리 및 통계 분석

: timestamp 처리, date 기준 데이터 병합

: hh:mm, A/B/C/D/E 전력 사용량 데이터 

1) 아래 형태의 데이터 생성: 3개 데이터를 date 기준으로 병합 필요

-> yyyy-mm / A/ B/ C/ D/ E/ 사용량

2) 요일 변수 생성 및 A/ B/ C/ D/ E별 평균 사용량 출력, 그래프 출력

3) 요일간 사용량 분석을 수행하고 가장 차이가 있는 요일 도출

 

 

개인 의견 

첫 실기 18회차 부터 보고 그 전 회차들을 종합해서 느끼는 점으로

EDA, 데이터 선택 및 파생변수 생성, 트레이닝, 테스트 데이터 나누기는 항상 들어가 있다.

이번에는 로지스틱, svm 그리고 timestamp를 처리하는 시계열 분석 문제