이것저것/ADP 실기 과정(4)
-
ADP 실기 14회차 모음집
1. 통계분석 1) Fev(폐활량) 예측문제 (나이, 키, 성별, 흡연유무) - EDA 및 상관관계 분석 - 적절한 회귀모형 선택 - 회귀모형 해석 (변수별 증감에 따라) - 평균, 키, 나이(여자, 흡연자)일 경우 폐활량 예측 2) 통계분석(12회차 기출) - 변수 시각화(변수간 상관관계, 변수별 이상치 파악) - 회귀모형 적합과 유의성 검정 - 회귀계수에 대한 standard error가 가지는 의미 - 회귀분석에서 잔차 분석 및 시각화 - 회귀분석에서 영향력 관측치와 그 영향 분석 2. 데이터 마이닝 1) 백화점 사용패턴 분석 Date(xxxx-xx-xx xx:xx), customer id, product(한글 백화점 상품명), price(가격) - 파생 변수 생성 및 EDA - 군집분석 및 적절한..
2020.09.21 -
ADP 실기 15회 후기 모음집
시작에 앞서 16회는 코로나로 인해 시험이 없어진 점, 또한 후기들은 직접본것이 아니라 구글링을 통해 통합한 점 알려드립니다. 1. 제조 생산 데이터 분석 1) 데이터 탐색 EDA 2) 데이터 전처리 : 변수선택 (VIF) 파생변수 생성, 데이터 분할 (8:2) 3)로지스틱 분석 : 분류 1을 판단하는 모델 생성 : 종속변수 y를 이항으로 바꾸고 로지스틱 회귀 분석하기 종속변수는 총 7개 분류, 분류1 외의 값은 0으로 치환, confusion matrix 해석 4) 로지스틱 분석 외 3개 이상 분류 모델 생성 및 결과 해석 : SVM 필수, precision, sensitivity 결론값 출력 (분석기술로 svm, 랜덤포레스트, 앙상블 등등 이용하라는거 같다 feat 개인 생각) 종속변수 다항인 상태에..
2020.09.21 -
ADP 17회 실기 후기 모음
비록 제가 직접 시험치고 온게 아니라 인터넷에 떠도는 것들을 종합하여 비교하기위해 구글링을 통해 끌어 왔습니다. 1. Housing Data (집값 예측) 1) EDA 및 데이터 전처리 (시각화 및 통계량 제시) 2) Train Valid Test set으로 분할 및 시각화 제시 3) 2차 교호작용항까지 고려한 회귀분석 수행 및 변수 선택 과정 제시 4) 벌점, 앙상블을 포함하여 모형에 적합한 기계학습 모델 3가지 (MSE, MAPE, R2제시) 2. Corona Data (시계열) 1) 인구대비 코로나 확진자 비율이 가장 높은 국가 5개 제시하고 일일 확진자, 누적확진자, 일일 사망자, 누적 사망자 추이를 각각 1장씩의 시각화 그래프로 시각화 2) 위험지수 생성 및 해석 3) 코로나 위험 지수를 개발하..
2020.09.21 -
첫 ADP 18회 실기 시험 후기
시험일 2020. 09. 19 1:00 ~ 5:00 (4시간) 기대하고 고대하던 첫 P(전문가)의 도전이였다. 문제는 총 크게 3문제 1. 통계,머신러닝 (40점) 2. 텍스트마이닝 (10점) 3. 시계열 (50점) 1. 거래데이터를 통한 예측모형 만들기 주어진 데이터 : sales.csv(회원 id, 등급, 거래 금액, 거래간 일자, 개수) 1) 탐색적 분석 EDA 시각화 표현, 결측값 처리 등의 데이터 전처리 결과 정리 2) 전처리된 데이터 셋을 이용해 예측모형 개발 (1) 고객 등급 예측 모형을 위해 파생변수를 적절하개 3개 생성, 이유 작성 *필요시 시각화 & 통계량 제시 (2) (1)에서 편성된 데이터를 Train, Test로 7:3으로 분할하고 훈현데이터를 이용하여 som을 이용한 군집분석 수..
2020.09.21