#빅분기실기준비 #빅데이터분석기사실기
빅분기 필기 합격 후 3주 공부해서 실기 합격할 수 있을까?
여러 후기를 보니 어렵다고 판단되었다
그래도 정리해두면 도움이 될 것 같아서 정리해봅니다
빅데이터 실기 분석 파이썬 책 추천
- 빅데이터분석기사 실기 한권완성 파이썬(Python)(2023)
(작업형 제3유형 완벽 대비 / 2021~2022년(2~5회) 기출복원문제 수록)
- 영진닷컴 빅데이터분석기사 수험서
- 빅데이터 분석 기사 실기 필답형+작업형 프리렉에서 나온 책
(이 책이 100% 시험을 커버한다고는 말 못하겠어요. 4회 시험에서 Date 관련 함수가 1유형에서 나왔는데, 이 책에는 날짜 계산 함수가 없습니다.)
준비기간
- 예문사(python) 취준 1달 : 단답1주일, 작업형 예제 풀어보기 2주일, 기출문제 1주일
=> 전체적으로 합격 후기를 읽어보면
특정 책이 중요하기 보다는
이기적, 예문, 수제비 등은 언급되지만
퇴근후딴짓(캐글) 이 제일 많이 언급된다
그래서 그냥 이기적 중심으로
추가적으로 파이썬 한권으로 끝내기 중심을 하되
퇴근후딴찟을 많이 하기로 결심하였다
도움이 되는 사이트
- https://ysg2997.tistory.com/48
- 데이터마님+퇴근후딴짓(캐글) 자주 언급
https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr
- EduAtoZ 와 인프런의 퇴근후딴짓님
- (데이터마님)빅데이터분석기사 ADP 실기 정보공유방
https://open.kakao.com/o/gJl1ud2c
- eduatoz 유튭 강의 전 도움되었어요!
- https://www.youtube.com/watch?v=40aqaDlhL7E&list=PLnp1rUgG4UVaMbL-G7kuAyuR2l0729SRQ
- https://www.youtube.com/watch?v=efKBy0i9vNY&list=PLjh1hlmDSDkc-raFsiUXZbdZ0cA-1gPrP
- https://www.kaggle.com/competitions/big-data-analytics-certification
빅데이터분석기사 시험 난이도 (빅분기 7회 합격 후기)
빅데이터 분석기사 7회 합격 후기 2023년 12월 15일 자로 제7회 빅데이터분석기사 필기와 실기 점수가 모두 공개되었습니다. 저는 7회 시험에서 필기 실기 모두 한 번에 합격했고, 공부하면서 궁금
ysg2997.tistory.com
참고하는 대표 사이트, 캐글을 빅분기 시험 대비로 많이 추천함
- (1) https://www.datamanim.com/intro.html2
- (2) https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr/data
Big Data Analytics Certification KR | Kaggle
www.kaggle.com
도움이 되는 후기
https://datalabbit.tistory.com/127
[자격증] 빅데이터분석기사 실기 합격 후기(책 추천 / 공부 기간 등)
Review 참고 포스팅 : 2023.01.22 - [Records/Certificate] - [자격증] 빅데이터분석기사 필기 합격 후기(책 추천 / 공부 기간 등) [자격증] 빅데이터분석기사 필기 합격 후기(책 추천 / 공부 기간 등) 안녕하십
datalabbit.tistory.com
기타 고려사항
- dir, _all_, help 꼭 알아야
- 오픈북 아니고, 인터넷 검색 안됨
- help 기능 가능
- 패키지 및 함수 암기 필요
- 코딩을 통해 중간중간 printf()를 통해 결과를 확인하기
- 시험 환경에서 vim 키바인딩 사용 가능
- 모든 커맨드를 꼭 달달 외울 필요 있
합격전략-회사의 합격한 후임님이 친히 알려주심 감사감사
1) [30점 만점] 단답형에서 7개 이상 맞추기(21점 이상 확보, 1문제당 3점)
2) [30점 만점] 실기형 1문항 점수 깎이는 부분 없이 다 맞기(30점 확보)
- 기초통계, 간단한 전처리 및 기초 통계처리 문제
3) [40점 만점]실기형 2문항에서 10점 이상 맞기
- 부분점수 없음. 결과만 봄
- 분류 분석이 많이 나옴
유형별 자주 나오는 문제
필답형 문제
- JSON
- 최소제곱법
- Box cox
- 차원축소
- som
- 정규성
- svm
- 드롭아웃
- 스쿱
- 0.686 F1 스코어
- 지지도, 신뢰도, 향상도
- 통계모델
- 결측치&이상치 처리기법
- 스케일링 기법
- 정밀도&정확도&f1 score 혼동행렬의 용어
- 통계량(변동계수, 표준편차, 분산 등)
- min-max scaler
- 분포
- '속성과 값의 쌍' 형태로 표현
- 측정값 기초로 한 제곱 합, 그것을 최소로 하는 값 구해 측정 결과 처리, 오차 제곱 합 가장 작은 해
- MSE
- 정규분포가 아닌 데이터를 정규분포에 가깝게 만들거나 데이터 분산을 안정화하는 기법, 람다값 변환형태 결정
- 표준화 제가 틀림
- PCA 같은 방법
- 차원축소법
- 군집분석 / 대뇌피질, 시각피질 학습 과정 기반 / 인공신경망, 클러스터링
- ANN 제가 틀림
- 선형회귀분석 가정, 오차의 분포 = 정규분포 만족
- 정규성
- 초평면
- SVM
- 은닉층 뉴런 임의 삭제 과적합 방지
- 드롭 아웃
- HDFS에 파일 세트로 저장
- 하둡 제가 틀릴 수도?
- F1 = 2 * (precision * recall) / (precision + recall)
SVM, JSON, BOX COX
차원축소법, 정규성, 초평면
작업형 1유형
- 연습하기 좋은 사이트
- https://www.datamanim.com/dataset/99_pandas/pandasMain.html
- 크기 순으로 정렬해라, 일부의 행들만 출력해라
- 특정 조건을 만족하는 칼럼을 출력해라
- 칼럼의 통계량을 산출해라, 결측치나 이상치를 처리해라
- 그룹별로 집계해라, 데이터를 스케일링 해라
- 기본 문법 숙지 필요
- 데이터프레임 조작 라이브러리 숙지 필요
- R dplyr, Python의 경우 numpy, panda
- B 변수를 별도의 벡터로 추출
- 내림차순으로 정렬
- 홀수번째, 짝수번째 인덱스 생성
- 평균차 계산
- 자동차 데이터 셋에서 특정 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수를 묻는 문제
- 조건에 맞는 평균값 구하기
- 결측치 채우기 전과 후 표준편차 구하기
- 이상치 데이터 구하기
주요 형태
- 1. 자료 불러오기 / type() .shape .columns .describe() 확인
- 2. EDA / 결측치, 이상값 확인
- 3. 수치형 / 스케일링(Robust, MinMax, Standard)
- 4. 범주형 /
- (1) 데이터 분리
- n_train = x_train.select_dtypes(include = 'int').copy()
- c_train = x_train.select_dtypes(exclude = 'int').copy()
- (2) 원핫인코딩 혹은 라벨인코딩
- 5. 검증모델
- sklearn.model_selection import train_test_split
- X_tr X_te y_tr y_te = train_test_split(x_train, y_train, test_size = )
- model = RandomForestClassifier()
- model.fit(x_train, y_train)
- y_test_pred = model.predict(x_test)
- 6. 모델 평가
- sklearn.metrics import roc_auc_score, accuracy score
- 7. 예측하기
- predict 혹은 predict_proba
판다스 연습 튜토리얼 — DataManim
Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]
www.datamanim.com
판다스 연습 튜토리얼 — DataManim
Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]
www.datamanim.com
자료 불러오기, 결측치 확인, 데이터분리,
검증모델, 모델평가, 예측하기가 기본 형태인거 같고
기본함수 R로 치면 dplyr,Python의 경우 numpy, panda
작업형 2유형
데이터를 수집하고 전처리하는 걸 평가
- 대부분 RandomForest 돌려서 처리하는 것을 강력추천, RandomForest 처리법 달달 외우
- 데이터 모형 구축 작업
- 데이터 모형 평가 작업
- 데이터 불러오기
- 데이터 병합
- 결측치채우기
- 전처리
- 데이터 나누기
- 모델학습
- 평가
- 결과파일 제출
- 전처리-label encoding, scaler 학습-randomforest, adaboost, voting 3가지 알고리즘 사용
- 1분이 넘어가면 안되서 비정형데이터 안나올 가능성 높음
- classification, regression 쉬운 분석 문제 가능성 높음
- 모델의 선택은 xgboost가 제일 무난함
- 백화점 고객의 1년 간 구매 데이터를 활용해
- 데이터 전처리
- Feature Engineering
- 모델링 (분류 알고리즘 사용)
- 하이퍼파라미터 튜닝 (초매개변수 최적화)
- 모형 앙상블
- csv제출
작업형 유형3
아래 사이트를 강력 추천을 많이함
사이파이 튜토리얼 — DataManim
카이제곱 검정 (교차분석) 일원 카이제곱검정 (chisquare , 카이제곱 적합도 검정) 한 개의 요인에 의해 k개의 범주를 가질때 이론적 분포를 따르는지 검정 이원 카이제곱검정 (chi2_contingency ,fisher_exa
www.datamanim.com
기초를 넘어서 분류 분석이 많이 나옴
1분이내 나와야하기 때문에 비정형은 어려움