본문 바로가기
카테고리 없음

24년 빅데이터 분석 기사 실기 교재, 사이트, 문제 정보 총정리해보기

by 이켠작가 2024. 3. 29.
반응형

#빅분기실기준비 #빅데이터분석기사실기

 

빅분기 필기 합격 후 3주 공부해서 실기 합격할 수 있을까?

여러 후기를 보니 어렵다고 판단되었다

그래도 정리해두면 도움이 될 것 같아서 정리해봅니다

 

 


 


 

빅데이터 실기 분석 파이썬 책 추천

 
 
- 빅데이터분석기사 실기 한권완성 파이썬(Python)(2023)
 (작업형 제3유형 완벽 대비 / 2021~2022년(2~5회) 기출복원문제 수록) 
- 영진닷컴 빅데이터분석기사 수험서
- 빅데이터 분석 기사 실기 필답형+작업형 프리렉에서 나온 책
(이 책이 100% 시험을 커버한다고는 말 못하겠어요. 4회 시험에서 Date 관련 함수가 1유형에서 나왔는데, 이 책에는 날짜 계산 함수가 없습니다.)
준비기간
- 예문사(python) 취준 1달 : 단답1주일, 작업형 예제 풀어보기 2주일, 기출문제 1주일
 
=> 전체적으로 합격 후기를 읽어보면 
특정 책이 중요하기 보다는
이기적, 예문, 수제비 등은 언급되지만
퇴근후딴짓(캐글) 이 제일 많이 언급된다
그래서 그냥 이기적 중심으로
추가적으로 파이썬 한권으로 끝내기 중심을 하되
퇴근후딴찟을 많이 하기로 결심하였다
 

 


 

 

도움이 되는 사이트

 

- https://ysg2997.tistory.com/48

- 데이터마님+퇴근후딴짓(캐글) 자주 언급​

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

-  EduAtoZ 와 인프런의 퇴근후딴짓님

 

 

 

빅데이터분석기사 시험 난이도 (빅분기 7회 합격 후기)

빅데이터 분석기사 7회 합격 후기 2023년 12월 15일 자로 제7회 빅데이터분석기사 필기와 실기 점수가 모두 공개되었습니다. 저는 7회 시험에서 필기 실기 모두 한 번에 합격했고, 공부하면서 궁금

ysg2997.tistory.com

 

참고하는 대표 사이트, 캐글을 빅분기 시험 대비로 많이 추천함

 

Big Data Analytics Certification KR | Kaggle

 

www.kaggle.com

 

도움이 되는 후기

https://datalabbit.tistory.com/127

 

[자격증] 빅데이터분석기사 실기 합격 후기(책 추천 / 공부 기간 등)

Review 참고 포스팅 : 2023.01.22 - [Records/Certificate] - [자격증] 빅데이터분석기사 필기 합격 후기(책 추천 / 공부 기간 등) [자격증] 빅데이터분석기사 필기 합격 후기(책 추천 / 공부 기간 등) 안녕하십

datalabbit.tistory.com

 


기타 고려사항

- dir, _all_, help 꼭 알아야

- 오픈북 아니고, 인터넷 검색 안됨

- help 기능 가능

- 패키지 및 함수 암기 필요

- 코딩을 통해 중간중간 printf()를 통해 결과를 확인하기

- 시험 환경에서 vim 키바인딩 사용 가능

- 모든 커맨드를 꼭 달달 외울 필요 있

 

 
 

합격전략-회사의 합격한 후임님이 친히 알려주심 감사감사

1) [30점 만점] 단답형에서 7개 이상 맞추기(21점 이상 확보, 1문제당 3점)

2) [30점 만점] 실기형 1문항 점수 깎이는 부분 없이 다 맞기(30점 확보)

- 기초통계, 간단한 전처리 및 기초 통계처리 문제

3) [40점 만점]실기형 2문항에서 10점 이상 맞기

- 부분점수 없음. 결과만 봄

- 분류 분석이 많이 나옴

 

유형별 자주 나오는 문제

 

필답형 문제

 

- JSON

- 최소제곱법

- Box cox

- 차원축소

- som

- 정규성

- svm

- 드롭아웃

- 스쿱

- 0.686 F1 스코어

- 지지도, 신뢰도, 향상도

- 통계모델

- 결측치&이상치 처리기법

- 스케일링 기법

- 정밀도&정확도&f1 score 혼동행렬의 용어

- 통계량(변동계수, 표준편차, 분산 등)

- min-max scaler

- 분포

- '속성과 값의 쌍' 형태로 표현

- 측정값 기초로 한 제곱 합, 그것을 최소로 하는 값 구해 측정 결과 처리, 오차 제곱 합 가장 작은 해

- MSE

- 정규분포가 아닌 데이터를 정규분포에 가깝게 만들거나 데이터 분산을 안정화하는 기법, 람다값 변환형태 결정

- 표준화 제가 틀림

- PCA 같은 방법

- 차원축소법

- 군집분석 / 대뇌피질, 시각피질 학습 과정 기반 / 인공신경망, 클러스터링

- ANN 제가 틀림

- 선형회귀분석 가정, 오차의 분포 = 정규분포 만족

- 정규성

- 초평면

- SVM

- 은닉층 뉴런 임의 삭제 과적합 방지

- 드롭 아웃

- HDFS에 파일 세트로 저장

- 하둡 제가 틀릴 수도?

- F1 = 2 * (precision * recall) / (precision + recall)

 

SVM, JSON, BOX COX

차원축소법, 정규성, 초평면

 

 

작업형 1유형

- 연습하기 좋은 사이트

- https://www.datamanim.com/dataset/99_pandas/pandasMain.html

- 크기 순으로 정렬해라, 일부의 행들만 출력해라

- 특정 조건을 만족하는 칼럼을 출력해라

- 칼럼의 통계량을 산출해라, 결측치나 이상치를 처리해라

- 그룹별로 집계해라, 데이터를 스케일링 해라

- 기본 문법 숙지 필요

- 데이터프레임 조작 라이브러리 숙지 필요

- R dplyr, Python의 경우 numpy, panda

- B 변수를 별도의 벡터로 추출
- 내림차순으로 정렬
- 홀수번째, 짝수번째 인덱스 생성 
- 평균차 계산

- 자동차 데이터 셋에서 특정 컬럼을 Min-Max Scale로 변환 후 0.5보다 큰 값을 가지는 레코드(row) 수를 묻는 문제

- 조건에 맞는 평균값 구하기

- 결측치 채우기 전과 후 표준편차 구하기

- 이상치 데이터 구하기

 

주요 형태

- 1. 자료 불러오기 / type() .shape .columns .describe() 확인

- 2. EDA / 결측치, 이상값 확인

- 3. 수치형 / 스케일링(Robust, MinMax, Standard)

- 4. 범주형 /

- (1) 데이터 분리

- n_train = x_train.select_dtypes(include = 'int').copy()

- c_train = x_train.select_dtypes(exclude = 'int').copy()

- (2) 원핫인코딩 혹은 라벨인코딩

- 5. 검증모델

- sklearn.model_selection import train_test_split

- X_tr X_te y_tr y_te = train_test_split(x_train, y_train, test_size = )

- model = RandomForestClassifier()

- model.fit(x_train, y_train)

- y_test_pred = model.predict(x_test)

- 6. 모델 평가

- sklearn.metrics import roc_auc_score, accuracy score

- 7. 예측하기

- predict 혹은 predict_proba

 

 

 

 

판다스 연습 튜토리얼 — DataManim

Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]

www.datamanim.com

 

 

판다스 연습 튜토리얼 — DataManim

Question 43 df의 데이터 중 new_price값이 lst에 해당하는 경우의 데이터 프레임을 구하고 그 갯수를 출력하라 lst =[1.69, 2.39, 3.39, 4.45, 9.25, 10.98, 11.75, 16.98]

www.datamanim.com

 

자료 불러오기, 결측치 확인, 데이터분리,

검증모델, 모델평가, 예측하기가 기본 형태인거 같고

기본함수 R로 치면 dplyr,Python의 경우 numpy, panda

 
 
 

작업형 2유형

 

데이터를 수집하고 전처리하는 걸 평가

- 대부분 RandomForest 돌려서 처리하는 것을 강력추천, RandomForest 처리법 달달 외우

- 데이터 모형 구축 작업

- 데이터 모형 평가 작업

- 데이터 불러오기

- 데이터 병합

- 결측치채우기

- 전처리

- 데이터 나누기

- 모델학습

- 평가

- 결과파일 제출

- 전처리-label encoding, scaler 학습-randomforest, adaboost, voting 3가지 알고리즘 사용

- 1분이 넘어가면 안되서 비정형데이터 안나올 가능성 높음

- classification, regression 쉬운 분석 문제 가능성 높음

- 모델의 선택은 xgboost가 제일 무난함

- 백화점 고객의 1년 간 구매 데이터를 활용해

  • 데이터 전처리
  • Feature Engineering
  • 모델링 (분류 알고리즘 사용)
  • 하이퍼파라미터 튜닝 (초매개변수 최적화)
  • 모형 앙상블
  • csv제출

 

작업형 유형3

 

아래 사이트를 강력 추천을 많이함

 

 

사이파이 튜토리얼 — DataManim

카이제곱 검정 (교차분석) 일원 카이제곱검정 (chisquare , 카이제곱 적합도 검정) 한 개의 요인에 의해 k개의 범주를 가질때 이론적 분포를 따르는지 검정 이원 카이제곱검정 (chi2_contingency ,fisher_exa

www.datamanim.com

 

기초를 넘어서 분류 분석이 많이 나옴

1분이내 나와야하기 때문에 비정형은 어려움

 

 


출처 입력

반응형