Hseong

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출 본문

KT AIVLE SCHOOL 7기

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출

__hseong__ 2025. 4. 8. 22:06
728x90
반응형

 

오늘은 여러 프로젝트/연구를 진행하게 되면 빅데이터+방대한 변수들이 있기 때문에 여러 과정을 거치면서 가설을 설정하여 테스트하고, 그게 맞는지 판단하는 절차가 필요합니다!

그러기 위해 오늘은 기본적인 통계적인 과정을 거쳐서 이를 분석하고, 인사이트 도출을 위한 p-value 와 여러 통계,검정을 곁들인 내용을 정리해보려고 합니다!

데이터 준비 및 이해

# Titanic 데이터
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic_simple.csv'
titanic = pd.read_csv(path)

# 확인
titanic.head()

에이블스쿨 강사님께서도 인정한 국밥(?) 데이터 입니다! 저도 학교에서 수업 들을 때 해당 데이터를 이용해서 실습을 해본 적이 있는데요~ 이번에 적용해보려고 합니다! ( 근데 전에 썼었던 건 ㅋㅋㅎㅋㅎ)

  • 앞서서 describe를 통해서 데이터의 표준편차,최대/최소값, 각 분위수별 수치를 정리해줄 수 있었는데 위 그림과 같이 이해하면 됩니다!
  • mean()은 평균값 | median() 은 전체 데이터를 나열했을 때 중앙 즉,50퍼센트에 있는 값을 말합니다 정중앙!!
  • mode()은 최빈값으로 가장 빈번하게 나타내는 값을 뜻합니다 이를 확인하기 위해 mode()[0]을 해주면 출력이 가능해요!
  • 다음은 value_counts().idxmax()를 통해서 가장 많이 나온 값의 라벨의 값을 출력해줘요!
titanic['Fare'].mean()

titanic['Fare'].median()

titanic['Pclass'].mode()

titanic['Pclass'].mode()[0]

titanic['Pclass'].value_counts().idxmax()

가설 검정 단계

그리고 p-value 는 기본적으로 0.05 를 기준으로 이보다 이하라면 주장하고 있는 바가 신뢰가 있다고 생각하고 진행하면 되고, 이보다 위라면 기각을 해야 합니다! 앞으로 t-검정 // 카이제곱을 활용하여 추진하려는 연구의 방향성을 잡는데 도움이 되니까 향후 kaggle을통한 데이터셋으로 진행해보려고 합니다!!

728x90
반응형