[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Hseong

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출 본문

KT AIVLE SCHOOL 7기

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출

__hseong__ 2025. 4. 8. 22:06

728x90

오늘은 여러 프로젝트/연구를 진행하게 되면 빅데이터+방대한 변수들이 있기 때문에 여러 과정을 거치면서 가설을 설정하여 테스트하고, 그게 맞는지 판단하는 절차가 필요합니다!

그러기 위해 오늘은 기본적인 통계적인 과정을 거쳐서 이를 분석하고, 인사이트 도출을 위한 p-value 와 여러 통계,검정을 곁들인 내용을 정리해보려고 합니다!

데이터 준비 및 이해

# Titanic 데이터
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/titanic_simple.csv'
titanic = pd.read_csv(path)

# 확인
titanic.head()

에이블스쿨 강사님께서도 인정한 국밥(?) 데이터 입니다! 저도 학교에서 수업 들을 때 해당 데이터를 이용해서 실습을 해본 적이 있는데요~ 이번에 적용해보려고 합니다! ( 근데 전에 썼었던 건 ㅋㅋㅎㅋㅎ)

앞서서 describe를 통해서 데이터의 표준편차,최대/최소값, 각 분위수별 수치를 정리해줄 수 있었는데 위 그림과 같이 이해하면 됩니다!
mean()은 평균값 | median() 은 전체 데이터를 나열했을 때 중앙 즉,50퍼센트에 있는 값을 말합니다 정중앙!!
mode()은 최빈값으로 가장 빈번하게 나타내는 값을 뜻합니다 이를 확인하기 위해 mode()[0]을 해주면 출력이 가능해요!
다음은 value_counts().idxmax()를 통해서 가장 많이 나온 값의 라벨의 값을 출력해줘요!

titanic['Fare'].mean()

titanic['Fare'].median()

titanic['Pclass'].mode()

titanic['Pclass'].mode()[0]

titanic['Pclass'].value_counts().idxmax()

가설 검정 단계

그리고 p-value 는 기본적으로 0.05 를 기준으로 이보다 이하라면 주장하고 있는 바가 신뢰가 있다고 생각하고 진행하면 되고, 이보다 위라면 기각을 해야 합니다! 앞으로 t-검정 // 카이제곱을 활용하여 추진하려는 연구의 방향성을 잡는데 도움이 되니까 향후 kaggle을통한 데이터셋으로 진행해보려고 합니다!!

728x90

'KT AIVLE SCHOOL 7기' 카테고리의 다른 글

[KT AIVLE SCHOOL 7기] - 미니 프로젝트 1차 후기 (3)	2025.04.18
[KT AIVLE SCHOOL 7기] - 스터디 후기(정보처리기사 실기) (0)	2025.04.09
[KT AIVLE SCHOOL 7기] - 머신러닝 (4) 최종실습 (feat. 이제 중간 후기를 곁들인....) (1)	2025.04.08
[KT AIVLE SCHOOL 7기] - 머신러닝(3) 튜닝 (0)	2025.04.08
[KT AIVLE SCHOOL 7기] - 머신러닝(2) 분류 (0)	2025.04.08

'KT AIVLE SCHOOL 7기' Related Articles

Hseong

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출 본문

[KT AIVLE SCHOOL 7기] - 머신러닝 (5) 인사이트 도출

데이터 준비 및 이해

가설 검정 단계

'KT AIVLE SCHOOL 7기' 카테고리의 다른 글

티스토리툴바