가족은 삶의 동력
데이터 분석 교육에 사용되는 titanic 데이터셋은 타이타닉 침몰 사고의 승객 891명에 대한 생존 통계입니다.
가족의 수에 따른 생존율 통계는 가족이 삶에 어떤 영향을 주는지 말해주는 듯합니다
# 1. 가족 크기(family_size) 파생변수 생성
# family_size = sibsp(형제자매/배우자) + parch(부모/자녀) + 1(본인)
df1['family_size'] = df1['sibsp'] + df1['parch'] + 1
# 2. family_size 별 생존율(survived) 평균 계산
# groupby를 사용하여 family_size 별로 묶은 뒤 survived 컬럼의 평균을 구합니다.
survival_rate = df1.groupby('family_size')['survived'].mean()
# 결과 출력
print(survival_rate)
family_size1 0.302 0.553 0.584 0.725 0.206 0.147 0.338 0.00
가족이 4명일 때 가장 생존율이 높았습니다. (가족이 5명 이상이면 치명적이라는…)
가족이 있으면 혼자일 때보다 생존율이 2배 가까이 높아집니다.
