본문 바로가기

성동1기 전Z전능 데이터 분석가 과정

[전Z전능 DA]Day36 - PYTHON 프로젝트 1

 

 

 탐색적 데이터 분석.

 

주어진 데이터를 탐색하고 이해하는 과정 ! 

= 데이터에 대한 일종의 견적을 내는 일

 

 

EDA를 하려면?

  1. 데이터의 각 컬럼들과 로우의 의미 이해 
  2. 결측치 처리 및 데이터 클렌징 - 어떤 결과를 만들어 낼 지 데이터를 여러 측면으로 쪼개고, 출력
  3. 시각화  -  인사이트를 얻어내는것

EDA 데이터 분석 주의할 점?

무의식적 판단 / 인지적 편향 X  =>  정보(데이터)

 

 

 


 

SQL 프로젝트에서 해봤던 것을 파이썬에서 해볼까요?

 성별 별 대여수 및 평균 이동거리 

 

<대여수>

 

 

 

- 남자 : 100만

- 여자 : 70만

- NULL : 68만

 

 

 

 

 

 

 

 

 

 

#대여수
	rental_list['gender'].value_counts()  # 젠더 카테고리 빈도 확인
rental_list_copy = rental_list.copy()
rental_list_copy['gender'].replace('m', 'M', inplace=True)
rental_list_copy['gender'].replace('f', 'F', inplace=True)
rental_list_copy['gender'].replace('\\N', np.nan, inplace=True)
sns.countplot(data = rental_list_copy, x='gender')

 

 

 

<평균 이동거리>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

#이동거리
gender_mean_dist = rental_list_copy.groupby('gender',as_index=False).agg(mean_dist=('use_distance','mean'))
gender_mean_dist
sns.barplot(data = gender_mean_dist, x= 'gender', y='mean_dist' )

 

 

 

<평균 이용시간>

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

#이용시간
gender_mean_time = rental_list_copy.groupby('gender',as_index=False).agg(mean_time=('use_time_min','mean'))
gender_mean_time
sns.barplot(data = gender_mean_time, x= 'gender', y='mean_time' )