본문 바로가기

분류 전체보기

(105)
[전Z전능 DA]Day39 - PYTHON 프로젝트 4 출근시간대 -대여: 강서 영등포 송파 양천 구로 노원 -반납: 강서 영등포 송파 양천 구로 퇴근시간대 -대여: 강서 송파 영등포 양천 노원 -반납: 강서 송파 영등포 양천 노원 대여 수 강서 송파 영등포 노원 양천 마포 광진 강동 구로 성동 대여소 수 송파 강서 강남 영등포 서초 노원 마포 강동 구로 양천 공통적으로 강서 송파 영등포 양천 노원이 대여수가 높은 것을 볼 수 있는데 대여소 수는 강남권이 상위에 위치하고있다. 대여수 대비 적은 대여소를 가진 구는 왜 대여소 수가 적을까 -> 지형적 요소 (산, 언덕) 대여수 대비 많은 대여소를 가진 구는 왜 대여소 수가 많을까 -> ? 출퇴근 시간대 대여/반납량에 강남은 상위권에 없는데 왜 그럴까 (강남은 오피스 밀집구가 아닌것인가..회사가 많지 않나..?)
[전Z전능 DA]Day38 - PYTHON 프로젝트 3 프로젝트 중간 발표 ⚡귀무가설 (H0): 쓸모없는 가설, 버리는 가설, 기각시키고 싶은 가설 H0 : N1=N2 두 변수간 관계가 없을것이다 (남성과 여성의 보수는 같다) ⚡대립가설 (H1): 검증하는 가설 (이쪽이 더 중요) H1 : N1 > N2 혹은 N1 < N2 (남성은 여성보다 보수가 더 많다. 혹은 남성은 여성보다 보수가 적) t-tset 하기 사용하려는 컬럼만 전처리, 결측치, 이상치 처리 결론적기 정합성검사(데이터이해) 데이터전처리(클렌징, 사용할 변수들만) 기술통계분석(그룹평균, 그룹카운트, discribe,상관관계,) eda() - 이용량에 대해서 알고싶다 이용량- 고장신고, 이용량-강수량, 이용량-나이대 이런식으로 한변수를 여러가지 다른 변수와 함께 분석해보기 인사이트 뽑기 H0 : ..
[전Z전능 DA]Day37 - PYTHON 프로젝트 2 🎯통계 분석 기법을 이용한 가설 검증 통계분석은 1. 기술 통계 분석 : 데이터를 요약해 설명하는 통계 분석 2. 추론 통계 분석 : 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산 성별에 따라 월급에 차이가 있는 것으로 나타났을 때 이 차이가 우연히 발생할 확률을 게산 확률이 작다면 통게적으로 유의하다 확률이 크다면 통계적으로 유의하지않다 => 데이터를 이용해 신뢰할 수 있는 결론을 내리려면 유의확률을 계산하는 통계적 가설 검증 절차를 거쳐야한다 유의확률(p-value)을 이용해 가설을 검정하는 방법 비무가설: 연구적 목적으로 세우는 가설 대립가설: 비무가설의 반대가 되는 것 참고 : https://ko.wikipedia.org/wiki/%EA%B7%80%EB%AC%B4_%EA%B0%8..
[전Z전능 DA]Day36 - PYTHON 프로젝트 1 탐색적 데이터 분석. 주어진 데이터를 탐색하고 이해하는 과정 ! = 데이터에 대한 일종의 견적을 내는 일 EDA를 하려면? 데이터의 각 컬럼들과 로우의 의미 이해 결측치 처리 및 데이터 클렌징 - 어떤 결과를 만들어 낼 지 데이터를 여러 측면으로 쪼개고, 출력 시각화 - 인사이트를 얻어내는것 EDA 데이터 분석 주의할 점? 무의식적 판단 / 인지적 편향 X => 정보(데이터) SQL 프로젝트에서 해봤던 것을 파이썬에서 해볼까요? 성별 별 대여수 및 평균 이동거리 - 남자 : 100만 - 여자 : 70만 - NULL : 68만 #대여수 rental_list['gender'].value_counts() # 젠더 카테고리 빈도 확인 rental_list_copy = rental_list.copy() renta..
[전Z전능 DA]Day35 - PYTHON 기초6 🎯그래프 그리기 graph : 데이터를 보기 쉽게 그림으로 표현한 것 추세와 경향성이 드러나 데이터의 특징을 쉽게 이해할 수 있다. 새로운 패턴 발견, 데이터의 특징을 잘 전달 다양한 그래프 2차원 그래프, 3차원 그래프 지도 그래프 네트워크 그래프 모션 차트 인터랙티브 그래프 seaborn 패키지 그래프를 만들 때 자주 사용되는 패키지 코드가 쉽고 간결함 1. scatter plot 산점도 데이터를 x축과 y축에 점으로 표현한 그래프 나이와 소득처럼 연속값으로 된 두 변수의 관계를 표현할 때 사용 2.막대그래프 (bar chart) 데이터의 ㄱ크기를 막대의 길이로 표현한 그래프 성별 소득 차이처럼 집단 간 3. 빈도 막대 그래프 sns.countplot 4. 선그래프 (line chart) 데이터를 선..
[전Z전능 DA]Day34 - PYTHON 기초5 🎯자유자재로 데이터 가공하기 데이터 전처리 - 원하는 형태로 데이터 가공하기 조건에 맞는 데이터만 추출하기 필요한 변수만 추출하기 순서대로 정렬하기 파생 변수 추가하기 집단별로 요약하기 데이터 합치기 1. 데이터 전처리 함수 기능 query() 행 추출 (시리즈 사용불가) df [ ] 열(변수) 추출 sort_values() 정렬 groupby() 집단별로 나누기 assign() 변수(컬럼) 추가 agg() 통계치 구하기 merge() 데이터 합치기(열) concat() 데이터 합치기 (행) 2. 조건에 맞는 데이터 추출하기 전체 조건에 작은따옴표, 추출할 문자 조건에 큰 따옴표 사용 (사용순서 바껴도 상관없음, 같은 모양 따옴표 사용하면 에러) 🌵외부 변수를 이용해 추출하기 더보기 파이썬에서 사용하는 ..
[전Z전능 DA]Day33 - PYTHON 기초4 조건에 맞는 변수(컬럼) 생성하기 : numpy 사용 numpy c로 만들어져서 수학연산할때 빠르다 메서드 체이닝
[전Z전능 DA] Day32 - PYTHON 기초3 함수 1. 일반적인 함수 입력값과 리턴값이 있는 함수 리턴값을 받을 변수 = 함수명은 작동하는 코드를 나타낼수있게 하는게 좋다 2. 입력값이 없는 함수 리턴값을 받을 변수 = 함수 이름() 3. 리턴값이 없는 함수 함수이름(입력인수1, 입력인수2, ...) 4. 단순 함수 입력값도 리턴값도 없는 함수 함수이름(): 매개변수 지정해서 호출하기 매개변수를 지정하면, 매개변수 순서에 상관없이 함수를 사용할 수 있다는 장점이 있다. 내장함수 sum() max() min() 패키지 seaborn 패키지 함수 사용법이 궁금할 땐 help함수를 활용해보세요 ex) sns.countplot? 모듈 패키지명.모듈명.함수명() 으로 함수 사용하기 🎯데이터 프레임의 이해 데이터가 크다 = 행이 많다 혹은 열이 많다 🌵데이터..