Pandas - 데이터 프레임 분석
데이터 보기
DataFrame의 빠른 개요를 얻기 위해 가장 많이 사용되는 방법 중 하나는 head()
메서드입니다.
이 head()
메서드는 맨 위에서 시작하여 헤더와 지정된 수의 행을 반환합니다.
예시
DataFrame의 처음 10개 행을 인쇄하여 빠른 개요를 얻으십시오.
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
이 예에서는 'data.csv'라는 CSV 파일을 사용합니다.
data.csv 를 다운로드 하거나 브라우저에서 data.csv 를 엽니다 .
참고: 행 수가 지정되지 않은 경우 head()
메서드는 상위 5개 행을 반환합니다.
예시
DataFrame의 처음 5개 행을 인쇄합니다.
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
DataFrame 의 마지막tail()
행 을 보는 방법
도 있습니다 .
이 tail()
메서드는 맨 아래부터 시작하여 헤더와 지정된 수의 행을 반환합니다.
예시
DataFrame의 마지막 5개 행을 인쇄합니다.
print(df.tail())
데이터에 대한 정보
info()
DataFrames 개체에는 데이터 세트에 대한 추가 정보를 제공하는 이라는 메서드가 있습니다.
예시
데이터에 대한 정보 인쇄:
print(df.info())
결과
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
결과 설명
결과는 169개의 행과 4개의 열이 있음을 알려줍니다.
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
데이터 유형이 있는 각 열의 이름:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
널 값
이 info()
방법은 또한 각 열에 Null이 아닌 값이 몇 개 있는지 알려주고 데이터 세트에서 "Calories" 열에 Null이 아닌 값 169개 중 164개가 있는 것처럼 보입니다.
어떤 이유로든 "칼로리" 열에 값이 전혀 없는 5개의 행이 있음을 의미합니다.
빈 값 또는 Null 값은 데이터를 분석할 때 좋지 않을 수 있으므로 빈 값이 있는 행을 제거하는 것을 고려해야 합니다. 이것은 데이터 정리 라고 하는 것을 향한 단계이며 다음 장에서 이에 대해 자세히 알아볼 것입니다.