Pandas - 데이터 프레임 분석


데이터 보기

DataFrame의 빠른 개요를 얻기 위해 가장 많이 사용되는 방법 중 하나는 head()메서드입니다.

head()메서드는 맨 위에서 시작하여 헤더와 지정된 수의 행을 반환합니다.

예시

DataFrame의 처음 10개 행을 인쇄하여 빠른 개요를 얻으십시오.

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

이 예에서는 'data.csv'라는 CSV 파일을 사용합니다.

data.csv 를 다운로드 하거나 브라우저에서 data.csv 를 엽니다 .

참고: 행 수가 지정되지 않은 경우 head()메서드는 상위 5개 행을 반환합니다.

예시

DataFrame의 처음 5개 행을 인쇄합니다.

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

DataFrame 의 마지막tail() 행 을 보는 방법 도 있습니다 .

tail()메서드는 맨 아래부터 시작하여 헤더와 지정된 수의 행을 반환합니다.

예시

DataFrame의 마지막 5개 행을 인쇄합니다.

print(df.tail()) 

w3schools CERTIFIED . 2021

인증을 받으세요!

Pandas 모듈을 완료하고, 연습을 수행하고, 시험에 응시하면 w3schools 인증을 받게 됩니다!

$10 등록

데이터에 대한 정보

info()DataFrames 개체에는 데이터 세트에 대한 추가 정보를 제공하는 이라는 메서드가 있습니다.

예시

데이터에 대한 정보 인쇄:

print(df.info()) 

결과

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

결과 설명

결과는 169개의 행과 4개의 열이 있음을 알려줍니다.

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

데이터 유형이 있는 각 열의 이름:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

널 값

info()방법은 또한 각 열에 Null이 아닌 값이 몇 개 있는지 알려주고 데이터 세트에서 "Calories" 열에 Null이 아닌 값 169개 중 164개가 있는 것처럼 보입니다.

어떤 이유로든 "칼로리" 열에 값이 전혀 없는 5개의 행이 있음을 의미합니다.

빈 값 또는 Null 값은 데이터를 분석할 때 좋지 않을 수 있으므로 빈 값이 있는 행을 제거하는 것을 고려해야 합니다. 이것은 데이터 정리 라고 하는 것을 향한 단계이며 다음 장에서 이에 대해 자세히 알아볼 것입니다.