데이터 관련 공부 자료/데이터 전처리 및 시각화

[데이터 전처리 & 시각화] Pandas 알아보기, 인덱스 이해

뜌비뜌바밥 2024. 9. 11. 20:40
Pandas  라이브러리 설치
  • pandas 라이브러리 설치를 위해서는 터미널 창에 코드를 작성해 주어야 함
  • 터미널 창 여는 법 : shift+ctrl+~ 한 번에 눌러주기
  • 터미널 창에 아래의 코드 작성
pip install pandas

 

데이터 불러오기/저장하기

 

1. 데이터 불러오기

  • csv 파일 불러오기
#csv 파일 불러오기
#index_col=0은 인덱스 표기 하지 않고 불러오기임
df = pd.read_csv("파일명.csv", index_col=0)

 

2. 데이터 저장하기

#파일 경로 + 파일명으로 저장하는 경우
df.to_csv("temp/tips_data.csv", index=False)

#엑셀 파일로 저장하기
df.to_excel("temp/tips_data.xlsx", index=False)
#현재 지정된 폴더에 저장
#index에 대한 정보를 넣지 않으면 기본으로 index가 포함되게 되어 있음
#index를 포함하고 싶지 않다면 index=False 적어주기
저장하고 싶은 데이터 이름.to_csv("저장하고 싶은 파일명.csv", index=False)
  • 경로 + 파일명을 기재해주면 되나, 현재 파일에 저장하고 싶은 경우 파일명만 적어주면 됨
  • index 포함 여부에 따라 True, False 기재해주기. 기본 값은 True임(True인 경우 생략 가능)

  ⚠️ 엑셀 파일로 저장이 되지 않거나, 안 열리는 경우 

  • 터미널 창 열기
  • 아래 코드 작성 후 실행
pip install openpyxl

 

인덱스(index)
  • 데이터 프레임 또는 시리즈의 각 행 또는 각 요소에 대한 식별자
    • DataFrame 자료 구조에도 인덱스 설정 가능
    • 숫자 뿐만 아니라 문자로 적용 가능

1. 인덱스 지정하기

#index 설정하기
df.set_index(값)

 

2. 인덱스 확인하기

#index 확인하기
df.index

 

3. 인덱스 변경하기

#인덱스 값을 원하는 값으로 변경하기
df.index = ['ㄱ', 'ㄴ','ㄷ']
df

 

4. 인덱스 원래대로 변경하기

#index 원래대로 변경하기
df.reset_index(drop=True)

 

5. index를 활용한 데이터 선택

#index를 사용하여 데이터 선택하기
df.loc['인덱스 이름']

 

6. index를 활용한 데이터 정렬

#index를 기준으로 정렬하기
df.sort_index()