# pd.read_excel('파일경로/파일명.확장자')
# 엑셀 불러오기
pd.read_excel('./파일명.xlsx') # ./ → 현재 내가 있는 위치라는 의미
# csv 파일 불러오기
pd.read_csv('./파일명.csv')
<aside>
✅ 데이터 저장 시 인덱스를 포함해서 저장했을 때
index_col=0 사용pd.read_csv("data.csv", index_col = 0)
</aside>
pd.to_csv('파일경로/파일명.확장자', index = False)pd.to_excel('파일경로/파일명.확장자' , index = False)df = 데이터프레임 # 저장하고 싶은 데이터
df.to_csv('temp/newfile.csv', index = False) #temp라는 폴더 안에 csv 파일 생성
df.to_excel('temp/newfile.xlsx', index = False) #temp라는 폴더 안에 excel 파일 생성
인덱스 예시
기본 인덱스
Pandas는 기본적으로 0부터 시작하는 정수 인덱스 제공
이는 데이터 프레임을 생성할 때 자동으로 부여되는 인덱스
import pandas as pd
# 기본 정수 인덱스를 가진 데이터프레임 생성
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
사용자 지정 인덱스
사용자가 직접 설정하는 인덱스
# 사용자가 직접 인덱스를 설정한 데이터 프레임 생성
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}, index = ['idx1', 'idx2', 'idx3'])
인덱스 활용하기
인덱스를 활용하여 데이터에 접근하거나 조작 가능
# 특정 인덱스의 행에 접근
row = df.loc['idx2']
sort_index() : 인덱스 기준으로 정렬
# 인덱스를 기준으로 데이터프레임 정렬
sorted_df = df.sort_index()
set_index : 특정 컬럼에 들어있는 값을 인덱스로 활용
# df가 가지고 있는 특정 컬럼명을 기준으로 인덱스를 설정
data = df.set_index('컬럼명')
# 불러올때 인덱스 지정
pd.read_csv('./data/file.csv' , index_col = '컬럼정보')
pd.read_csv('./data/file.csv' , index_col = 0) # 0부터 시작
df.index : 인덱스 조회 가능
#인덱스 확인하기
data.index
#조회한 인덱스에 새로운 인덱스 입력
data.index = ['1번' , '2번' , '3번']
data
reset_index() : 인덱스를 기존 값으로 설정
# reset_index() 의 기본 값은 drop = False 를 가지고 있음
data.reset_index()
# reset_index(drop = True) 명령어를 활용하면,
# 현재 인덱스 값을 컬럼으로 변경하지 않고 인덱스를 초기화
data.reset_index(drop=True)
추가 설명
컬럼(Column)
예시
import pandas as pd
# 데이터프레임 생성
data = {
'이름': ['Alice', 'Bob', 'Charlie'],
'나이': [25, 30, 35],
'성별': ['여', '남', '남']
}
df = pd.DataFrame(data)
# 각 컬럼 출력
print(df['이름']) # '이름' 컬럼 출력
print(df['나이']) # '나이' 컬럼 출력
print(df['성별']) # '성별' 컬럼 출력
데이터프레임.columns : 컬럼 확인
#컬럼 확인하기
data.columns
#컬럼명 새로 입력
data.column = ['축구', '농구', '배구', '야구']
data
df.rename(columns={’원래_컬럼명’ : ‘변경할_컬럼명’}) : 컬럼 이름 변경
# 하나의 컬럼명 수정
data = data.rename(columns = {'축구': 'soccer'})
# 여러 개의 컬럼명 수정
data = data.rename(columns = {'농구': 'basketball', '배구': 'volleyball'})
컬럼 추가 및 삭제
# 컬럼 추가 기본 구조
data['컬럼명'] = '추가된_컬럼에_넣을_값'
# 컬럼 삭제 기본 구조
del data['삭제할_컬럼명']
# 컬럼 추가 - 스포츠 컬럼을 추가하고 스포츠 컬럼의 모든 행에 '축구' 추가
df['스포츠'] = '축구'
# 컬럼 삭제
del df['스포츠']