2. [Pandas] 컬럼, 데이터 확인

1. 데이터 불러오기 / 저장하기

1) 데이터 불러오기

# pd.read_excel('파일경로/파일명.확장자')

# 엑셀 불러오기
pd.read_excel('./파일명.xlsx') # ./ → 현재 내가 있는 위치라는 의미

# csv 파일 불러오기
pd.read_csv('./파일명.csv')

<aside>

✅ 데이터 저장 시 인덱스를 포함해서 저장했을 때

불러올 때 index_col=0 사용

pd.read_csv("data.csv", index_col = 0)

</aside>

2) 데이터 저장하기

pd.to_csv('파일경로/파일명.확장자', index = False)
pd.to_excel('파일경로/파일명.확장자' , index = False)

df = 데이터프레임 # 저장하고 싶은 데이터

df.to_csv('temp/newfile.csv', index = False) #temp라는 폴더 안에 csv 파일 생성
df.to_excel('temp/newfile.xlsx', index = False) #temp라는 폴더 안에 excel 파일 생성

3) 인덱스

인덱스 예시

기본 인덱스
- Pandas는 기본적으로 0부터 시작하는 정수 인덱스 제공
- 이는 데이터 프레임을 생성할 때 자동으로 부여되는 인덱스
```
import pandas as pd

# 기본 정수 인덱스를 가진 데이터프레임 생성
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']})
```

사용자 지정 인덱스

사용자가 직접 설정하는 인덱스

# 사용자가 직접 인덱스를 설정한 데이터 프레임 생성
df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}, index = ['idx1', 'idx2', 'idx3'])

인덱스 활용하기

인덱스를 활용하여 데이터에 접근하거나 조작 가능
```
# 특정 인덱스의 행에 접근
row = df.loc['idx2']
```

sort_index() : 인덱스 기준으로 정렬

# 인덱스를 기준으로 데이터프레임 정렬
sorted_df = df.sort_index()

set_index : 특정 컬럼에 들어있는 값을 인덱스로 활용

# df가 가지고 있는 특정 컬럼명을 기준으로 인덱스를 설정
data = df.set_index('컬럼명') 

# 불러올때 인덱스 지정
pd.read_csv('./data/file.csv' , index_col = '컬럼정보') 
pd.read_csv('./data/file.csv' , index_col = 0) # 0부터 시작

df.index : 인덱스 조회 가능

#인덱스 확인하기
data.index

#조회한 인덱스에 새로운 인덱스 입력
data.index = ['1번' , '2번' , '3번']
data

reset_index() : 인덱스를 기존 값으로 설정

# reset_index() 의 기본 값은 drop = False 를 가지고 있음
data.reset_index()

# reset_index(drop = True) 명령어를 활용하면,
# 현재 인덱스 값을 컬럼으로 변경하지 않고 인덱스를 초기화
data.reset_index(drop=True)

추가 설명

2. 컬럼

컬럼(Column)
- 데이터 프레임의 열을 나타냄
- 데이터 프레임은 행과 열로 구성되며, 각 열은 서로 다른 종류의 데이터를 담고 있음
- 데이터 프레임의 세로 방향에 있는 데이터들을 컬럼이라고 부름

예시

import pandas as pd

# 데이터프레임 생성
data = {
    '이름': ['Alice', 'Bob', 'Charlie'],
    '나이': [25, 30, 35],
    '성별': ['여', '남', '남']
}

df = pd.DataFrame(data)

# 각 컬럼 출력
print(df['이름'])  # '이름' 컬럼 출력
print(df['나이'])  # '나이' 컬럼 출력
print(df['성별'])  # '성별' 컬럼 출력

데이터프레임.columns : 컬럼 확인

#컬럼 확인하기
data.columns

#컬럼명 새로 입력
data.column = ['축구', '농구', '배구', '야구']
data

df.rename(columns={’원래_컬럼명’ : ‘변경할_컬럼명’}) : 컬럼 이름 변경

# 하나의 컬럼명 수정
data = data.rename(columns = {'축구': 'soccer'}) 

# 여러 개의 컬럼명 수정
data = data.rename(columns = {'농구': 'basketball', '배구': 'volleyball'})

컬럼 추가 및 삭제

# 컬럼 추가 기본 구조
data['컬럼명'] = '추가된_컬럼에_넣을_값'
# 컬럼 삭제 기본 구조
del data['삭제할_컬럼명']

# 컬럼 추가 - 스포츠 컬럼을 추가하고 스포츠 컬럼의 모든 행에 '축구' 추가
df['스포츠'] = '축구'
# 컬럼 삭제 
del df['스포츠']