Pandas는 Python에서 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리다. 엑셀이나 CSV 파일을 다루거나, 데이터 정제 및 변환을 수행할 때 매우 유용하다. 이 글에서는 Pandas의 기본적인 사용법을 소개하고, 데이터 분석을 시작하는 데 필요한 핵심 개념을 설명하려고 한다.
Pandas 설치 및 기본 설정
Pandas를 사용하려면 먼저 라이브러리를 설치해야 한다. Python 환경이 준비되어 있다면 pip
을 이용해 간단하게 설치할 수 있다.
1. Pandas 설치하기
Pandas는 pip
명령어로 설치할 수 있다. 터미널이나 명령 프롬프트에서 다음 명령어를 실행하면 된다.
pip install pandas
설치가 완료되면 Pandas를 정상적으로 사용할 수 있는지 확인해보자.
import pandas as pd
print(pd.__version__)
이렇게 하면 Pandas의 버전이 출력될 것이다. 정상적으로 출력되면 설치가 완료된 것이다.
2. 데이터프레임(DataFrame)과 시리즈(Series)
Pandas에서는 데이터를 다룰 때 기본적으로 두 가지 구조를 사용한다.
- Series: 1차원 데이터 구조로, 리스트나 배열과 유사하다.
- DataFrame: 2차원 테이블 형태의 데이터 구조로, 엑셀 스프레드시트와 유사하다.
예제를 통해 각각의 구조를 살펴보자.
import pandas as pd
# Series 생성
s = pd.Series([1, 2, 3, 4, 5])
print(s)
# DataFrame 생성
data = {
'이름': ['홍길동', '김철수', '이영희'],
'나이': [25, 30, 28],
'도시': ['서울', '부산', '인천']
}
df = pd.DataFrame(data)
print(df)
Pandas로 데이터 다루기
Pandas를 사용하면 데이터 필터링, 정렬, 그룹화 등의 다양한 기능을 쉽게 수행할 수 있다.
1. 데이터 불러오기
CSV 파일을 Pandas DataFrame으로 불러오는 방법을 알아보자.
df = pd.read_csv('data.csv')
print(df.head()) # 상위 5개 데이터 출력
이 명령어를 실행하면 CSV 파일의 데이터를 불러와 DataFrame 형태로 저장한다.
2. 데이터 정제 및 변환
데이터 분석을 하기 전에, 결측값(NaN)을 처리하거나 데이터 형식을 변환하는 것이 중요하다.
# 결측값 확인
df.isnull().sum()
# 결측값 채우기
df.fillna(0, inplace=True)
# 데이터 타입 변경
df['나이'] = df['나이'].astype(int)
3. 데이터 필터링 및 선택
특정 조건에 맞는 데이터를 선택하는 방법을 알아보자.
# 나이가 30 이상인 행만 선택
filtered_df = df[df['나이'] >= 30]
print(filtered_df)
# 특정 열만 선택
print(df[['이름', '도시']])
4. 데이터 정렬 및 그룹화
데이터를 정렬하거나 특정 기준으로 그룹화하는 방법도 많이 사용된다.
# 나이 기준으로 정렬
df.sort_values(by='나이', ascending=False, inplace=True)
print(df)
# 도시별 평균 나이 계산
print(df.groupby('도시')['나이'].mean())
Pandas를 활용한 간단한 데이터 분석
Pandas를 활용하면 데이터 분석을 쉽게 수행할 수 있다. 예를 들어, 특정 열의 평균, 최대/최소값 등을 계산하는 것이 가능하다.
# 기본적인 통계 값 확인
print(df.describe())
# 특정 열의 평균값 계산
print(df['나이'].mean())
데이터 시각화를 위해 Matplotlib과 함께 사용하면 더욱 유용하다.
import matplotlib.pyplot as plt
df['나이'].hist()
plt.xlabel('나이')
plt.ylabel('빈도')
plt.show()
Pandas를 활용한 데이터 분석의 가능성
Pandas는 단순한 데이터 처리부터 통계 분석, 머신러닝 전처리까지 다양한 용도로 활용할 수 있다. CSV, Excel, SQL 등 여러 형식의 데이터를 손쉽게 불러오고 처리할 수 있어 데이터 분석을 시작하기에 적합하다.
하지만 대용량 데이터를 처리할 때는 성능 이슈가 발생할 수 있으므로, 적절한 최적화 기법을 적용하는 것이 필요하다. 또한, Pandas의 기본 기능뿐만 아니라 NumPy, Matplotlib과 함께 사용하면 더욱 강력한 분석 도구로 활용할 수 있다.
데이터 분석을 시작하려면 Pandas의 다양한 기능을 직접 실습해보는 것이 중요하다. 실제 데이터를 다뤄보면서 필요한 기능을 익히고, 자신만의 분석 스타일을 만들어 가보자.
Top comments (0)