DEV Community

techninomart
techninomart

Posted on

Pandas 라이브러리를 활용한 데이터 분석 기초

Pandas는 Python에서 데이터 분석을 쉽게 할 수 있도록 도와주는 라이브러리다. 엑셀이나 CSV 파일을 다루거나, 데이터 정제 및 변환을 수행할 때 매우 유용하다. 이 글에서는 Pandas의 기본적인 사용법을 소개하고, 데이터 분석을 시작하는 데 필요한 핵심 개념을 설명하려고 한다.

Pandas 설치 및 기본 설정

Pandas를 사용하려면 먼저 라이브러리를 설치해야 한다. Python 환경이 준비되어 있다면 pip을 이용해 간단하게 설치할 수 있다.

1. Pandas 설치하기

Pandas는 pip 명령어로 설치할 수 있다. 터미널이나 명령 프롬프트에서 다음 명령어를 실행하면 된다.

pip install pandas
Enter fullscreen mode Exit fullscreen mode

설치가 완료되면 Pandas를 정상적으로 사용할 수 있는지 확인해보자.

import pandas as pd
print(pd.__version__)
Enter fullscreen mode Exit fullscreen mode

이렇게 하면 Pandas의 버전이 출력될 것이다. 정상적으로 출력되면 설치가 완료된 것이다.

2. 데이터프레임(DataFrame)과 시리즈(Series)

Pandas에서는 데이터를 다룰 때 기본적으로 두 가지 구조를 사용한다.

  • Series: 1차원 데이터 구조로, 리스트나 배열과 유사하다.
  • DataFrame: 2차원 테이블 형태의 데이터 구조로, 엑셀 스프레드시트와 유사하다.

예제를 통해 각각의 구조를 살펴보자.

import pandas as pd

# Series 생성
s = pd.Series([1, 2, 3, 4, 5])
print(s)

# DataFrame 생성
data = {
    '이름': ['홍길동', '김철수', '이영희'],
    '나이': [25, 30, 28],
    '도시': ['서울', '부산', '인천']
}
df = pd.DataFrame(data)
print(df)
Enter fullscreen mode Exit fullscreen mode

Pandas로 데이터 다루기

Pandas를 사용하면 데이터 필터링, 정렬, 그룹화 등의 다양한 기능을 쉽게 수행할 수 있다.

1. 데이터 불러오기

CSV 파일을 Pandas DataFrame으로 불러오는 방법을 알아보자.

df = pd.read_csv('data.csv')
print(df.head())  # 상위 5개 데이터 출력
Enter fullscreen mode Exit fullscreen mode

이 명령어를 실행하면 CSV 파일의 데이터를 불러와 DataFrame 형태로 저장한다.

2. 데이터 정제 및 변환

데이터 분석을 하기 전에, 결측값(NaN)을 처리하거나 데이터 형식을 변환하는 것이 중요하다.

# 결측값 확인
df.isnull().sum()

# 결측값 채우기
df.fillna(0, inplace=True)

# 데이터 타입 변경
df['나이'] = df['나이'].astype(int)
Enter fullscreen mode Exit fullscreen mode

3. 데이터 필터링 및 선택

특정 조건에 맞는 데이터를 선택하는 방법을 알아보자.

# 나이가 30 이상인 행만 선택
filtered_df = df[df['나이'] >= 30]
print(filtered_df)

# 특정 열만 선택
print(df[['이름', '도시']])
Enter fullscreen mode Exit fullscreen mode

4. 데이터 정렬 및 그룹화

데이터를 정렬하거나 특정 기준으로 그룹화하는 방법도 많이 사용된다.

# 나이 기준으로 정렬
df.sort_values(by='나이', ascending=False, inplace=True)
print(df)

# 도시별 평균 나이 계산
print(df.groupby('도시')['나이'].mean())
Enter fullscreen mode Exit fullscreen mode

Pandas를 활용한 간단한 데이터 분석

Pandas를 활용하면 데이터 분석을 쉽게 수행할 수 있다. 예를 들어, 특정 열의 평균, 최대/최소값 등을 계산하는 것이 가능하다.

# 기본적인 통계 값 확인
print(df.describe())

# 특정 열의 평균값 계산
print(df['나이'].mean())
Enter fullscreen mode Exit fullscreen mode

데이터 시각화를 위해 Matplotlib과 함께 사용하면 더욱 유용하다.

import matplotlib.pyplot as plt

df['나이'].hist()
plt.xlabel('나이')
plt.ylabel('빈도')
plt.show()
Enter fullscreen mode Exit fullscreen mode

Pandas를 활용한 데이터 분석의 가능성

Pandas는 단순한 데이터 처리부터 통계 분석, 머신러닝 전처리까지 다양한 용도로 활용할 수 있다. CSV, Excel, SQL 등 여러 형식의 데이터를 손쉽게 불러오고 처리할 수 있어 데이터 분석을 시작하기에 적합하다.

하지만 대용량 데이터를 처리할 때는 성능 이슈가 발생할 수 있으므로, 적절한 최적화 기법을 적용하는 것이 필요하다. 또한, Pandas의 기본 기능뿐만 아니라 NumPy, Matplotlib과 함께 사용하면 더욱 강력한 분석 도구로 활용할 수 있다.

데이터 분석을 시작하려면 Pandas의 다양한 기능을 직접 실습해보는 것이 중요하다. 실제 데이터를 다뤄보면서 필요한 기능을 익히고, 자신만의 분석 스타일을 만들어 가보자.

Top comments (0)