프로그래밍/Python

[Python 강의] 14강 - 다양한 데이터 분석 기법

월횽 2024. 10. 17. 06:30
728x90
반응형
SMALL

안녕하세요! 그레이 해커 월횽입니다. 오늘은 Python을 활용한 다양한 데이터 분석 기법에 대해 알아보겠습니다. Python은 데이터 분석에 최적화된 다양한 라이브러리와 도구를 제공하며, 데이터를 다루고 분석하는 데 널리 사용됩니다. 이번 강의에서는 기본적인 데이터 처리 기법부터 통계적 분석, 시각화에 이르기까지 다양한 기법을 살펴보겠습니다.

 

 

1. 데이터 분석을 위한 주요 라이브러리

데이터 분석에서 가장 중요한 것은 데이터를 효율적으로 처리하고 분석할 수 있는 도구를 사용하는 것입니다. Python에서는 다음과 같은 라이브러리가 널리 사용됩니다.

728x90

· NumPy: 고성능 수치 계산을 위한 라이브러리. 다차원 배열 객체를 제공.
· Pandas: 데이터 조작 및 분석을 위한 강력한 라이브러리. DataFrame 구조를 이용해 테이블 형태의 데이터를 쉽게 처리.
· Matplotlib: 데이터를 시각화하는 데 사용되는 가장 기본적인 시각화 도구.
· Seaborn: 통계적 데이터 시각화를 위한 고급 도구. Matplotlib를 기반으로 더 간결하고 쉽게 시각화 가능.
· Scikit-learn: 머신러닝 및 데이터 분석을 위한 라이브러리.

 

 

2. NumPy를 활용한 데이터 처리

NumPy는 Python에서 다차원 배열을 효율적으로 처리하는데 유용한 도구입니다. 수학적 계산이나 행렬 연산에 자주 사용됩니다.

 

NumPy 배열 생성

import numpy as np

# 1차원 배열 생성
array = np.array([1, 2, 3, 4])
print(array)

# 2차원 배열 생성
matrix = np.array([[1, 2], [3, 4]])
print(matrix)

 

반응형

배열 연산

# 배열의 요소별 연산
print(array + 10)  # [11, 12, 13, 14] 출력

 

 

 

3. Pandas를 활용한 데이터 분석

Pandas는 DataFrame이라는 2차원 데이터 구조를 이용해 데이터를 쉽게 처리하고 분석할 수 있는 도구입니다. 엑셀 시트와 비슷한 형태로 데이터를 다룰 수 있습니다.

 

DataFrame 생성

import pandas as pd

# 데이터 생성
data = {'Name': ['John', 'Anna', 'Peter'],
        'Age': [28, 24, 35],
        'City': ['New York', 'Paris', 'Berlin']}

# DataFrame 생성
df = pd.DataFrame(data)
print(df)

 

SMALL

데이터 필터링 및 선택

# 특정 열 선택
print(df['Name'])

# 조건에 맞는 행 선택
print(df[df['Age'] > 30])

 

 

 

4. Matplotlib를 활용한 데이터 시각화

Matplotlib는 데이터를 차트나 그래프로 시각화하는 가장 기본적인 도구입니다. 데이터를 더 직관적으로 이해하는 데 큰 도움을 줍니다.

 

간단한 그래프 그리기

import matplotlib.pyplot as plt

# 데이터 생성
x = [1, 2, 3, 4]
y = [10, 20, 25, 30]

# 그래프 그리기
plt.plot(x, y)
plt.xlabel('X축')
plt.ylabel('Y축')
plt.title('간단한 선 그래프')
plt.show()

 

 

 

5. Seaborn을 활용한 고급 시각화

Seaborn은 통계적 시각화에 강점이 있는 라이브러리입니다. 데이터의 패턴을 파악하고 통계적 관계를 시각화하는 데 유용합니다.

히트맵(Heatmap) 생성 예시

import seaborn as sns
import numpy as np

# 데이터 생성
data = np.random.rand(10, 12)

# 히트맵 그리기
sns.heatmap(data, annot=True)
plt.show()

 

 

 

6. Scikit-learn을 활용한 데이터 분석

Scikit-learn은 머신러닝과 데이터 분석을 위한 다양한 도구를 제공합니다. 회귀분석, 분류, 군집화 등 다양한 기법을 쉽게 구현할 수 있습니다.

 

선형 회귀 분석 예시

from sklearn.linear_model import LinearRegression
import numpy as np

# 데이터 생성
X = np.array([[1, 1], [2, 2], [3, 3]])
y = np.array([1, 2, 3])

# 모델 생성 및 학습
model = LinearRegression()
model.fit(X, y)

# 예측
pred = model.predict(np.array([[4, 4]]))
print(pred)  # [4.] 출력

 

 

 

7. 다양한 데이터 분석 기법 정리

· NumPy: 수치 연산과 배열 처리를 위한 도구.
· Pandas: 데이터 분석을 위한 데이터프레임 구조.
· Matplotlib: 데이터를 시각화하는 기본 도구.
· Seaborn: 통계적 시각화에 강한 도구.
· Scikit-learn: 머신러닝과 데이터 분석을 위한 강력한 도구.

 

다음 시간에는 Python을 활용한 웹 스크래핑 기법에 대해 알아보겠습니다!

 

 

 

 

 

- 이전 수업 목록

 

 

 

 

 

 

 

 

 

 

 

 

728x90
반응형
LIST