본문 바로가기
클래스 리뷰/21.06 K-Digital Training AI 데이터 사이언티스트 과

Numpy, Pandas, Seaborn

by 직_장인 2023. 2. 22.

1. Numpy(수치계산)

1-1. universal function

numpy array는 vector처럼 사용할 수 있다.

대부분의 데이터 분석 라이브러리들이 벡터를 사용한다.

데이터 분석 시 데이터를 벡터로 표현하는데, 벡터가 numpy array로 표현되기 때문에 중요하다.

broadcase : 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcase) 해주는 기능이다.
universal function : 하나의 함수를 모든 원소에 자동으로 적용해주는 기능이다.

1-2. Masking

indexing : list에서의 indexing과 동일한 방법이다.
masking
ex) data[ : , : ]
이런 식으로 data['raw 검색 조건', 'column 검색 조건']으로 데이터 추출이 가능하다.

1-3. Reshaping

x = np.arange(1, 10) # 1~9까지 숫자 나열
x.reshape(3, 3) # 3, 3 행렬로 정렬,  
# (-1, 3) 같이 -1을 같이 쓰면 명확한 3을 먼저 계산하고 나머지로 -1 부분을 계산함.

1-4. 추가로 알아두면 좋은 내용

concatenation : np.vstack(), np.hstack()
aggregation functions
-> universal function 기능을 사용해서 연산하는 것이 편하고 빠르기 때문에 잘 활용해야 한다
내장함수가 어떻게 구현되어있는지 확인하는게 도움이 된다.

 

2. Pandas(데이터 분석)

2-1. Pandas의 기본 자료구조

Series
Dataframe

2-2. Indexing

df['column'] : column 검색
df.loc['index'] : row 검색
df.iloc['index_number'] : index 위치로 검색(= row 위치 검색)

2-3. Slining

Slicing에서는 loc나 iloc를 쓰지 않아도 index 이름으로 slicing 가능. column은 위치로 검색 가하다.
ex) df.loc['1:2', ['A', 'B']]

 

3. Seaborn(시각화)

3-1. Seaborn이란?

matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리로 Pandas의 DataFrame과 호환이 잘 된다.

3-2. 연습 예제(Seaborn의 'penguins'데이터 사용)

아래 코드로 'penguins' 데이터를 불러온다.

penguins = sns.load_dataset('penguins')
penguins

1). Histplot

sns.histplot(data = penguins, x='flipper_length_mm', hue='species', multiple='stack')

2). Boxplot

sns.boxplot(data=penguins, x='body_mass_g', y='species', hue='sex')

3). Scatterplot

sns.scatterplot(data=penguins, x='bill_length_mm', y='bill_depth_mm', hue='sex')

4). Pairplot

sns.pairplot(data=penguins, hue='island')

댓글