Pandas

Pandas 판다스
데이터 분석과 처리를 쉽게 할 수 있게 도와주는 파이썬 라이브러리

시리즈(Series) : 리스트와 딕셔너리 두 가지의 장점을 섞어놓은 듯한 자료구조
데이터 프레임(DataFrame) : Row와 Column으로 이뤄진 2차원 형태의 자료구조. 시리즈(Series)의 결합체
넘파이배열 < 시리즈 < 데이터 프레임
엑셀과 같은 구조를 가졌다고 생각함

판다스 패키지 필요

import pandas as pd

시리즈(Series)를 활용한 데이터 생성
: 1차원 데이터

Series 데이터를 출력하면 데이터 앞에 index가 함께 표시됨.

s의 인덱스만 표시

s.index

✅ 출력 결과
RangeIndex(start=0, stop=5, step=1)

# 인덱스 범위에 대한 설명
# 시작 ~ 마지막 -1 , 간격

이렇게 결과 내용을 처음엔 뭔 소린가 했음.. 지금쯤이니 그나마(?) 겨우 뭘 이야기하는지 파악함

s.values

✅ 출력결과
array([10, 20, 30, 40, 50])

딕셔너리로 이용하여 키(keys)와 값(values)이 데이터의 index와 values

s1 = pd.Series({'국어' : 100,
                '영어' : 95,
                '수학' : 85,
                '한국사' : 90})
s1

✅ 출력결과

국어     100
영어      95
수학      85
한국사     90
dtype: int64

데이터 프레임(DataFrame)을 활용한 데이터 생성
: 행과 열이 있는 2차원 데이터

# 기본 구조?>
df = pd.DataFrame(데이터 [인덱서 = 인덱스값 , 컬럼 = 컬럼데이터])

예시)

df = pd.DataFrame( [[1, 2, 3] , [4, 5, 6] ,[7, 8, 9]] )
df

✅ 출력 결과 : 인덱스와 컬럼값을 입력하지 않았지만 자동으로 생성

데이터 생성 시 인덱스와 컬럼명 설정 가능함.
인덱스 = ['A','B','C'] , 컬럼명 = ['ㄱ', 'ㄴ', 'ㄷ']으로 설정

pd.DataFrame( [[1, 2, 3] , [4, 5, 6] ,[7, 8, 9]], index = ['A','B','C'], columns = ['ㄱ','ㄴ','ㄷ'] )

✅ 출력 결과

딕셔너리를 이용하여 데이터 생성

# 일단 데이터 생성

data_li = {'연도' : ['2015','2016','2017','2017','2017'],
        '지사' : ['한국','한국','미국','한국','미국'],
        '고객 수' : ['200','250','450','300','500']}

# 데이터 프레임으로 생성
df = pd.DataFrame(data_li)
df

✅ 출력 결과

여기까지 ㅡ 이것보다 더 활용 많이 되지만 눈이 너무 아픔... 너무 오래 모니터 들여다본 듯...

728x90

'파이썬(Python) > 데이터 분석' 카테고리의 다른 글

DataFrame - 수정 (U)_rename (0)	2022.08.30
DataFrame - 수정(U) (0)	2022.08.29
DataFrame - 삭제(D) (0)	2022.08.29
DataFrame - 컬럼의 집계함수 (0)	2022.08.29
NumPy (0)	2022.08.08

뚱구리 기록실

Pandas

'파이썬(Python) > 데이터 분석' 카테고리의 다른 글

티스토리툴바

Pandas

'파이썬(Python) > 데이터 분석' 카테고리의 다른 글

관련글

티스토리툴바