데이터 분석 (8) 썸네일형 리스트형 11 - 코테 pandas의 자료구조 Series와 DataFrame 엑셀의 내부 data 가공 -> pandas 전체적인 표, 전체적인 data를 읽어오고 내가 원하는대로 가공할 수 있다. pandas는 핵심라이브러리로, 고유한 자료구조인 Series와 Dataframe으로 빅데이터 분석에 높은 수준의 퍼포먼스를 발휘. Series : 각 열(column)의 단위 Dataframe : 각 열 단위(Series)가 모여 된 하나의 표를 Dataframe index : Series, Dataframe을 생성하면 인덱싱 번호가 따라다닌다. 인덱스는 Series가 아니다. 위 이미지에는 숫자로 되어있지만 내가 원하는 인덱스 형태로 변경할 수 있다. Series와 Dataframe는 numpy의 1차원과 2차원 array와 .. 한국 복지 패널 데이터분석 https://www.koweps.re.kr 가구의 경제활동을 연구해 정책 지원에 반영할 목적으로 발간하는 조사자료이다. 전국에서 7000여 가구를 선정해 조사한 자료로 경제활동, 생활실태, 복지욕구 등 다양한 변수를 담고있다. 이 데이터를 분석하면 대한민국 사람들이 어떻게 살아가는지 알 수 있다. 데이터 분석 준비하기 install.packages("foreign") spss에서 작성된 파일을 불러올 수 있는 foreign 패키지 library(foreign) foreign 패키지 로드 install.packages("dplyr") 전처리에 필요한 dplyr 패키지 설치 library(dplyr) dplyr 패키지 로드 install.package("ggplot2") 시각화에 필요한 ggplot2 패키.. R 데이터 분석 - 데이터 시각화 (2) ggplot2 는 그래프를 만들 때 가장 많이 사용하는 패키지이다. 시각화 패키지 1순위 그래프를 그릴떄 기본적으로 배경의 틀을 만들고 그 위에 점, 선, 막대같은 그래프를 추가 또 그 위에 축 범위, cex 표시같은 설정을 추가 install.packages("ggplot2") library(ggplot2) 그래프 기본 틀 만들기 ggplot(데이터 세트, aes(데이터 속성)) mpg 데이터로 그래프를 그려보자 x축은 dispal, y축은 hwy로 지정해 기본 틀 설정ggplot(mpg, aes(x = dispal, y = hwy)) aes(x축에 들어갈 데이터, y축에 들어갈 데이터) 산점도 만들기 geom_point : 산점도 그래프 배경에 산점도 추가 + 를 이용해 계속 함수 추가 엔터로 밑으로.. R 데이터 분석 - 데이터 시각화 13 -1 그래프 r에서 기본으로 제공하는 plot() 함수와 ggplot2 패키지를 이용하는 방법이 있다. plot(x, y, 옵션) 산점도를 그릴 때 사용하는 함수 산점도) 주어진 데이터를 점으로 표시해서, 흩어뿌리듯 시각화한 차트 데이터 분포를 한눈에 볼 수 있다 x : x축 데이터 y : y축 데이터 옵션 : main = 그래프 제목, sub = 그래프 부제목, xlab = x축제목, ylab = y축제목, type = plot의 형태 axes = plot의 테두리선 col = plot의 색상 . 그래프 기본 - 1 age R 데이터 분석 실습 - mtcars 데이터, mpg 데이터, ggplot2 패키지 R에 기본 내장되어 있는 mtcars 데이터를 분석해보자. 실습에 사용할 mtcars는 1974년 자동차 트렌드에서 발췌한 내용으로 연비와 관련된 변수 11개와 자동차 모델 32 종에 대한 정보를 가지고 있습니다. 1. 데이터의 기초분석을 수행해보세요. View() 창, str() 속성, dim(), ls() 등 View(mtcars) str(mtcars) dim(mtcars) ls(mtcars) 2. 데이터 분석을 위해 dplyr 패키지를 설치하고 로드해보세요. install.packages("dplyr") library(dplyr) 3. mtcars 데이터에서 cyl(실린더 개수) 값이 4인 자동차만 추출해보세요. mtcars %>% filter(cyl == 4) # select 아님, 행 추출 fi.. R 데이터 분석 - 데이터 가공 (2) 데이터 합치기 중간고사 데이터 생성 R - 열 우선 test1 R 데이터 분석 - 데이터 가공 (feat. dplyr 데이터) 데이터 가공 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 bind_rows() 데이터 합치기 (행) left_join() 데이터 합치기 (열) group_by() 집단별로 나누기 summarise() 통계치 산출 dplyr 은 데이터 전처리에 가장 많이 사용되는 패키지이다. install.packages("dplyr") library(dplyr) 작업 디렉토리를 r1 으로 설정 r에서 파일을 읽거나 쓸 때 기본적으로 사용되는 폴더 setwd("c://r1") "csv_exam.csv" 라는 파일을 읽어와 exam 이라는 변수에 저장하라는 명령 "csv_exam.csv" 파일은 쉼표로 구분된 데이터가 포함된 csv 파일 exam % filter.. R 데이터 분석 - 데이터 가공 (feat. mpg 데이터) 데이터 가공이란 데이터를 추출하거나 여러 데이터를 합치는 등 주어진 데이터를 분석에 적합하게 만드는 것 = 데이터 전처리 데이터를 파악할 때 사용하는 함수들 head() - 데이터 앞부분 출력 tail() - 데이터 뒷부분 출력 View() - 뷰어창에서 데이터 확인 dim() - 데이터 차원 출력 str() - 데이터 속성 출력 summary() - 요약 통계량 출력 ls() - 변수 항목을 리스트로 출력 ggplot2 패키지에 내장된 mpg 데이터를 이용 mpg 데이터 : 데이터 234행, 11열로 구성됨, 하나의 행이 자동차 한 종에 대한 정보 mpg 데이터 파악하기 ggplot2 패키지에 내장된 mpg 데이터 이용 install.packages("ggplot2") library(ggplot2) m.. 이전 1 다음