반응형

빅데이터 2

[excel, R] 100만행이 넘는 자료도 피벗테이블을 그릴 수 있다.

안녕하세요. 슬기로운 직장생활 블로그 운영자 입니다. 100만행이 넘는 자료를 R로 읽어들이는 방법을 소개해드린적 있습니다. data.table페키지의 fread를 통한 방법이었죠, 여러개의 파일을 읽어야 하는 경우에는 lapply를 사용한 다음 rbindlist를 통해 처리할 수 있었습니다. 그럼 이번에는 reshape2, dplyr 페키지를 이용하여 r로 피벗테이블을 그리고 이것을 출력하는 방법을 배워보겠습니다. reshape2 , dplyr, data.table 패키지를 설치한다. 패키지를 불러온다. csv로 저장한 데이터를 읽어온다. (여러개로 나눠져 있으면 rbindlist로 합친다.) dcast, melt 함수를 사용해서 피벗테이블을 그린다. write.table 함수를 사용해서 피벗테이블을 ..

R로 백만행이 넘는 자료 다루기(Excel은 못해요)#1

백만행이 넘는 자료를 불러오려면 우선 R의 fread함수를 사용하면 좋다. data.table 패키지를 설치하면 fread, fwrite 등의 좋은 함수를 쓸 수 있다. r에서 고전적으로 파일을 불러오는 방식은 read.table, read.csv 같은 함수를 사용하는 것이지만.. 빅데이터를 불러오는데는 시간이 많이 걸려서 fread, fwrite함수를 많이 사용하게 된다. fread함수 사용법은 다음과 같다. step1. 100만개가 넘는 수백만 개의 자료를 각각의 csv파일로 저장한다. step 2. 그 파일을 하나의 폴더에 모으고 작업공간으로 설정한다. step3. 반복 함수나 lapply 같은 함수를 사용하여 fread를 사용하여 파일을 읽어서 r에 저장한다. step4. r의 함수인 rbindl..

카테고리 없음 2020.10.03
반응형