[빅데이터] 20200331 RStudio 설치, plot, 워드클라우드 ::

[빅데이터] 20200331 RStudio 설치, plot, 워드클라우드

GOGO치삼 2020. 3. 31. 17:07

2020. 3. 31. 17:07

RStudio 설치

프로젝트 폴더 설정하기

패키지 설치

프로젝트 실행

' ctrl + shift + c ' #여러줄 주석

다운로드 사이트 : http://kostat.go.kr/


# 작업 순서
# 1. 데이터 파일 읽기 : 6_101_DT_1B26001_A01_M.csv
# 2. '전국' 지역이 아닌 데이터만 추출
# 3. 행정구역 중 '구' 단위에 해당하는 행 번호 추출
# 4. '구' 지역 데이터 제외
# 5. 순이동 인구수가 0보다 큰지역 추출 
# 6. 단어(행정 구역) 할당
# 7. 워드클라우드 출력

# 1. 데이터 파일 읽기 : read.csv(file.choose(), header=T)
# 2. '전국' 지역이 아닌 데이터만 추출('전국' 지역 데이터 제외) : data[data$행정구역.시군구.별 != "전국", ]
# 3. 행정구역 중 '구' 단위에 해당하는 행 번호 추출 : grep("구$", data2$행정구역.시군구.별)
# 4. '구' 지역 데이터 제외 : <- data2[-c(x), ]
# 5. 순이동 인구수가 0보다 큰지역 추출 : data3[data3$순이동.명>0, ]
# 6. 단어(행정 구역) 할당 : data4$행정구역.시군구.별
# 7. 행정구역별 빈도 : data4$순이동.명
# 8. 워드클라우드 출력 : wordcloud()

data <- read.csv(file.choose(), header=T) # 모든 괄호가 .으로 변경된다.
View(data)
head(data)
names(data) # 데이터의 컬럼 확인

# ()가 R에서는 모두 .으로 바뀌어서 들어온다.
data2 <- data[data$행정구역.시군구.별 != "전국", ] # 전체 데이터$컬럼명 중에서 != "전국" 데이터가 아닌 것만 모두 선택


x <- grep("구$", data2$행정구역.시군구.별) # grep함수 : 지정 조건에 맞는 행 번호를 벡터로 반환(x: 구 관련 행번호만 저장)
data3 <- data2[-c(x),] # '구' 지역 데이터 제외

#전입자 수가 많은 지역
data4 <- data3[data3$순이동.명>0, ] # data3중 순이동.명 컬럼 중 0보다 큰애들만 추출
head(data4)

word<- data4$행정구역.시군구.별 # 워드클라우드작업을 위한 글자 데이터만 추출

frequency <- data4$순이동.명 # 숫자값으로 작업할 숫자 데이터만 추
View(frequency)

wordcloud(word,frequency,colors = pal2)

#연설문의 단어에 대한 워드 클라우드 만들기
install.packages("KoNLP")

install.packages("RColorBrewer")

install.packages("wordcloud")
library(rJava)

library(KoNLP)
library(RColorBrewer)
library(wordcloud)

KoNLP::useSejongDic()

pal2 <- brewer.pal(8, "Dark2")

text <- readLines(file.choose())#readLines:문서 내부를 엔터 기준으로 줄 단위로 잘읽어드리는 것

noun <- sapply(text, extractNoun, USE.NAMES = F) # extractNoun 이 명사를 찾아서 벡터로 저장하는 역할, sapply는 반환하는 역할
noun

# list 타입의 데이터를 수치형으로 변환
noun2 <- unlist(noun)
noun2

# p.221
word_count <- table(noun2) # 테이블을 하면 팩터로 바꿔준다. # 쪼개진 단어들의 갯수를 파악하여 테이블로 반환
word_count # 단어의 빈도수를 가지고 있음.

head(sort(word_count, decreasing = TRUE), 10) #정렬해주고 상위 10개만 꺼내온다.

wordcloud(names(word_count), # names 라는 함수를 이용해서 단어를 꺼내고
          freq=word_count,  # freq  옵션을 이용해서 글자나 숫자를 꺼낼 수 있다.
          scale=c(6,0.3),  # 가장 큰값을 6, 가장 작은 값을  0.3의 비율로 맞춘다.
          min.freq=3,      # 최소 빈도수를 3 이상으로 잡는다.(1이나 2는 표기하지않는다.)
          random.order = F, # 실행할때마다 위치 변경
          rot.per = .1,     # 회전 각도값을 0.1 비율로 회전시킨다.
          colors=pal2)      # 글자 색 변경

저작자표시 비영리 변경금지

':: IT > R' 카테고리의 다른 글

[빅데이터] 전처리 작업, 오라클 연결, xml/json 다루는 방법, Markdown (0)	2020.04.07
[빅데이터]20200402 데이터 전처리 (0)	2020.04.06
[빅데이터] 텍스트 마이닝, 등 (0)	2020.04.03
[빅데이터] 20200401 qplot, 데이터 프레임, 외부데이터 이용, 데이터 수정 및 파악, 파생변수, 조건문, 데이터 전처리, 그래프 그리기 (0)	2020.04.01
[빅데이터] 20200330 R 정의, 설치, 시각화 (2)	2020.03.30

:: GO치의 에브리데이 일기장::

[빅데이터] 20200331 RStudio 설치, plot, 워드클라우드

':: IT > R' 카테고리의 다른 글

+ Recent posts

티스토리툴바