빅데이터 3

[BigData] 데이터 가공과 시각화

1. 데이터 가공(data processing): 데이터를 보다 효과적으로 분석하기 위해 데이터를 필요한 모양으로 가공하는 작업 - base R을 이용해 샘플과 속성 추출 a. 행에는 행번호 지정이 일반적 ex. gapminder[1:15, ] b. 조건을 이용한 내용 추출: ex. gapminder[gapminder$country == "Cro", c("lifeExp","pop")] -> 추출할 속성이 여러개일 경우 c 함수를 통해 묶을 수 있음 c. 행/열 단위 연산: apply(x,MARGIN, FUN, optional arguments to FUN) 행 또는 열별 함수적용, Margin값 1 = 행, 2 =열 2. dplyr(디플라이어)를 이용한 데이터 가공 - 인덱스 기반 데이터 접근에 기초한다..

빅데이터 2022.10.19

[BigData]파일 읽고 쓰기와 데이터 정제

1. 파일 읽기: read.table 함수 -> 일반 텍스트 파일을 읽어 데이터 프레임 생성 read.csv 함수 -> CSV파일 읽어 데이터 프레임 생성 2. 파일 쓰기: write.table , write.csv 3. 데이터 정제 - 데이터 정제를 위해 특정 조건에 맞는 값을 찾아내거나 일부 구간 값을 추출하여 연산하는 등 목적에 맞게 작업 a. 조건문 형식 ㉮ []에 행/열 조건 명시(변수명[행 조건식, 열 조건식]) - 벡터일때, test = c(1,2,3,NA,5) -> test[test character[character$gender="F"] ㉯ if 문 사용(if, else if, else, ifelse) - x=5, if(x%%2==0) print("짝수") else print("홀수") ..

빅데이터 2022.10.19

[BigData] 데이터 구조 R(기초)

1. 데이터 저장 및 처리 a. 변수: 데이터 저장 공간 ( x = 1, z = x + y , z 2,4,6 + head, tail함수: 앞 뒤 데이터 6개 추출을 기본 - 배열: 열과 행을 가지는 데이터 집합, 벡터의 요소들이 다시 벡터로 구성된 형태 ≫ 배열 생성함수: array(data, dimension, dimnames) -> N차원 배열, matrix(data, nrow, ncol, byrow, dimnames) -> 2차원 배열 ≫ 연산: apply 함수(배열 행 또는 열별 함수적용), dim 함수(배열 크기) - 데이터프레임: 서로 다른 데이터 형이 표 형태로 정리된 구조(각 속성 크기가 같음) ≫ 생성함수: data.frame() ≫ 유용함수: attach(적용) - detach(해제):..

빅데이터 2022.10.19