목록분류 전체보기 (171)
IT Log
Cassandra란? 자유-오픈 소스 분산형 NoSQL 데이터베이스 관리 시스템의 하나로, 단일 장애점 없이 고성능을 제공하면서 수많은 서버 간의 대용량의 데이터를 관리하기 위해 설계되었다 구조 단일 장애 지점없이 여러 노드에서 대규모 데이터 작업 부하를 처리 노드를 통해 피어 투 피어 분산 시스템을 사용하고 데이터는 클러스터의 모든 노드에 분산 클러스터의 모든 노드는 동일한 역할, 각 노드는 독립적이며 다른 노드와 동시에 사호 연결 클러스터의 각 노드는 실제로 데이터가 클러스터에 있는 위치와 상관없이 읽기 및 쓰기 요청을 허용 노드가 다운되면 읽기/쓰기 요청이 네트워크의 다른 노드에서 제공 Cassandra에서는 클러스터의 하나 이상의 노드가 주어진 데이터 조각에 대한 복제본 역할 일부 노드가 만료 된..
MongoDB란? 필요한 쿼리 및 인덱싱을 통해 확장성과 유연성을 갖춘 문서 데이터베이스 데이터를 JSON 형식의 문서로 저장 응용 프로그램 코드의 객체에 매핑되므로 데이터를 쉽게 사용 Architecture 문서데이터 모델 분산시스템 설계 어디서나 자유롭게 운영 문서데이터 모델 자연스럽고 직관적인 방식으로 데이터 작업 적응 및 신속한 변경 다양한 데이터 및 쿼리 지원 빠른작업 분산시스템 설계 정교한 복제 및 자체 복구 Sharding을 통해 수평으로 확장 동일한 클러스터에서 운영 및 분석 작업을 실행 특정 장치 및 관리, 서비스 클래스 및 대기 시간이 적은 액세스에 대한 특정 지역에 데이터 배치 어디서나 자유롭게 운영 모든곳에서 동일하게 실행되는 DB 잠금이 없는 다중 클라우드의 이점 활용 Scale ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/canF3p/btquT2A8zv5/Ul5mvMV9FHKzKSWEVk9yo1/img.png)
NoSQL이란? Not only SQL로 기존의 관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘을 제공 스키마가 없고, 트랜잭션을 지원하지 않는다 ( 일부 지원 ) 관계정의가 없어 join이 불가능하다 ( reference와 같은 기능으로 비슷하게 구현가능 ) 분산처리 쉽게 제공 NoSQL DB종류 종류 연관 DB key‐value‐cache memcached, repacahed, coherence, infinispan, eXtreme scale, jboss cache, velocity, terracoqa key‐value‐store keyspace, flare, schema-free, RAMCloud eventually‐consistent key‐val..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bgkFjZ/btquUBdhlR0/gMvWbCTRp9Jhz7Rj71kTbk/img.png)
상관분석이란? 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법. 두 변수는 서로 독립적이거나 상관된 관계일 수 있고, 그 정도를 상관관계라 한다. 정도를 파악하는 상관계수는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하지 않는다. 피어슨 상관 계수 값이 ±1에 가까울수록 강한 관계 값이 0에 가까울수록 의미없는 관계 +면 같은방향, -면 반대방향으로 동일한 관계 스피어만 상관 계수 자료의 값 대신 순위를 이용하는 경우의 상관계수 자료에 이상점이 있거나 표본크기가 작을 때 유용하다. -1과 1사이의 값을 가지고, 순위가 완전히 일치하면 +1, 완전히 반대이면 -1이다. 1. 산점도 직교 좌표계를 이용해 두 개 변수 간의 관계를 나타내는 방법 x=1:10 y=x^2 plot(x,y) ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cUKbJR/btquUB5dhN3/R6K9sRd1ZWkVhIAMUpksp1/img.png)
단일 비율 binom.test 성공 확률에 대한 간단한 귀무 가설 테스트 binom.test(x, n, p=0.5, alternative = c("two.sided", "less", "greater"), conf.level = 0.95) x 성공횟수 n 시행횟수 p 가정한 확률 alternative 대체 가설 conf.level 반환된 신뢰구간에 대한 신뢰수준 binom.test(67,120) 두 비율의 차이 prop.test 여러그룹의 비율이 같거나 특정값이 같은지 비교하는 test prop.test(x, n, p=NULL, alternative = c("two.sided", "less", "greater"), conf.level = 0.95, correct = TRUE) x 성공횟수 n 시행횟수 p ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dVDo9M/btquTaHcHjG/q7uI1OytCAaAuQ3eVjpQg0/img.png)
dplyr mutate select filter summarise arrange 결측치 is.na na.omit na.rm 결측치 대체하기 이상치 제거하기 dplyr 함수 기능 filter() 행 추출 select() 열 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join 데이터 합치기(열) bind_rows() 데이터 합치기(행) filter starwars%>% filter(species=="Droid") filter는 조건과 일치하는 행을 추출합니다. species열에서 Droid인 행만 추출합니다. select starwars%>% select(name, ends_with("color")) select는 조..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/VLVa4/btquUBXLLyE/d7Rot9MmpSWLr7H5TTNkOk/img.png)
이항분포란? 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 베르누이 시행이라고도 불린다.( n=1일 때 ) 밀도함수 dbinom(x, size, prob, log = FALSE) x = seq(0,100) plot(x,dbinom(x,100,0.5),type="l") 누적분포함수 pbinom(q, size, prob, lower.tail = TRUE, log.p = FALSE) plot(x,pbinom(x,100,0.5),type="l") 분위수함수 qbinom(p, size, prob, lower.tail = TRUE, log.p = FALSE) x = seq(0,1,by=0.01) plot(x,qbinom(x,100,0.5),type="l") 난수함수 rbinom..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c6EokX/btquSy8W5MR/22lP85SkZWwsjrhgEWkQ7K/img.png)
정규분포란? 연속 확률 분포의 하나이며, 수집된자료의 분포를 근사하는데 자주 사용한다. 중심극한정리에 의하여 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있다. 확률밀도함수 dnorm(x, mean = 0, sd = 1, log = FALSE) x = seq(-5,5,length=100) plot(x,dnorm(x),type="l") 누적분포함수 pnorm(q, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALSE) plot(x,pnorm(x),type="l") plot(x,pnorm(x,lower.tail = FALSE),type="l") 분위수함수 qnorm(p, mean = 0, sd = 1, lower.tail = TRUE, log.p = FALS..