728x90

전체 글 168

Hadoop Ecosystem 정리 #1

- 하둡(Hadoop)은 HDFS(Hadoop Distributed FileSystem)이라는 분산 데이터 저장과 빅데이터 처리 방식인 MapReduce 방식으로 이루어져 있다. 하둡은 HDFS을 파일 시스템으로 두고 MapReduce이 연산 엔진이며 Yarn으로 리소스를 관리한다. - 맵리듀스(MapReduce)는 여러 노드에 task를 분배하는 방법으로 각 프로세스 데이터는 가능한 경우 해당 노드에 저장된다. 맵리듀스는 맵(Map)과 리듀스(Reduce)로 구성된다. Map은 분할, Reduce는 병합이라고 생각하면 된다. 예를 들어 Map은 큰 작업을 64MB단위 블럭으로 분할하여 각 블럭에 대한 연산을 한다. 이후 Map을 수행한 각각의 블럭의 결과 정보를 합치는 작업이 Reduce이다. - HD..

Hadoop 2022.12.20

컨퍼런스 요약 [2022 데이터 톡톡 페스티벌]

- 요즘 빅데이터 프로젝트가 많이 실패한다고 한다. 이유중 하나로 연구원들이 빅데이터의 정규 분포를 보고 많이 나오는 패턴만 집중적으로 보고는 하는데, 이런 패턴은 사실 빅데이터가 아니더라도 알 수 있는 일반적인 인사이트를 도출하는 경우가 많다. 사실 집중적으로 봐야할 부분은 양극단에 있는 고객군이 점점 커져가고있는 패턴이다. 역사적으로 이런 패턴에 집중했을 때혁신적인 전략이 나왔다. - 데이터에서 시작하지말고 국민의 페르소나에서 시작하자. ref) https://www.youtube.com/watch?v=_BsRM16yUYk

Conference 2022.12.20

컨퍼런스 요약 [if(kakao)dev 2022]

- 문제점 - 시스템 측면 1. 데이터 센터간 이중화가 미흡 (1) 일부 시스템이 판교 데이터 센터에만 이중화 되어 있었음 (캐시서버, 오브젝트 스토리지가 이중화 x => 카카오 로그인 및 사진 전송 등 문제 발생) (2) 하나의 데이터 센터에서 장애가 발생하면 다른 데이터 센터로 자동 전환해주는 시스템이 작동해야하는데 이 시스템이 판교 데이터 센터에만 설치되어 있어서 수동 전환하느라 시간 오래걸림 2. 서비스 개발과 관리를 위한 운영관리 도구 부족 (1) 화재로 인한 모니터링 시스템 도구 사용 불가능 3. 이중화 전환 후 가용 자원 부족 - 관리 측면 1. 데이터 센터 전체의 장애 복구를 위한 인력과 자원 부족 2. 장애 대응을 위한 커뮤니케이션 채널에 혼선 => 커뮤니케이션으로 카카오톡, 카카오 워크..

Conference 2022.12.19

Data Governance [CS]

- 데이터 거버넌스(Data Governance)란 기업에서 사용하는 데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다루는 것이다. 즉, 데이터 거버넌스는 데이터 관리를 의미한다. 데이터 관리에는 데이터 품질관리 뿐만 아니라 메타 데이터 관리, 데이터 수명주기 관리, 데이터 엑세스 및 권한 부여 등의 기능들이 포함된다. - 데이터 거버넌스가 발전하기 위해서는 인사이트를 도출하고 이를 다시 데이터화하는 것이 매우 중요하다. 또한 의미있는 데이터를 잘 축적하고 활용하여 정확한 예측을 할 수 있는 기술에 대한 활용 및 발전도 같이 수반되어야 한다. ref) https://newsroom.koscom.co.kr/17346

CS 2022.12.19

Index & B-Tree [CS]

- 인덱스란 DB에서 데이터의 저장, 수정, 삭제에 대한 성능을 희생시켜 검색 성능을 높여주는 방법이다. 인덱스의 가장 큰 특징은 데이터들이 정렬이 되어있다는 점이다. - 인덱스는 where 절에서 ‘자주 조회’하고 ‘수정 빈도’가 낮으며 ‘데이터 중복’이 적은 컬럼을 선택하는 것이 좋다. join 조건으로 자주 사용되는 컬럼도 인덱스로 사용하면 좋다. - 하지만 인덱스를 사용하는 것이 무조건 좋은 것은 아니다. 인덱스는 INSERT, UPDATE, DELETE 같은 DML에 취약하다. 데이터가 추가되거나 값이 바뀐다면 인덱스 테이블 내에 있는 값들을 다시 정렬을 해야 한다. 또한 인덱스를 관리하기 위해서는 DB에 저장공간이 추가로 필요하기 때문에 인덱스 생성은 마지막 수단으로 강구해야 할 문제이다. -..

CS 2022.12.14

Process & Thread[CS]

- 프로세스(Process)란 메모리에 올라와 실행중인 프로그램이며, 운영체제로부터 시스템 자원을 할당받는 작업의 단위이다. - 프로그램이 실행되면 프로세스로 변경된다. 프로세스 실행 과정은 다음과 같다. - 생성 상태 : 프로그램을 메모리에 가져와 실행 준비가 완료된 상태, PCB가 생성된다. - 준비 상태 : 프로세스가 메모리에 적재된 상태로, 실행을 기다리는 모든 프로세스가 자기 차례를 기다리는 상태 - 실행 상태 : 선택된 프로세스가 CPU를 사용하는 상태 - 대기 상태 : 실행 상태에 있는 프로세스가 입출력을 요청하면 입출력이 완료될 때 까지 기다리는 상태- - 완료 상태 : 프로세스가 종료된 상태, PCB가 삭제된다. - PCB(Process Control Block)은 프로세스의 정보를 포함..

CS 2022.12.14

Deadlock [CS]

- Deadlock이란 두 개 이상의 프로세스가 자원을 점유한 상태에서 서로 다른 프로세스가 점유하고 있는 자원을 요구하며, 서로의 작업이 끝나기만을 기다리는 것이 영원히 끝나지 않는 상황을 말한다. - Deadlock은 4가지의 발생조건이 있다. 4가지 조건이 모두 만족해야 발생할 가능성(무조건 발생하는 것 아님)이 있으며, 하나라도 만족하지 않으면 Deadlock이 발생하지 않는다. (1) 상호 배제(Mutual Exclusion) : 한 자원에 대한 여러 프로세스 동시 접근 불가 (2) 점유 대기(Hold and Wait) : 프로세스가 할당된 자원을 가진 상태에서 다른 자원을 기다림 (3) 비선점(No Preemption) : 프로세스는 다른 프로세스의 자원을 강제로 가져올 수 없음 (4) 순환 ..

CS 2022.12.14

ORM [CS]

- ORM(Object Relational Mapping)이란 객체-관계 매핑의 줄임말이다. 즉, 객체라는 개념을 구현한 클래스와 RDB에서 쓰이는 데이터인 테이블을 자동으로 매핑하는 것을 의미한다. 그러나 클래스와 테이블은 서로가 기존부터 호환가능성을 두고 만들어진 것이 아니기 때문에 불일치가 발생하는데, 이를 ORM을 통해 객체 간의 관계를 바탕으로 SQL문을 자동으로 생성하여 불일치를 해결한다. 따라서 ORM을 이용하면 따로 SQL문을 짤 필요없이 객체를 통해 간접적으로 데이터베이스를 조작할 수 있게 된다. - ORM은 SQL문이 아닌 클래스의 매서드를 통해 DB를 조작할 수 있고, 객체로 작성되었기 때문에 재활용할 수 있다. 또한 매핑하는 정보가 명확하기 때문에 ERD를 보는 의존도를 낮출 수 있..

CS 2022.12.14

MSA [CS]

- MSA(Micro Service Architecture)란 하나의 큰 어플리케이션을 여러개의 작은 어플리케이션으로 쪼개어 변경과 조합이 가능하도록 만든 형태이다. 아래와 같은 특징을 지닌다. (1) 마이크로 서비스는 스스로 돌아갈 수 있음 (2) 독립적으로 배포가 가능한 서비스임 (3) 각 서비스는 다른 서비스에 대한 의존적이 작아야 함 (4) 각 서비스는 개별 프로세스로 구동되며, REST API와 같은 가벼운 방식으로 통신되어야 함 - 위와 같은 특징으로 인해 서비스 확장성이 좋고, 클라우드 환경에 적합하다는 단점이 있다. 또한 에러 관리 측면에서도 부분적 서비스 장애에 대한 격리가 수월하다. - 하지만 서비스간 호출시 API를 사용하기 때문에 비용이 증가하며, 데이터 관리 관점에서 데이터가 여러..

CS 2022.12.14

이미지 업로드를 위한 웹서버 구현

1. 폴더 생성 및 이동 mkdir upload && cd upload 2. 프로젝트 생성 (-y 옵션으로 기본값으로 package.json 생성) npm init -y 3. 패키지 추가 설치 npm install express cors express-fileupload morgan lodash body-parser --save express - 노드 JS에서 REST API를 만들기 위한 엄청 유명한 웹 생성 프레임워크 cors - CORS (Cross-Origin Resource Sharing) 요청들을 허용하기 위한 또 다른 Express 미들웨어 express-fileupload - 파일 업로드를 위한 간단한 익스프레스 미들웨어 입니다. multipart/form-data 요청을 파싱 morgan..

Web Server 2022.12.08