본문 바로가기

CS/Database

(12)
[Real MySQL] 9. 옵티마이저와 힌트 옵티마이저 옵티마이저는 가장 효율적인 방법으로 SQL을 수행할 최적의 처리 경로를 생성해주는 DBMS의 핵심 엔진이다. MySQL 서버로 요청된 쿼리는 결과는 동일하지만 내부적으로 그 결과를 만들어내는 방법은 매우 다양하다. MySQL의 옵티마이저는 쿼리를 최적으로 실행하기 위한 실행 계획을 수립하는 작업을 진행한다. EXPLAIN이라는 명령으로 쿼리의 실행 계획을 확인할 수 있다. 그리고 실행 계획을 제대로 이해하려면 MySQL 서버 옵티마이저가 실행하는 최적화에 대해 어느 정도 지식을 갖추고 있어야 한다. 쿼리 실행 절차 MySQL 서버에서 쿼리가 실행되는 과정은 다음과 같다. SQL 파싱: 사용자로부터 요청된 SQL 문장을 잘게 쪼개서 MySQL 서버가 이해할 수 있도록 파싱하여 트리 형태(파스 트..
[Real MySQL] 8. 인덱스 - B-Tree, B+Tree, Hash 인덱스 B-Tree 인덱스 B-Tree 인덱스에 대해 알기 전에 먼저 B-Tree 자료구조에 대해 알아보자. B-Tree는 자식을 2개만 갖는 이진 트리를 확장하여 N개의 자식을 갖는다. 그리고 좌우 자식 간의 균형이 맞지 않을 경우 비효율적이기 때문에 항상 균형을 맞춘다는 의미에서 균형 트리(Balanced Tree) 라고 한다. 즉, B-Tree의 B는 Binary(이진)의 약자가 아니라 Balanced(균형)의 약자이다. B-Tree는 데이터베이스의 인덱싱 알고리즘 중 가장 일반적으로 사용되고, 가장 먼저 도입된 알고리즘이다. B-Tree는 칼럼의 원래 값을 변형시키지 않으며 항상 정렬된 상태로 유지한다. 전문 검색과 같은 특수한 요건이 아닌 경우 대부분의 인덱스는 거의 B-Tree를 사용할 정도로 일반적..
[Real MySQL] 8. 인덱스 - 디스크 읽기 방식, 인덱스 디스크 읽기 방식 컴퓨터의 CPU나 메모리처럼 전기적 특성을 띤 장치의 성능은 짧은 시간 동안 매우 빠른 속도로 발전했지만, 디스크 같은 기계식 장치의 성능을 상당히 제한적으로 발전했다. 비록 최근에는 자기 디스크 원판에 의존하는 HDD(하드 디스크 드라이브)보다 SSD가 많이 활용되고 있지만, 여전히 데이터 저장 매체는 컴퓨터에서 가장 느린 부분이다. 따라서 데이터베이스의 성능 튜닝은 어떻게 디스크 I/O를 줄이느냐가 관건일 때가 상당히 많다. 하드 디스크 드라이브(HDD)와 솔리드 스테이트 드라이브(SSD) 컴퓨터에서 CPU나 메모리 같은 주요 장치는 대부분 전자식 장치이지만 하드 디스크 드라이브(HDD)는 기계식 장치이다. 따라서 데이터베이스 서버에서 항상 디스크 장치가 병목이 된다. 이러한 기계식..
SQL 알아보기 SQL SQL은 Structed Query Language의 약자로 데이터 관리 시스템인 DBMS에서 데이터를 조작하고 조회하기 위해 사용하는 언어이다. DBMS의 종류는 다양한데 이러한 DBMS 벤더들이 각자의 언어와 문법만 고집한다면 사용자들은 DBMS 사용이 어려워진다. 따라서 ANSI는 표준이 되는 SQL을 만들었고 이를 ANSI SQL이라 부른다. 이 ANSI SQL은 현대의 대부분의 DBMS에서 작동한다. 따라서 학습 시간을 줄여주고 벤더 변경시 변경 비용이 적다는 장점이 있다. SQL을 프로그래밍 언어와 비교하면, SQL은 데이터베이스 관리를 위한 언어이며 데이터 조작을 위한 목적으로 사용되지만, C언어 같은 프로그래밍 언어는 다양한 프로그래밍 영역에서 사용되는 일반 목적의 프로그래밍 언어이..
데이터베이스 기본 개념 파일시스템과 데이터베이스의 비교 과거에는 데이터 관리를 위해 파일 시스템을 사용했다. 파일 시스템은 데이터를 프로그램과 분리하여 별도의 파일에 저장하는 방법이다. 파일은 프로그램과 분리되어 컴퓨터의 디스크에 저장되며, 컴퓨터가 꺼진 상태에도 여전히 디스크에 데이터를 유지한다. 그리고 파일 시스템은 응용 프로그램마다 별도의 파일로 관리한다. 따라서 각 프로그램들은 파일을 다뤄야 하는 부담이 생기고, 각 파일별로 저장된 데이터를 공유하지 않기 때문에 데이터의 중복이 발생한다. 그리고 이로 인해 데이터 일관성의 문제가 발생할 수 있다. 반면 DBMS의 경우 데이터 정의 및 관리를 DBMS에게 맡기기 때문에 프로그램 자체가 훨씬 간단하다. 그리고 여러 프로그램에서 하나의 데이터베이스를 공유할 수 있기 때문에 데..
관계형 데이터베이스(RDB) vs 비관계형 데이터베이스(NoSQL) RDB 사전에 정의된 스키마 RDB는 사전에 스키마를 정의하고 정의된 스키마에 맞춰서 데이터를 저장하기 때문에 명확한 데이터 구조를 보장한다. 그러나 이러한 특성으로 인해 확장성이 부족하다. 만약 스키마에 새로운 컬럼을 추가하려고 하는데 이미 테이블에 수많은 데이터가 존재한다면, 칼럼을 추가하는 작업은 부담스러울 수 있다. 데이터 중복 RDB의 기본 철학은 데이터의 중복을 허용하지 않는다. 따라서 데이터 중복을 제거하기 위해 정규화를 진행한다. 그러나 이로 인해 통합된 데이터를 읽어오기 위해 여러 테이블을 조인하는 작업이 일어나고 이로 인해 조회 성능이 하락한다. 스케일 아웃 RDB는 스케일 아웃에 유연한 DB가 아니다. 따라서 성능 향상을 위해 스케일 업을 진행하며 이로 인해 비용이 늘어날 수 있다. ..
[Real MySQL] 5. 트랜잭션과 락 트랜잭션잠금(락)과 트랜잭션은 서로 비슷한 개념 같지만 잠금은 동시성을 제어하기 위한 기능이고, 트랜잭션은 데이터 정합성을 보장하기 위한 기능이다.락: 여러 커넥션에서 동시에 동일한 자원을 요청할 경우 순서대로 한 시점에는 하나의 커넥션만 변경할 수 있게 해주어 데이터 정합성을 지켜준다.트랜잭션 격리 수준: 여러 트랜잭션 간의 작업 내용을 어떻게 공유하고 차단할 것인지를 결정하는 레벨을 의미한다.MySQL에서 MyISAM 스토리지 엔진과 MEMORY 스토리지 엔진은 트랜잭션을 지원하지 않지만 InnoDB 스토리지 엔진은 트랜잭션을 지원한다. 트랜잭션을 지원하지 않는 경우에는 데이터의 정합성을 맞추는 것이 중요하고 어려운 문제가 된다. 하지만 트랜잭션을 지원하는 경우에는 애플리케이션 개발에서 고민해야 할 ..
[Real MySQL] 4.아키텍처 - InnoDB 스토리지 엔진 아키텍처 InnoDB는 MySQL에서 사용할 수 있는 스토리지 엔진 중 유일하게 레코드 기반의 잠금을 제공하며, 그 때문에 높은 동시성 처리가 가능하고 안정적이며 성능이 뛰어나다. InnoDB의 구조는 다음과 같다. PK에 의한 클러스터링 InnoDB의 모든 테이블은 기본적으로 PK를 기준으로 클러스터링되어 저장된다. 즉, PK의 순서대로 디스크에 저장된다는 뜻이며, 모든 세컨더리 인덱스는 레코드의 주소 대신 PK를 논리적인 주소로 사용한다. PK가 클러스터링 인덱스이기 때문에 PK를 이용한 레인지 스캔은 상당히 빠르게 처리될 수 있다. 따라서 쿼리 실행 계획에서 PK는 기본적으로 다른 보조 인덱스에 비해 비중 높게 설정된다. (쿼리 실행 계획에서 다른 보조 인덱스보다 PK가 선택될 확률이 높다.) InnoDB ..