FullText 검색

LIKE 연산을 통해 검색을 하게 되면 인덱스를 통한 검색이 어려운데 이럴 때 고려해볼 수 있는 것이 Full-Text 검색으로FullText 검색은 단어 또는 구문에 대한 검색을 의미.

MyISAM은 MySQL 5.5 버전 이상부터, innoDB는 MySQL 5.6 버전 부터 지원.

실행 방법

MATCH … AGAINST

전체 텍스트 검색은 MATCH AGAINST 구문을 사용하여 수행.

MATCH (col1,col2,...) AGAINST (expr [search_modifier])

MATCH는 쉼표로 구분되며 검색할 열을 지정하며, AGAINST검색할 문자열과 수행할 검색 방식을 지정

검색 유형 :
{
       IN NATURAL LANGUAGE MODE
     | IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION
     | IN BOOLEAN MODE
     | WITH QUERY EXPANSION
}

FULLTEXT INDEX

MySQL에서 에서 FULLTEXT 타입의 인덱스로 Full-Text 검색을 위해서는 인덱스 설정이 필요한데

데이터 타입이 CHAR, VARCHAR, TEXT 인 경우에만 FULLTEXT INDEX 설정이 가능함.

CREATE FULLTEXT INDEX title ON news (title);

이때, 영어는 잘 검색이 되나 한글은 잘 검색이 안되는 이슈.

이를 위해 MySQL fulltext 검색 알고리즘 중, Ngram 사용.

  • MySQL은 빌트인(내장)된 Ngram parser를 지원하며, 중국어와 일본어 그리고 한글(CJK)를 지원
CREATE FULLTEXT INDEX title ON news (title) WITH PARSER ngram;

Ngram parser

일련의 텍스트를 n개의 문자로 구성된 연속된 시퀀스로 토큰화하여 검색.

ngram 파서의 기본 ngram 토큰 크기는 2(bigram)이며, 한 글자(문자)만 검색하려면 ngram_token_size를 1로 설정이 필요.

ngram_token_size = 1

이 때, ngram 파서를 사용하는 FULLTEXT 인덱스의 경우에는 아래의 구성 옵션이 무시됨.

  • innodb_ft_min_token_size / innodb_ft_max_token_size
  • ft_min_word_len / ft_max_word_len

검색 유형

1. IN NATURAL LANGUAGE 검색

검색 문자열을 단어 단위(token_size)로 분리한 후, 해당 단어 중 하나라도 포함되는 행을 찾음.
자연어 검색은 기본 검색 타입으로 MATCH … AGAINST 구문에 별도의 옵션을 지칭하지 않으면 자연어 검색 모드로 검색됨. (혹은 AGAINST 구문에 IN NATURAL LANGUAGE MODE 입력)

SELECT
  n.seq,
  n.title
FROM 
  news AS n
WHERE 
  MATCH (n.title) AGAINST ('KBO' IN NATURAL LANGUAGE MODE);

매치율

입력된 검색어의 키워드가 얼마나 더 많이 포함되어 있는지에 따라 매치율(유사성 측정값)이 결정 되는데
전체 테이블의 50% 이상의 레코드가 검색된 키워드를 가지고 있는 경우, 그 키워드는 검색어로서 의미가 없다고 판단하고 검색 결과에서 배제됨.

이 때 매치율은 row내의 고유 단어 수, 총 단어 수, 특정 단어를 포함하는 row 수 등을 기준으로 계산되며
검색 결과는 가장 높은 관련성을 가진 결과부터 자동 정렬되는데, 아래와 같은 조건에 한해 자동 정렬.

  • ORDER BY 절이 없어야 함.
  • 검색은 테이블 검색이 아닌 FULLTEXT Index를 사용하여 수행해야 함.
  • 쿼리가 테이블을 조인하는 경우, FULLTEXT Index는 조인에서 가장 왼쪽에 있는 non-constant 테이블이어야 함.

대소문자

기본적으로 검색은 대소문자를 구분하지 않는 방식으로 수행.
대소문자를 구분하는 전체 텍스트 검색을 수행하려면  binary collation을 사용하면됨.

검색어 길이

길이가 기준보다 짧거나, 특정 단어(Stopword)는 풀텍스트 검색에서 무시됨.

최소 인덱싱 글자수 설정

innodb_ft_min_token_size = 1
ft_min_word_len = 1

2. BOOLEAN 검색

불린 모드 검색은 문자열을 단어 단위로 분리한 후, 추가적인 검색 규칙을 적용되어서 단어가 포함되는 행을 찾음.
불린 모드 검색은 IN BOOLEAN MODE를 직접 지정해서 검색할 수 있으며 연산자를 사용하여 검색 조건을 추가 가능함.

SELECT
  n.seq,
  n.title
FROM 
  news AS n
WHERE 
  MATCH (n.title) AGAINST ('KBO' IN BOOLEAN MODE);

연산자

+ : AND, 반드시 포함하는 단어

– : NOT, 반드시 제외하는 단어

> : 포함하며, 검색 순위를 높일 단어

  • +mysql >tutorial
    • mysql과 tutorial가 포함하는 행을 찾을 때, tutorial이 포함되면 검색 랭킹이 높아짐

< : 포함하되,검색 순위를 낮출 단어

  • +mysql <training
    • mysql과 training가 포함하는 행을 찾지만, training이 포함되면 검색 랭킹이 낮아짐

() : 하위 표현식으로 그룹화 (포함, 제외, 순위 지정 등)

  • +mysql +(>tutorial <training)
    • mysql AND tutorial, mysql AND training 이지만, tutorial의 우선순위가 더욱 높게 지정

~ : ‘-‘ 연산자와 비슷하지만 제외 시키지는 않고 검색 조건을 낮춤

* : 와일드 카드로 붙음

“” : 구문 정의

3. with Query Expansion 검색

자연어 검색을 확장한 내용으로, 2단계에 걸쳐서 검색을 수행.

첫 단계에서는 자연어 검색을 수행한 후,
첫 번째 검색의 결과에 매칭된 행을 기반으로 검색 문자열을 재구성하여 두 번째 검색을 수행함.

쿼리 확장 검색은 IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION 혹은 WITH QUERY EXPANSION을 직접 지정해서 사용.

SELECT
  n.seq,
  n.title
FROM 
  news AS n
WHERE 
  MATCH (n.title) AGAINST ('KBO' IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION);

SELECT
  n.seq,
  n.title
FROM 
  news AS n
WHERE 
  MATCH (n.title) AGAINST ('KBO' WITH QUERY EXPANSION);

쿼리 확장 검색은 일반적으로 검색 구문이 아주 짧을 때 유용하며
만약 쿼리 확장을 사용한다면, 두 번째 검색을 할 때 에서 오타로 추측된 단어가 포함된 내용을 찾을 수 있음.

“월드컵” 이라는 검색어가 있을 경우.

자연어 모드에서는 “월”, “드”, “컵” 용어 중 일치하는 게 있으면 출력.

불린 모드에서는 “+월 +드 +컵”로 검색되어 출력.

중지 단어

mysql에서 가지고 있는 중지 단어가 36개 정도 있는데 사용자가 별도의 테이블에 중지 단어를 추가한 후에 적용할 수도 있음.

방법

  • 중지 단어를 저장할 테이블을 만드는데, 컬럼명운 무조건 value 로 지정해야하며 타입은 VARCHAR로 지정.CREATE TABLE stop_word_table (value VARCHAR(50));
  • 그리고 중지 단어를 INSERTINSERT INTO stop_word_table VALUES ('그리고'), ('매우'), ('왜냐하면');
  • 중지 단어 테이블로 사용할 테이블 지정SET GLOBAL innodb_ft_server_stopword_table = 'contents/stop_word_table'; SHOW GLOBAL VARIABLES LIKE 'innodb_ft_server_stopword_table';

중지단어도 검색을 허용하게 할 경우

innodb_ft_enable_stopword = 0

인덱스 추가 후, 다음날 쿼리를 실행시에 예상했던 인덱스를 타지 않는 현상 발생

→ ANALYZE TABLE {table_name}

Reference.

https://dev.mysql.com/doc/refman/8.0/en/fulltext-search.html
https://kabkee.github.io/mysql/mysql-full-text-search/#full-text-search-%EB%8F%84%EC%9E%85-%EA%B2%B0%EC%A0%95
https://cotak.tistory.com/158
https://heowc.dev/2021/06/17/mysql-index-statistics/

RDBMS vs NoSQL

RDBMS (관계형 데이터베이스 관리 시스템)

– 테이블 마다 스키마를 정의해야 함.
– 데이터 타입과 제약을 통해서 데이터의 정확성을 보장함.
– 데이터를 Column 과 Row 형태로 저장.
– SQL이라는 RDBMS의 데이터를 관리하기 위해 설계된 프로그래밍 언어를 사용한 질의문을 통해
데이터를 다룰 수 있음.
– 데이터의 update가 빠름.
– 데이터 처리에 대한 부하 발생시, 처리가 어려움.
– 성능을 높이려면 하드웨어를 고성능으로 교체해야 함.
(고성능 하드웨어는 가격이 비싸, RDBMS의 성능을 높이거나 확장하기 어려움)
– 하나의 정보를 만들기 위해 여러 테이블로 쿼리를 사용하게 되며 그렇기 때문에 트랜잭션 처리를 중요시 함.

NoSQL

– RDB의 확장성 이슈를 해결하기 위해 나온 데이터베이스 모델임.
– 분산 컴퓨팅 활용이 목적으로 비교적 저렴한 가격에 DB 성능을 높일 수 있음.
– 데이터간의 관계를 정의하지 않으며, join이 불필요.
– 테이블에 스키마가 정해져 있지 않아 데이터 저장이 비교적 자유로우며
데이터의 구조가 같지 않아도 영향을 미치지 않음.
– key-value 방식으로 데이터를 관리하며, SQL을 사용하지 않음.
– 많은 양의 데이터를 저장, 처리 할 수 있음.
– 스키마가 정해져 있지 않아 구조 변경이 용이하고 데이터 형식이 다양하며 바꾸기 쉬워
정확성보다는 데이터 양이 중요한 빅데이터에 주로 사용함.
– 데이터의 update가 비교적 느림.
– 데이터 모델로는 도큐먼트 모델, 그래프 모델, 키/값 모델, 와이드 컬럼 모델이 있음.

In-Memory DB

NoSQL 방식에 속하는 데이터베이스로 key-value 방식을 사용하고 있음.

– Memory의 가격이 용량 대비, 충분히 낮아지면서 빠른 데이터베이스 성능을 위해서 등장함.
– 디스트(Disk) 대신 메모리(Memory)를 사용함으로써, I/O(input/output)의 성능을 높여줌.
– 대표적으로 Redis가 있음.

RDB vs NoSQL

– RDB는 관계형으로 데이터를 저장하지만, NoSQL은 그렇지 않다.
– RDB는 스키마가 정적이지만, NoSQL은 유연한 스키마 구조를 갖는다.
– RDB는 수직 확장이 용이하고, NoSQL은 수평 확장이 용이하다.
(즉, RDB는 서버 용량을 늘리는 게 쉽고, NoSQL은 서버를 여러 대 늘리는 게 쉽다)
– 위와 관련해서, RDB는 확장 시 다운타임이 있을 수 있지만, NoSQL은 거의 없다.
– RDB는 복잡한 쿼리와 Join 연산이 가능하다. NoSQL은 구조화된 쿼리 언어가 없는 경우도 많고, 일반적으로 Join이 없다.
– RDB는 OLTP에 적합하고, NoSQL은 OLAP에 적합하다.
(즉, RDB는 트랜잭션 처리에 용이하고, NoSQL은 분석 처리에 용이하다)

* OLTP
직역하면 온라인 트랜잭션 처리를 의미.
복잡하게 말하면 복수의 사용자 PC에서 발생되는 트랜잭션(Transaction)을 DB서버가 처리하고, 그 결과를 요청한 사용자PC에 결과값을 되돌려주는 과정을 뜻함.

즉, 1개의 트랜잭션에서 발생되는 INSERT, UPDATE, DELETE의 과정을 무결성을 보장하여 처리하고 그 결과를 SELECT 하는 과정을 말함.

* OLAP
데이터웨어하우스(DW), 쉽게 말해 DB에 저장되어 있는 데이터를 분석하고, 데이터 분석을 통해 사용자에게 유의미한 정보를 제공해주는 처리방법을 의미.

즉, 기존에 저장되어 있는 데이터를 사용자의 요구와 목적에 맞게 분석하여 정보를 제공하는 개념을 의미.

* OLTP vs OLAP
OLTP는 현재의 데이터 처리가 얼마나 정확하고, 무결한지가 중요.
그렇기 때문에 주로 데이터의 저장, 삭제, 수정 등의 실질적인 데이터를 수정하는 작업을 의미하는 용어.

OLAP는 이미 저장된 데이터를 바탕으로 어떤 정보를 제공하는지가 중요.
따라서 OLAP는 데이터가 무결하고, 정확하다는 전재를 바탕으로 고객 또는 사용자가 원하는 정보를 어떤식으로 표현하고 제공하는지를 의미하는 용어.

RestFul API

REST 구성

쉽게 말해 REST API는 다음의 구성으로 이루어져있습니다. 자세한 내용은 밑에서 설명하도록 하겠습니다.

  • 자원(RESOURCE) – URI
  • 행위(Verb) – HTTP METHOD
  • 표현(Representations)

REST 의 특징

1) Uniform (유니폼 인터페이스)

Uniform Interface는 URI로 지정한 리소스에 대한 조작을 통일되고 한정적인 인터페이스로 수행하는 아키텍처 스타일을 말합니다.

2) Stateless (무상태성)

REST는 무상태성 성격을 갖습니다. 다시 말해 작업을 위한 상태정보를 따로 저장하고 관리하지 않습니다. 세션 정보나 쿠키정보를 별도로 저장하고 관리하지 않기 때문에 API 서버는 들어오는 요청만을 단순히 처리하면 됩니다. 때문에 서비스의 자유도가 높아지고 서버에서 불필요한 정보를 관리하지 않음으로써 구현이 단순해집니다.

3) Cacheable (캐시 가능)

REST의 가장 큰 특징 중 하나는 HTTP라는 기존 웹표준을 그대로 사용하기 때문에, 웹에서 사용하는 기존 인프라를 그대로 활용이 가능합니다. 따라서 HTTP가 가진 캐싱 기능이 적용 가능합니다. HTTP 프로토콜 표준에서 사용하는 Last-Modified태그나 E-Tag를 이용하면 캐싱 구현이 가능합니다.

4) Self-descriptiveness (자체 표현 구조)

REST의 또 다른 큰 특징 중 하나는 REST API 메시지만 보고도 이를 쉽게 이해 할 수 있는 자체 표현 구조로 되어 있다는 것입니다.

5) Client – Server 구조

REST 서버는 API 제공, 클라이언트는 사용자 인증이나 컨텍스트(세션, 로그인 정보)등을 직접 관리하는 구조로 각각의 역할이 확실히 구분되기 때문에 클라이언트와 서버에서 개발해야 할 내용이 명확해지고 서로간 의존성이 줄어들게 됩니다.

6) 계층형 구조

REST 서버는 다중 계층으로 구성될 수 있으며 보안, 로드 밸런싱, 암호화 계층을 추가해 구조상의 유연성을 둘 수 있고 PROXY, 게이트웨이 같은 네트워크 기반의 중간매체를 사용할 수 있게 합니다.

REST API 디자인 가이드

REST API 설계 시 가장 중요한 항목은 다음의 2가지로 요약할 수 있습니다.

첫 번째, URI는 정보의 자원을 표현해야 한다.
두 번째, 자원에 대한 행위는 HTTP Method(GET, POST, PUT, DELETE)로 표현한다.

REST API 중심 규칙


1) URI는 정보의 자원을 표현해야 한다. (리소스명은 동사보다는 명사를 사용)

    GET /members/delete/1

위와 같은 방식은 REST를 제대로 적용하지 않은 URI입니다. URI는 자원을 표현하는데 중점을 두어야 합니다. delete와 같은 행위에 대한 표현이 들어가서는 안됩니다.

2) 자원에 대한 행위는 HTTP Method(GET, POST, PUT, DELETE 등)로 표현

위의 잘못 된 URI를 HTTP Method를 통해 수정해 보면

    DELETE /members/1

으로 수정할 수 있겠습니다.
회원정보를 가져올 때는 GET, 회원 추가 시의 행위를 표현하고자 할 때는 POST METHOD를 사용하여 표현합니다.

회원정보를 가져오는 URI

    GET /members/show/1     (x)
    GET /members/1          (o)

회원을 추가할 때

    GET /members/insert/2 (x)  - GET 메서드는 리소스 생성에 맞지 않습니다.
    POST /members/2       (o)

[참고]HTTP METHOD의 알맞은 역할
POST, GET, PUT, DELETE 이 4가지의 Method를 가지고 CRUD를 할 수 있습니다.

METHOD역할
POSTPOST를 통해 해당 URI를 요청하면 리소스를 생성합니다.
GETGET를 통해 해당 리소스를 조회합니다. 리소스를 조회하고 해당 도큐먼트에 대한 자세한 정보를 가져온다.
PUTPUT를 통해 해당 리소스를 수정합니다.
DELETEDELETE를 통해 리소스를 삭제합니다.

다음과 같은 식으로 URI는 자원을 표현하는 데에 집중하고 행위에 대한 정의는 HTTP METHOD를 통해 하는 것이 REST한 API를 설계하는 중심 규칙입니다.

URI 설계 시 주의할 점


1) 슬래시 구분자(/)는 계층 관계를 나타내는 데 사용

    http://restapi.example.com/houses/apartments
    http://restapi.example.com/animals/mammals/whales

2) URI 마지막 문자로 슬래시(/)를 포함하지 않는다.

URI에 포함되는 모든 글자는 리소스의 유일한 식별자로 사용되어야 하며 URI가 다르다는 것은 리소스가 다르다는 것이고, 역으로 리소스가 다르면 URI도 달라져야 합니다. REST API는 분명한 URI를 만들어 통신을 해야 하기 때문에 혼동을 주지 않도록 URI 경로의 마지막에는 슬래시(/)를 사용하지 않습니다.

    http://restapi.example.com/houses/apartments/ (X)
    http://restapi.example.com/houses/apartments  (0)

3) 하이픈(-)은 URI 가독성을 높이는데 사용

URI를 쉽게 읽고 해석하기 위해, 불가피하게 긴 URI경로를 사용하게 된다면 하이픈을 사용해 가독성을 높일 수 있습니다.

4) 밑줄(_)은 URI에 사용하지 않는다.

글꼴에 따라 다르긴 하지만 밑줄은 보기 어렵거나 밑줄 때문에 문자가 가려지기도 합니다. 이런 문제를 피하기 위해 밑줄 대신 하이픈(-)을 사용하는 것이 좋습니다.(가독성)

5) URI 경로에는 소문자가 적합하다.

URI 경로에 대문자 사용은 피하도록 해야 합니다. 대소문자에 따라 다른 리소스로 인식하게 되기 때문입니다. RFC 3986(URI 문법 형식)은 URI 스키마와 호스트를 제외하고는 대소문자를 구별하도록 규정하기 때문이지요.

    RFC 3986 is the URI (Unified Resource Identifier) Syntax document

6) 파일 확장자는 URI에 포함시키지 않는다.

    http://restapi.example.com/members/soccer/345/photo.jpg (X)

REST API에서는 메시지 바디 내용의 포맷을 나타내기 위한 파일 확장자를 URI 안에 포함시키지 않습니다. Accept header를 사용하도록 합시다.

    GET / members/soccer/345/photo HTTP/1.1 Host: restapi.example.com Accept: image/jpg

— 리소스 간의 관계를 표현하는 방법


REST 리소스 간에는 연관 관계가 있을 수 있고, 이런 경우 다음과 같은 표현방법으로 사용합니다.

    /리소스명/리소스 ID/관계가 있는 다른 리소스명

    ex)    GET : /users/{userid}/devices (일반적으로 소유 ‘has’의 관계를 표현할 때)

만약에 관계명이 복잡하다면 이를 서브 리소스에 명시적으로 표현하는 방법이 있습니다. 예를 들어 사용자가 ‘좋아하는’ 디바이스 목록을 표현해야 할 경우 다음과 같은 형태로 사용될 수 있습니다.

    GET : /users/{userid}/likes/devices (관계명이 애매하거나 구체적 표현이 필요할 때)

— 자원을 표현하는 Colllection과 Document


Collection과 Document에 대해 알면 URI 설계가 한 층 더 쉬워집니다. DOCUMENT는 단순히 문서로 이해해도 되고, 한 객체라고 이해하셔도 될 것 같습니다. 컬렉션은 문서들의 집합, 객체들의 집합이라고 생각하시면 이해하시는데 좀더 편하실 것 같습니다. 컬렉션과 도큐먼트는 모두 리소스라고 표현할 수 있으며 URI에 표현됩니다. 예를 살펴보도록 하겠습니다.

    http:// restapi.example.com/sports/soccer

위 URI를 보시면 sports라는 컬렉션과 soccer라는 도큐먼트로 표현되고 있다고 생각하면 됩니다. 좀 더 예를 들어보자면

    http:// restapi.example.com/sports/soccer/players/13

sports, players 컬렉션과 soccer, 13(13번인 선수)를 의미하는 도큐먼트로 URI가 이루어지게 됩니다. 여기서 중요한 점은 컬렉션은 복수로 사용하고 있다는 점입니다. 좀 더 직관적인 REST API를 위해서는 컬렉션과 도큐먼트를 사용할 때 단수 복수도 지켜준다면 좀 더 이해하기 쉬운 URI를 설계할 수 있습니다.