СУБД. Лекция 7

Репликация. Полнотекстовый поиск. JSON.

Репликация:
- Физическая и логическая репликации;
- Синхронная и асинхронная репликация;
- Балансировка и отказоустойчивость;
- Проблемы репликации.
Полнотекстовый поиск;
Географические данные;
Хранение слабоструктурированных данных (JSON).

Организационные моменты

Не забывайте отмечаться на лекциях!
Оставляйте обратную связь по завершению лекции!

Репликация

Распространение данных

Репликация позволяет создать копию базы данных в географически удаленном пункте, например в другом центре обработки данных.

Балансировка нагрузки

С помощью репликации можно распределить запросы на чтение между несколькими серверами. В приложениях с интенсивным чтением эта тактика работает очень хорошо.

Реализовать несложное балансирование нагрузки можно, внеся совсем немного изменений в код.

Репликация

Резервное копирование

Репликация ― это ценное подспорье для резервного копирования. Однако подчиненный сервер все же не может использоваться в качестве резервной копии и не является заменой настоящему резервному копированию.

Аварийное переключение на резервный сервер (failover)

Репликация позволяет исправить ситуацию, при которой сервер является единственной точкой отказа приложения. Хорошая система аварийного переключения при отказе, имеющая в составе реплицированные подчиненные серверы, способна существенно сократить время простоя.

Репликация

Тестирование новых версий

Очень часто на подчиненный сервер устанавливают новую версию СУБД и перед тем как ставить ее на промышленные серверы, проверяют, что все запросы работают нормально.

Передача изменений в приложение

Все изменения данных могут передаваться для анализа в стороннее приложение непосредственно после фиксации в базе.

Варианты взаимодействия

Primary-standby (уст. Master-slave): Подчиненный сервер повторяет состояние главного и не может изменять данные самостоятельно.
Primary-primary: Оба сервера равнозначны и могут обрабатывать запросы как на чтение, так и на изменение данных.

Варианты реализации

Физическая: Передаётся информация о физическом изменении страниц базы данных.
Логическая: Передаётся информация об изменении записей базы данных.
Передача запросов: Передаётся информация о выполненных запросах.

Гарантии репликации

Синхронная: Мастер-сервер не подтверждает транзакцию до того, как реплика не подтвердит получение данных.
Асинхронная: Мастер-сервер не ждёт подтверждения получения данных от реплики.
Majority: Мастер-сервер ждёт подтверждения получения данных от N-реплик.
Семисинхронная (полусинхронная) (MySQL): Мастер-сервер не подтверждает транзакцию до того, как "живые" реплики не подтвердят получение данных.

Физическая репликация

Общий принцип:

Главный сервер записывает изменения данных в журнал транзакций;
Подчиненный сервер копирует события журнала транзакций;
Подчиненный сервер воспроизводит изменения из журнала транзакций.

Физическая репликация

Плюсы:

Простота и надёжность;
Подчиненный сервер в точности соответствует мастер-серверу;
Практически отсутствуют накладные расходы.

Физическая репликация

Минусы:

Если данные на мастере были испорченны из-за сбоев RAM, то на подчинённом сервере так же будут испорченные данные;
На реплике не может быть локальных изменений схемы данных;
Обновление индексов и VACUUM так же попадают в журнал транзакций, это порождает избыточное сетевое общение;
Реплика может временно отставать, если на подчинённом сервере выполняется запрос на длительное чтение данных;
На подчинённом сервере должна быть та же версия PostgreSQL, что и на мастере;
Не возможна мастер-мастер репликация;
VACUUM на мастере может удалить еще используемые данные на подчинённом.

Логическая репликация (Slony-I)

Slony использует триггеры PostgreSQL для привязки к событиям INSERT/DELETE/UPDATE и хранимые процедуры для выполнения действий.

Логическая репликация (Logical Decoding)

Общий принцип:

Мастер сервер записывает изменения данных в журнал транзакций;
На базе журнала транзакций мастер сервер восстанавливает информация об изменении записей;
Данные об изменении записей передаются на подчиненный сервер.

Реализации:

Postgres 10
pglogical
Postgres-BDR

Логическая репликация

Плюсы:

Более компактный обмен данными;
Если данные на мастере были испорченны из-за сбоев RAM, то репликация остановится;
Репликация не может отставать из-за VACUUM;
На мастере и подчинённом сервере могут быть разные версии PostgreSQL;
На мастере и подчинённом сервере можно использовать разную схему данных;
Потенциально возможна мастер-мастер репликация.

Логическая репликация

Минусы:

Более высокая нагрузка на подчинённый сервер;
Надо крайне аккуратно работать со схемой данных;
Нет хорошего решения проблемы репликации DDL-запросов.

Пару слов про кластеры

Общая память

Кластер представляется как одна система (Single-System Image, SSI), то есть эквивалент операционной системы для кластера в целом.

В результате нет необходимости в модификации существующих приложений — все это осуществляется автоматически, прозрачно для приложений подобно SMP.

Общие диски

Узлы кластера используют единую файловую систему.

Операционная система берет на себя координацию работы с файловой системой и ряд сервисных функций.

Приложение должно явно поддерживать работу в кластере.

Ничего общего

Функции кластера целиком реализуются внутри приложения.

Postgres-XL

Postgres-XL позволяет объединить несколько кластеров PostgreSQL таким образом, чтоб они работали как один инстанс БД.

Для клиента, который подключается в базе, нет никакой разницы, работает он с единственным инстансом PostgreSQL или с кластером Postgres-XL. Postgres-XL предлагает 2 режима распределения таблиц по кластеру: репликация и шардинг.

При репликации все узлы содержат одинаковую копию таблицы, а при шардинге данные равномерно распределяются среди членов кластера.

Pgpool II

Pgpool II позволяет балансировать нагрузку на чтение между частями кластера.

Для клиента, который подключается в базе, нет никакой разницы, работает он с единственным инстансом PostgreSQL или с кластером Pgpool II.

Есть поддержка Failover.

Полнотекстовый поиск

В чем проблема?

Результат поиска нельзя оценивать бинарно: часть текстов больше, а часть меньше удовлетворяют поисковому запросу;
Нужно учитывать словоформы: падежи, склонения, спряжения и т.п.;
Документы могут быть не нескольких языках;
Полнотекстовый поиск должен работать быстро.

Предварительная обработка

Разбор документов на фрагменты.: При этом полезно выделить различные классы фрагментов, например, числа, слова, словосочетания, почтовые адреса и т. д., которые будут обрабатываться по-разному. Классы фрагментов могут зависеть от приложения, но часто подходит предопределённый набор классов.
Преобразование фрагментов в лексемы.: Лексема — это нормализованный фрагмент, в котором разные словоформы приведены к одной.
Хранение документов в форме, подготовленной для поиска.: Каждый документ может быть представлен в виде сортированного массива нормализованных лексем. Помимо лексем часто желательно хранить информацию об их положении для ранжирования по близости.

Словоформы

Запрос: мыла раму
Текст: Мама мыла раму

Запрос: мыть раму
Текст: Мама мыла раму

Запрос: мягкая булка
Текст: Съешь ещё этих мягких французских булок и выпей чаю

Словоформы

Кровать

Глагол, несовершенный вид, переходный, тип спряжения по классификации А. Зализняка — 2b.

Число	Лицо	Глагол
ед.	1-е я (что делаю)	Крую
	2-е ты (что делаешь)	Круёшь
	3-е он, она (что делает)	Круёт
мн.	1-е мы (что делаем)	Круём
	2-е вы (что делаете)	Круёте
	3-е они (что делают)	Круют

Словари в PostgreSQL

Создавая словари, можно:

определять стоп-слова, которые не будут индексироваться;
сопоставлять синонимы с одним словом, используя Ispell;
сопоставлять словосочетания с одним словом, используя тезаурус;
сопоставлять различные склонения слова с канонической формой, используя словарь Ispell;
сопоставлять различные склонения слова с канонической формой, используя стеммер Snowball.

Словари для Русского языка

В PostgreSQL по-умолчанию нет словарей для Русского языка, но можно воспользоваться словарями из пакета myspell-ru:

# Устанавливаем словари
sudo apt install myspell-ru
cd /usr/share/postgresql/9.5/tsearch_data
DICT=/usr/share/hunspell/ru_RU
# Копируем словари с преобразованием в UTF-8
sudo iconv -f koi8-r -t utf-8 -o russian.affix $DICT.aff
sudo iconv -f koi8-r -t utf-8 -o russian.dict  $DICT.dic

Подключаем словари

CREATE TEXT SEARCH DICTIONARY russian_ispell (
    TEMPLATE = ispell,
    DictFile = russian,
    AffFile = russian,
    StopWords = russian
);


CREATE TEXT SEARCH CONFIGURATION ru (COPY=russian);


ALTER TEXT SEARCH CONFIGURATION ru
    ALTER MAPPING FOR hword, hword_part, word
    WITH russian_ispell, russian_stem;

Проверяем словари

SELECT to_tsvector('russian', 'мама мыла раму');
       to_tsvector
-------------------------
 'мам':1 'мыл':2 'рам':3
(1 строка)


SELECT to_tsvector('ru', 'мама мыла раму');
             to_tsvector
-------------------------------------
 'мама':1 'мыло':2 'мыть':2 'рама':3
(1 строка)

Проверяем словари

SELECT to_tsvector('Съешь ещё этих мягких французских');
                  to_tsvector
------------------------------------------------
 'ещё':2 'мягк':4 'съеш':1 'французск':5 'эт':3
(1 строка)


SET default_text_search_config = 'ru';


SELECT to_tsvector('Съешь ещё этих мягких французских');
                      to_tsvector
-------------------------------------------------------
 'ещё':2 'мягкий':4 'съешь':1 'французский':5 'этих':3
(1 строка)

Собственно поиск

SELECT plainto_tsquery('мягкая булка') @@ to_tsvector(
    'Съешь ещё этих мягких французских булок и выпей чаю');
?column?
----------
t
(1 строка)


SELECT ts_headline('мама мыла милу', to_tsquery('мама'));
      ts_headline
-----------------------
 <b>мама</b> мыла милу
(1 строка)


SELECT ts_rank(to_tsvector(
    'Съешь ещё этих мягких французских булок и выпей чаю'
    ), to_tsquery('мягкая & булка'));
  ts_rank
-----------
 0.0985009
(1 строка)

Веса

SELECT
   setweight(to_tsvector('мама'), 'A') ||
   setweight(to_tsvector('мыла'), 'B') ||
   setweight(to_tsvector('раму'), 'D') @@ to_tsquery('мама:AB');
?column?
----------
t
(1 строка)


SELECT
   setweight(to_tsvector('мама'), 'A') ||
   setweight(to_tsvector('мыла'), 'B') ||
   setweight(to_tsvector('раму'), 'D') @@ to_tsquery('мама:BC');
?column?
----------
f
(1 строка)

Всё вместе

CREATE TABLE documents (
  id    SERIAL PRIMARY KEY,
  title TEXT,
  body  TEXT,
  fts   TSVECTOR
);

CREATE INDEX documents_fts USING GIN ON documents (fts);

INSERT INTO documents (title, body) VALUES
('Хокку', E'Голос модема!\nКак он напоминает\nПенье цикады.');

UPDATE documents
SET fts = setweight(to_tsvector(title), 'A')
       || setweight(to_tsvector(body), 'B');

SELECT * FROM documents WHERE fts @@ to_tsquery('модем');

Географические данные

PostGIS

Установка PostGIS

apt install postgis postgresql-9.5-postgis-scripts
service postgresql restart

Настойка базы данных

CREATE EXTENSION postgis;
CREATE EXTENSION postgis_topology;

PostGIS: Пример запроса

Расстояние между двумя точками

SELECT ST_Distance(
  ST_GeomFromText('POINT(37.6726 55.7448)'),  -- Moscow
  ST_GeomFromText('POINT(30.3715 59.9401)')); -- St Petersburg
   st_distance
------------------
 8.42060587487623
(1 строка)

Расстояние между двумя точками

SELECT ST_Distance(
  ST_GeogFromText('SRID=4326;POINT(37.6726 55.7448)'),
  ST_GeogFromText('SRID=4326;POINT(30.3715 59.9401)'));
   st_distance
-----------------
 636751.38845948
(1 строка)

PostGIS: Сфероиды

Что значит "SRID=4326"?

SELECT ST_Distance(
  ST_GeogFromText('SRID=4326;POINT(37.6726 55.7448)'),
  ST_GeogFromText('SRID=4326;POINT(30.3715 59.9401)'));
   st_distance
-----------------
 636751.38845948
(1 строка)

Сфероиды

WGS-84 (SRID=4326): GPS
ПЗ-90 (SRID=4740): ГЛОНАСС

SELECT * FROM spatial_ref_sys;

PostGIS: Пример запроса

EXPLAIN SELECT * FROM bookings.airports WHERE ST_DWithin(
    Geography(ST_SetSRID(ST_POINT(longitude, latitude), 4326)),
    ST_GeogFromText('SRID=4326;POINT(37.6726 55.7448)'),
    100 * 1000);

Seq Scan on airports  (cost=0.00..46.90 rows=1 width=101)
  Filter: ((geography(st_setsrid(…)) && '0101…4B40'::geography)
      AND ('0101…4B40'::geography && _st_expand(geography(st_setsrid(…)), 100000))
      AND _st_dwithin(geography(st_setsrid(…)), '0101…4B40'::geography, 100000, true))

PostGIS: Пример запроса

CREATE INDEX idx_airports ON bookings.airports USING GIST
    (Geography(ST_SetSRID(ST_POINT(longitude, latitude), 4326)));

EXPLAIN SELECT * FROM bookings.airports WHERE ST_DWithin(
    Geography(ST_SetSRID(ST_POINT(longitude, latitude), 4326)),
    ST_GeogFromText('SRID=4326;POINT(37.6726 55.7448)'),
    100 * 1000);

Bitmap Heap Scan on airports  (cost=4.30..16.96 rows=1 width=101)
  Recheck Cond: (geography(…) && '0101…4B40'::geography)
  Filter: (('0101…4B40'::geography && _st_expand(geography(…)), 100000))
      AND _st_dwithin(geography(st_setsrid(…), '0101…4B40'::geography, 100000, true))
  ->  Bitmap Index Scan on idx_airports  (cost=0.00..4.29 rows=21 width=0)
        Index Cond: (geography(st_setsrid(…)) && '0101…4B40'::geography)

Поиграться можно с базой: https://edu.postgrespro.ru/bookings.pdf

Хранение слабоструктурированных данных

Зачем?

Хранение сложных данных, содержимое которых не важно для сервера (например: настройки клиента);
Хранение данных, которые не имеет смысла нормализовать (например: CAD-схема);
Избавление от схемы данных для более быстрой миграции между версиями.

Хранение слабоструктурированных данных

Как хранить такие данные?

Двоичный формат (например: Protobuf, MessagePack);
Текстовый формат;
XML;
JSON;
JSONB.

JSON: Пример запроса

CREATE TABLE movies_json (
  id INT PRIMARY KEY,
  data JSONB
);

INSERT INTO movies_json (id, data)
SELECT m.id, json_build_object(
  'title', title,
  'year', year,
  'genres', (
    SELECT array_to_json(array_agg(name))
    FROM movie_genres mg JOIN genres g ON (mg.genre_id = g.id)
    WHERE mg.movie_id = m.id
  ),
  'tags', (
    SELECT array_to_json(COALESCE(array_agg(distinct name), array[]::text[]))
    FROM movie_tags mt JOIN tags t ON (mt.tag_id = t.id)
    WHERE mt.movie_id = m.id
  )
)
FROM movies m;

JSON: Пример запроса

SELECT data FROM movies_json
WHERE data->>'title' = 'Zombieland';

{
  "tags": [
    "Abigail Breslin",
    "atlanta",
    "awkward romance",
    "banjo",
    "Bill Murray",
    "Woody Harrelson",
    "zombies"
  ],
  "year": 2009,
  "title": "Zombieland",
  "genres": [
    "Horror",
    "Action",
    "Comedy"
  ]
}

JSON: Операции

A @>B, B <@ A: A является подмножеством B

A ?| array [B, C]: Проверяет, есть ли в A ключи/значения B или C

A ?& array [B, C]: Проверяет, есть ли в A ключи/значения B и C

A -> B, A ->> B: Получение из A элемента по ключу B

A #> '{B, C}', A #>> '{B, C}': Получает из A элемент по пути A -> B -> C

JSON: Пример запроса

SELECT data->>'title', data->>'year', data->'genres'
FROM movies_json
WHERE data @> '{"title": "Zombieland"}';

CREATE INDEX idx_movies_json ON movies_json
USING GIN (data jsonb_path_ops);

VS

SELECT data->>'title', data->>'year', data->'genres'
FROM movies_json
WHERE data ->> 'title' = 'Zombieland';

CREATE INDEX idx_movies_json_title ON movies_json
((data ->> 'title') text_pattern_ops);

JSON: Пример запроса

SELECT data ->> 'title'
FROM movies_json
WHERE data @> '{"genres": ["Comedy"], "tags": ["zombie"]}';

SELECT data ->> 'title'
FROM movies_json j
WHERE data @> '{"genres": ["Comedy"]}'
  AND EXISTS (
    SELECT value
    FROM jsonb_array_elements_text(j.data -> 'tags')
    WHERE value LIKE 'zombie%'
  );