Réplication logique Postgresql 11 - bloquée dans l'état «catchup»

Question

J'exécute deux serveurs postgresql 11 - maître et esclave (configuration avec réplication logique).

Le problème auquel je suis confronté est qu'aujourd'hui, après des semaines de travail ininterrompu, l'esclave s'est désynchronisé avec ce message d'erreur:

2019-09-16 07:39:44.332 CEST [30117] ERROR: could not send data to WAL stream: server closed the connection unexpectedly This probably means the server terminated abnormally before or while processing the request. 2019-09-16 07:39:44.539 CEST [12932] LOG: logical replication apply worker for subscription "logical_from_master" has started 2019-09-16 07:39:44.542 CEST [27972] LOG: background worker "logical replication worker" (PID 30117) exited with exit code 1

J'ai déjà vu ce message d'erreur et mon processus devait augmenter wal_sender_timeout sur le maître (plus de détails à ce sujet ici: réplication logique dans postgresql - "le serveur a fermé la connexion de manière inattendue" )

Donc, je voulais restaurer la réplication, mais l'état de réplication est bloqué lors du rattrapage:

master=# select * from pg_stat_replication; pid | usesysid | usename | application_name | client_addr | client_hostname | client_port | backend_start | backend_xmin | state | sent_lsn | write_lsn | flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state -------+----------+---------+-------------------+---------------+-----------------+-------------+-------------------------------+--------------+---------+--------------+--------------+--------------+--------------+-----------------+-----------------+-----------------+---------------+------------ 86864 | 16680 | my_user | logical_from_master | 10.10.10.10 | | 46110 | 2019-09-16 12:45:56.491325+02 | | catchup | D55/FA04D4B8 | D55/F9E74158 | D55/F9E44CD8 | D55/F9E74030 | 00:00:03.603104 | 00:00:03.603104 | 00:00:03.603104 | 0 | async (1 row)

J'ai essayé de redémarrer l'esclave à plusieurs reprises, avec différentes combinaisons d'abonnement activées et désactivées - rien n'y fait, l'état de la réplication reste sur catchup. Je vois sent_lsn et write_lsn les valeurs changent donc quelque chose est envoyé par ...

Voici ma configuration esclave:

wal_level=logical max_replication_slots=2 max_logical_replication_workers=4 wal_receiver_timeout=1200000

Et voici mon maître:

wal_level=logical max_replication_slots=10 max_wal_senders=10 # maximum wait time in milliseconds that the walsender process on the active master # waits for a status message from the walreceiver process on the standby master. wal_sender_timeout=1200000

Je ne sais pas quoi faire (pire encore, à ce stade, je ne sais pas quoi vérifier ensuite ...)

Pouvez-vous m'aider à comprendre ce que je dois faire pour que mon esclave rattrape son retard afin qu'il revienne à l'état streaming?

Modifier (12 heures plus tard)

Quand j'ai vérifié le matin, la synchronisation était toujours dans l'état catchup

master=# select * from pg_stat_replication; pid | usesysid | usename | application_name | client_addr | client_hostname | client_port | backend_start | backend_xmin | state | sent_lsn | write_lsn | flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state -------+----------+---------+-------------------+---------------+-----------------+-------------+-------------------------------+--------------+---------+--------------+--------------+--------------+--------------+-----------+-----------+------------+---------------+------------ 12965 | 16680 | my_user | logical_from_master | 10.10.10.10 | | 46630 | 2019-09-17 06:40:18.801262+02 | | catchup | D56/248E13A0 | D56/247E3908 | D56/247E3908 | D56/247E3908 | | | | 0 | async (1 row)

Mais quand j'ai vérifié à nouveau 60 secondes plus tard, l'ensemble de résultats était vide ...

Les journaux affichent désormais plusieurs incarnations de la même erreur:

2019-09-16 22:43:33.841 CEST [20260] ERROR: could not receive data from WAL stream: server closed the connection unexpectedly This probably means the server terminated abnormally before or while processing the request. 2019-09-16 22:43:33.959 CEST [26087] LOG: background worker "logical replication worker" (PID 20260) exited with exit code 1 2019-09-16 22:43:34.112 CEST [3510] LOG: logical replication apply worker for subscription "logical_from_master" has started (...)

Afin que la réplication apparaisse comme catchup sur le maître, je dois maintenant redémarrer l'esclave d'abord ...

Modifier (en réponse au commentaire de @LaurenzAlbe)

J'ai reconstruit la réplique hier matin et j'ai observé que la réplication échouait à nouveau à partir de 19 h 53. Journaux pour le maître et pour la réplique ci-dessous:

2019-09-18 19:15:13.767 CEST [8611] LOG: logical replication table synchronization worker for subscription "logical_replica_from_master", table "lasttable" has finished 2019-09-18 19:54:14.875 CEST [11469] ERROR: could not send data to WAL stream: server closed the connection unexpectedly This probably means the server terminated abnormally before or while processing the request. 2019-09-18 19:54:14.969 CEST [10330] LOG: logical replication apply worker for subscription "logical_replica_from_master" has started 2019-09-18 19:54:15.031 CEST [11217] LOG: background worker "logical replication worker" (PID 11469) exited with exit code 1

Journal correspondant du maître:

2019-09-18 19:50:36.386 CEST,,,111051,,5d826e6a.1b1cb,1,,2019-09-18 19:50:34 CEST,138/28493452,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 8949 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 43798 remain, 43783 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 17925 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.04 s, system: 0.05 s, elapsed: 1.88 s",,,,,,,,,"" 2019-09-18 19:51:36.402 CEST,,,1714,,5d826ea6.6b2,1,,2019-09-18 19:51:34 CEST,316/16529009,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 8949 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 43798 remain, 43795 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 17925 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.01 s, system: 0.07 s, elapsed: 1.87 s",,,,,,,,,"" 2019-09-18 19:52:36.421 CEST,,,2649,,5d826ee2.a59,1,,2019-09-18 19:52:34 CEST,153/19807659,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 8949 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 43798 remain, 43795 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 17924 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.03 s, system: 0.05 s, elapsed: 1.87 s",,,,,,,,,"" 2019-09-18 19:53:36.424 CEST,,,2945,,5d826f1e.b81,1,,2019-09-18 19:53:34 CEST,317/15405278,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 8949 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 43798 remain, 43795 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 17924 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.03 s, system: 0.05 s, elapsed: 1.88 s",,,,,,,,,"" 2019-09-18 19:54:15.123 CEST,"core","my_db",3073,"10.194.132.16:50372",5d826f47.c01,1,"idle",2019-09-18 19:54:15 CEST,317/0,0,LOG,00000,"starting logical decoding for slot ""logical_replica_from_master""","Streaming transactions committing after D5B/7A4D40, reading WAL from D5B/7A4D40.",,,,,,,,"logical_replica_from_master" 2019-09-18 19:54:15.124 CEST,"core","my_db",3073,"10.194.132.16:50372",5d826f47.c01,2,"idle",2019-09-18 19:54:15 CEST,317/0,0,LOG,00000,"logical decoding found consistent point at D5B/7A4D40","There are no running transactions.",,,,,,,,"logical_replica_from_master" 2019-09-18 19:54:36.442 CEST,,,3152,,5d826f5a.c50,1,,2019-09-18 19:54:34 CEST,362/5175766,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 8949 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 43798 remain, 43795 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 17924 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.02 s, system: 0.06 s, elapsed: 1.88 s",,,,,,,,,""

Puis vers minuit sur l'esclave:

2019-09-19 00:16:48.167 CEST [10330] ERROR: could not send data to WAL stream: server closed the connection unexpectedly This probably means the server terminated abnormally before or while processing the request. 2019-09-19 00:16:48.276 CEST [19530] LOG: logical replication apply worker for subscription "logical_replica_from_master" has started 2019-09-19 00:16:48.324 CEST [11217] LOG: background worker "logical replication worker" (PID 10330) exited with exit code 1

et maître de connexion correspondant:

2019-09-19 00:15:41.104 CEST,,,74257,,5d82ac89.12211,1,,2019-09-19 00:15:37 CEST,78/34511468,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 13603 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 64816 remain, 64813 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 27234 hits, 0 misses, 1 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.003 MB/s system usage: CPU: user: 0.03 s, system: 0.08 s, elapsed: 2.85 s",,,,,,,,,"" 2019-09-19 00:16:13.688 CEST,,,35656,,5d382555.8b48,11190,,2019-07-24 11:31:01 CEST,,0,LOG,00000,"checkpoint complete: wrote 1748 buffers (0.0%); 0 WAL file(s) added, 0 removed, 1 recycled; write=174.932 s, sync=0.000 s, total=174.936 s; sync files=75, longest=0.000 s, average=0.000 s; distance=11366 kB, estimate=13499 kB",,,,,,,,,"" 2019-09-19 00:16:41.121 CEST,,,75038,,5d82acc5.1251e,1,,2019-09-19 00:16:37 CEST,185/19338019,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 13603 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 64816 remain, 64813 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 27233 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.04 s, system: 0.07 s, elapsed: 2.85 s",,,,,,,,,"" 2019-09-19 00:16:48.335 CEST,"core","my_db",75294,"10.194.132.16:50480",5d82acd0.1261e,1,"idle",2019-09-19 00:16:48 CEST,315/0,0,LOG,00000,"starting logical decoding for slot ""logical_replica_from_master""","Streaming transactions committing after D5B/1D1F1C0, reading WAL from D5B/1CA07F8.",,,,,,,,"logical_replica_from_master" 2019-09-19 00:16:48.335 CEST,"core","my_db",75294,"10.194.132.16:50480",5d82acd0.1261e,2,"idle",2019-09-19 00:16:48 CEST,315/0,0,LOG,00000,"logical decoding found consistent point at D5B/1CA07F8","There are no running transactions.",,,,,,,,"logical_replica_from_master" 2019-09-19 00:17:41.141 CEST,,,75484,,5d82ad01.126dc,1,,2019-09-19 00:17:37 CEST,330/18178915,0,LOG,00000,"automatic vacuum of table ""my_db.pg_toast.pg_toast_22314"": index scans: 0 pages: 0 removed, 13613 remain, 0 skipped due to pins, 0 skipped frozen tuples: 0 removed, 64866 remain, 64863 are dead but not yet removable, oldest xmin: 3141915780 buffer usage: 27254 hits, 0 misses, 0 dirtied avg read rate: 0.000 MB/s, avg write rate: 0.000 MB/s system usage: CPU: user: 0.04 s, system: 0.07 s, elapsed: 2.85 s",,,,,,,,,""

Éditer

Le message d'erreur suivant (sur le maître) apparaît exactement après wal_sender_timeout heure (à partir du moment où la réplication est activée sur l'esclave):

2019-09-19 13:33:58.015 CEST,"core","nzdb",112432,"10.194.132.16:50886",5d8362f5.1b730,5,"idle",2019-09-19 13:13:57 CEST,379/2076197,0,LOG,00000,"terminating walsender process due to replication timeout",,,,,"slot ""logical_replica_from_master"", output plugin ""pgoutput"", in the change callback, associated LSN D5B/6782CF0",,,"WalSndCheckTimeOut, walsender.c:2100","logical_replica_from_master"

Éditer

J'ai ajouté plus RAM à ce serveur mais l'observation est toujours la même - après wal_sender_timeout l'ouvrier sur l'esclave enregistre l'erreur mentionnée ci-dessus et sur le maître, je reste avec pg_stat_replication:

 pid | usesysid | usename | application_name | client_addr | client_hostname | client_port | backend_start | backend_xmin | state | sent_lsn | write_lsn | flush_lsn | replay_lsn | write_lag | flush_lag | replay_lag | sync_priority | sync_state -------+----------+---------+--------------------------------------------+---------------+-----------------+-------------+-------------------------------+--------------+---------+----------+-----------+-----------+------------+-----------+-----------+------------+---------------+------------ 87820 | 16680 | core | logical_replica_from_master_27004_sync_21691 | 10.10.10.10 | | 55548 | 2019-09-19 15:31:40.032662+02 | 3142872730 | startup | | | | | | | | 0 | async (1 row)

Puis après un très long moment, il est de retour au rattrapage mais avec des sent_lsn

Si je lance INSERT pour tester la table sur le maître, je ne vois pas de changements sur l'esclave.

Rafel Bennassar · Accepted Answer

Comme vous l'avez déjà découvert, votre base de données principale est trop occupée pour qu'un seul opérateur de réplication puisse gérer toutes les modifications.

Vous devez regrouper vos tables - mais assurez-vous de le faire de manière à ce que les tables avec des clés étrangères soient traitées avec le même travailleur, sinon vous pourriez vous retrouver dans une situation où une contrainte de clé étrangère empêchera l'insertion de données dans une table car la table étrangère les points clés à n'avaient pas encore été mis à jour.

Greg0ry · Answer

J'ai sous-estimé à quel point la base de données principale était occupée et c'est parce qu'en juillet, j'ai observé que la réplication fonctionnait sans erreur. Apparemment, juillet est le mois des vacances, donc la base de données a subi un minimum de charge pour que le problème ne se manifeste pas.

Un de mes collègues a souligné qu'il existe plusieurs processus d'écriture simultanée dans cette base de données, ce qui explique pourquoi un seul expéditeur WAL ne gère tout simplement pas le volume d'informations. C'était un conseil très valable et ensuite je me grattais la tête en essayant de penser pourquoi je n'y avais pas pensé en premier lieu. @jjanes a également touché la base dans le premier commentaire à ce sujet. J'ai trop confiance dans la façon dont postgres s'adapte même avec des options par défaut à de telles charges de travail différentes.

Donc, ce que je fais maintenant, c'est d'éviter d'utiliser CREATE PUBLICATION .. FOR ALL TABLES et créez plutôt plusieurs publications avec plusieurs abonnements correspondants côté réplique.