濮阳杆衣贸易有限公司

主頁 > 知識庫 > MySQL主從同步機制與同步延時問題追查過程

MySQL主從同步機制與同步延時問題追查過程

熱門標簽:昆明電信400電話辦理 南昌高頻外呼系統(tǒng)哪家公司做的好 電銷機器人各個細節(jié)介紹 溫州瑞安400電話怎么申請 俄國地圖標注app 電話機器人市場趨勢 電銷機器人 行業(yè) 百度地圖標注后不顯示 淄博400電話申請

前言

作為一名DBA,在工作中會經(jīng)常遇到一些MySQL主從同步延遲的問題,這些同步慢的問題,其實原因非常多,可能是因為主從的網(wǎng)絡問題導致,可能是因為網(wǎng)絡帶寬問題導致,可能是因為大事務導致,也可能是因為單線程復制導致的延遲。

今天遇到一個問題,Mysql持續(xù)報錯,主從同步延時數(shù)過大或錯誤。所以這篇文章給大家分享下主從同步的機制原理以及問題排查思路。

故障表現(xiàn)

最直觀的表現(xiàn)為:

mysql> show slave status\G;
 // 狀態(tài)一
 Seconds_Behind_Master: NULL
 // 狀態(tài)二
 Seconds_Behind_Master: 0
 // 狀態(tài)三
 Seconds_Behind_Master: 79

連續(xù)查詢,大部分時間該屬性值=0,偶發(fā)性出現(xiàn)Null或者79等延時值。導致觀察主從同步延時的監(jiān)控持續(xù)報警。

故障原因及解決方案

多臺備機的server-id一致,導致主機無法長時間同某一臺備機連接,進而無法正常同步。

修改server-id后,重啟數(shù)據(jù)庫恢復。

主從同步機制

MySQL的主從同步,又稱為復制(replication),是一種內置的高可用高性能集群解決方案,主要功能有:

  • 數(shù)據(jù)分布:同步不需要很大帶寬,可以實現(xiàn)多數(shù)據(jù)中心復制數(shù)據(jù)。
  • 讀取的負載均衡:通過服務器集群,可以通過DNS輪詢、Linux LVS等GSLB(全局負載均衡)方式,降低主服務器的讀壓力。
  • 數(shù)據(jù)庫備份:復制是備份的一部分,但并不能代替?zhèn)浞?。還需要與快照相結合。
  • 高可用性和故障轉移:從服務器可以快速切換為主服務器,減少故障的停機時間和恢復時間。

主從同步分為3步:

  1. 主服務器(master)把數(shù)據(jù)更改記錄到二進制日志(binlog)中。
  2. 從服務器(slave)把主服務器的二進制日志復制到自己的中繼日志(relay log)中。
  3. 從服務器重做中繼日志中的日志,把更改應用到自己的數(shù)據(jù)庫上,達到數(shù)據(jù)的一致性。

主從同步是一個異步實時的同步,會實時的傳輸,但存在執(zhí)行上的延時,如果主服務器壓力很大,延時也會相應擴大。

通過上面的圖,可以看到一共需要3個線程:

  1. 主服務器的日志傳送線程:負責將二進制日志增量傳送到備機
  2. 從服務器的I/O線程:負責讀取主服務器的二進制日志,并保存為中繼日志
  3. 從服務器的SQL線程,負責執(zhí)行中繼日志

查看MySQL線程

我們可以使用show full processlist;命令來查看MySQL的狀態(tài):

主機的狀態(tài):

備機的狀態(tài):

可以看到,我的集群架構為1臺主機、4臺備機,所以在主機中有4個同步線程(已經(jīng)發(fā)送所有的binlog數(shù)據(jù)到備機,等待binlog日志更新),1個查看命令線程(show full processlist)。在備機中有1個查看命令線程,1個I/O線程(等待主機發(fā)送同步數(shù)據(jù)事件),1個SQL線程(已經(jīng)讀取了所有中繼日志,等待I/O線程來更新它)。

查看同步狀態(tài)

因為主從同步是異步實時的,也就是會存在延時的情況,我們可以通過show slave status;來查看備機上的同步延時:

在主從同步中我們需要關注的一些屬性,已經(jīng)給大家標紅了:

  • Slave_IO_State: 當前I/O線程的狀態(tài)
  • Master_Log_File: 當前同步的主服務器的二進制文件
  • Read_Master_Log_Pos: 當前同步的主服務器的二進制文件的偏移量,單位為字節(jié),如圖中為已經(jīng)同步了12.9M(13630580/1024/1024)的內容
  • Relay_Master_Log_File: 當前中繼日志同步的二進制文件
  • Slave_IO_Running: 從服務器中I/O線程的運行狀態(tài),YES為運行正常
  • Slave_SQL_Running: 從服務器中SQL線程的運行狀態(tài),YES為運行正常
  • Exec_Master_Log_Pos: 表示同步完成的主服務器的二進制日志偏移量
  • Seconds_Behind_Master: 表示從服務器數(shù)據(jù)比主服務器落后的持續(xù)時長

同樣可以通過show master status;命令來查看主服務器的運行狀態(tài):

正常運行的主從同步狀態(tài):

Slave_IO_Running: YES
Slave_SQL_Running: YES
Seconds_Behind_Master: 0

問題排查

在理解了主從同步的機制后,再來看今天遇到的問題,通過查看備機狀態(tài),我們觀察在三種狀態(tài)下的幾個關鍵屬性值:

mysql> show slave status\G;
#狀態(tài)一:
 Slave_IO_State: Reconnecting after a failed master event read
 Slave_IO_Running: No
 Slave_SQL_Running: Yes
 Seconds_Behind_Master: NULL
#狀態(tài)二:
 Slave_IO_State: Waiting for master to send event
 Slave_IO_Running: Yes
 Slave_SQL_Running: Yes
 Seconds_Behind_Master: 0
#狀態(tài)三:
 Slave_IO_State: Queueing master event to the relay log
 Slave_IO_Running: Yes
 Slave_SQL_Running: Yes
 Seconds_Behind_Master: 636

通過MySQL主從復制線程狀態(tài)轉變,我們可以看到三種狀態(tài)的不同含義:

# 狀態(tài)一
# 線程正嘗試重新連接主服務器,當連接重新建立后,狀態(tài)變?yōu)閃aiting for master to send event。
Reconnecting after a failed master event read
# 狀態(tài)二
# 線程已經(jīng)連接上主服務器,正等待二進制日志事件到達。如果主服務器正空閑,會持續(xù)較長的時間。如果等待持續(xù)slave_read_timeout秒,則發(fā)生超時。此時,線程認為連接被中斷并企圖重新連接。
Waiting for master to send event

# 狀態(tài)三
# 線程已經(jīng)讀取一個事件,正將它復制到中繼日志供SQL線程來處理。
Queueing master event to the relay log

在這里,我們可以猜測,由于某些原因,從服務器不斷的和主服務器進行斷開并嘗試重連,重連成功后又再次斷開。

我們再看看主機的運行情況:

發(fā)現(xiàn)問題出在10.144.63.*和10.144.68.*兩臺機器上,我們查看其中一臺的錯誤日志:

190214 11:33:20 [Note] Slave: received end packet from server, apparent master shutdown:
190214 11:33:20 [Note] Slave I/O thread: Failed reading log event, reconnecting to retry, log 'mysql-bin.005682' at postion 13628070

拿到關鍵字Slave: received end packet from server, apparent master shutdown: Google搜索一下,在文章Confusing MySQL Replication Error Message中可以看到原因為兩臺備機的server-id重復。

One day it happen to me, and took me almost an hour to find that out.
Moving foward I always use a base my.cnf to I copy to any other server and the first thing is to increase the server-id.
Could MySQL just use the servername intead of a numeric value?

問題修復

定位了問題,我們確認下是否重復,發(fā)現(xiàn)兩臺備機的該字段確實相同:

vim my.cnf

#replication
log-bin=mysql-bin
# 這個隨機數(shù)字相同導致的
server-id=177230069
sync_binlog=1

更改一個其他不同的數(shù)字,保存,重啟MySQL進程,報警恢復。

總結

最終來看,這個問題的解決非常簡單,但從剛開始的迷茫到最后的思路清晰,都是我們排查問題所常見的,這篇文章的主要收獲是讓你明白主從同步的機制和追查問題的思路,希望下次我們都能很快的解決主從同步帶給我們的問題。

好了,以上就是這篇文章的全部內容了,希望本文的內容對大家的學習或者工作具有一定的參考學習價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

參考資料

  • 《MySQL基礎內幕 InnoDB存儲引擎 第2版》P8.7 復制
  • MySQL主從復制線程狀態(tài)轉變
  • Confusing MySQL Replication Error Message
您可能感興趣的文章:
  • MySQL 主從同步,事務回滾的實現(xiàn)原理
  • MySQL數(shù)據(jù)庫主從同步實戰(zhàn)過程詳解
  • MySQL主從同步中的server-id示例詳解
  • Centos7系統(tǒng)下Mysql主從同步配置方案
  • MySQL主從同步延遲的原因及解決辦法
  • MySQL數(shù)據(jù)庫的主從同步配置與讀寫分離
  • Mysql主從同步Last_IO_Errno:1236錯誤解決方法
  • Mysql主從同步的實現(xiàn)原理
  • 詳解Mysql主從同步配置實戰(zhàn)
  • 詳解windows下mysql的主從同步
  • 詳解MySQL數(shù)據(jù)庫設置主從同步的方法
  • Mysql數(shù)據(jù)庫的主從同步配置

標簽:洛陽 葫蘆島 安徽 拉薩 甘南 嘉峪關 吐魯番

巨人網(wǎng)絡通訊聲明:本文標題《MySQL主從同步機制與同步延時問題追查過程》,本文關鍵詞  MySQL,主從,同步,機制,與,;如發(fā)現(xiàn)本文內容存在版權問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《MySQL主從同步機制與同步延時問題追查過程》相關的同類信息!
  • 本頁收集關于MySQL主從同步機制與同步延時問題追查過程的相關信息資訊供網(wǎng)民參考!
  • 推薦文章
    杭锦后旗| 绍兴市| 安庆市| 班戈县| 新建县| 黑山县| 高台县| 上蔡县| 闵行区| 湄潭县| 咸宁市| 庆阳市| 九台市| 永州市| 航空| 永嘉县| 昌乐县| 麻栗坡县| 平遥县| 洮南市| 鄂托克旗| 枣庄市| 永新县| 建昌县| 保定市| 格尔木市| 华宁县| 苍梧县| 汨罗市| 金溪县| 乌鲁木齐县| 芮城县| 大理市| 湖州市| 乡城县| 龙胜| 五河县| 和静县| 张北县| 铜陵市| 莱芜市|