數(shù)據(jù)的一致性和完整性對(duì)于在線業(yè)務(wù)的重要性不言而喻,如何保證數(shù)據(jù)不丟呢?今天我們就探討下關(guān)于數(shù)據(jù)的完整性和強(qiáng)一致性,MySQL做了哪些改進(jìn)。
一. MySQL的二階段提交
在Oracle和MySQL這種關(guān)系型數(shù)據(jù)庫(kù)中,講究日志先行策略(Write-Ahead Logging),只要日志持久化到磁盤(pán),就能保證MySQL異常重啟后,數(shù)據(jù)不丟失。在MySQL中,提到日志不得不提的就是redo log和binlog。
1. redo log
redo log又稱重做日志文件,詳細(xì)的記錄了對(duì)每一個(gè)數(shù)據(jù)頁(yè)里面的數(shù)據(jù)行的修改,記錄的是數(shù)據(jù)修改之后的值。Redo log是用來(lái)做數(shù)據(jù)庫(kù)crash recovery的,是保證數(shù)據(jù)安全的非常重要的功能之一。
redo log的寫(xiě)入的方式是順序?qū)?、循環(huán)寫(xiě),通過(guò)innodb_log_file_size和innodb_log_files_in_group兩個(gè)參數(shù)控制redo log的文件大小和個(gè)數(shù)。redo log在寫(xiě)入磁盤(pán)前會(huì)先寫(xiě)redo log buffer中,大小由innodb_log_buffer_size控制。日志在寫(xiě)入redo log buffer后是如何持久化到磁盤(pán)的呢?為了控制redo log的寫(xiě)入策略,Innodb根據(jù)innodb_flush_log_at_trx_commit參數(shù)不同的取值采用不同的策略,它有三種不同的取值:
- 1. 設(shè)置為 0 的時(shí)候:事務(wù)提交時(shí)由MySQL的后臺(tái)Master線程每隔1秒將緩存區(qū)的文件刷新到日志文件中。
- 2. 設(shè)置為 1 的時(shí)候,表示每次事務(wù)提交時(shí)都將 redo log 直接持久化到磁盤(pán),保證了事務(wù)日志不丟失,但會(huì)對(duì)數(shù)據(jù)庫(kù)性能稍有影響。
- 3. 設(shè)置為 2 的時(shí)候,表示每次事務(wù)提交時(shí)都只是把 redo log 寫(xiě)到 日志文件中,但不會(huì)刷盤(pán),由文件系統(tǒng)自行刷磁盤(pán)。
三種模式下,0的性能最好,但是不安全,MySQL進(jìn)程一旦崩潰會(huì)導(dǎo)致丟失一秒的數(shù)據(jù)。1的安全性最高,但是對(duì)性能影響最大,2的話主要由操作系統(tǒng)自行控制刷磁盤(pán)的時(shí)間,如果僅僅是MySQL宕機(jī),對(duì)數(shù)據(jù)不會(huì)產(chǎn)生影響,如果是主機(jī)異常宕機(jī)了,同樣會(huì)丟失數(shù)據(jù)。
2. binlog
binlog又稱二進(jìn)制日志,記錄了對(duì)MySQL數(shù)據(jù)庫(kù)執(zhí)行更改的所有操作,不包含select和show操作,主要起到了恢復(fù)、復(fù)制、審計(jì)等功能。Binlog的格式主要有statement、row、mixed三種。
Statement:基于操作的SQL語(yǔ)句記錄到binlog中,不建議使用。
Row:基于行的變更情況記錄,會(huì)記錄行更改前后的內(nèi)容,row模式也是數(shù)據(jù)庫(kù)不丟數(shù)據(jù)的重要保證,推薦使用。
Mixed:混合前兩個(gè)模式,不建議使用。
Binlog的寫(xiě)入邏輯也比較簡(jiǎn)單:事務(wù)執(zhí)行過(guò)程中,先寫(xiě)入binlog cache,事務(wù)提交時(shí)再寫(xiě)入binlog文件。binlog cache由binlog_cache_size和max_binlog_size參數(shù)控制,每個(gè)線程分配一個(gè)binlog cache,但是共用binlog文件。
Binlog的寫(xiě)入日志文件的機(jī)制由sync_binlog控制:
- 1. sync_binlog=0 的時(shí)候,表示每次提交事務(wù)都只 write,不 fsync;
- 2. sync_binlog=1 的時(shí)候,表示每次提交事務(wù)都會(huì)執(zhí)行 fsync,將數(shù)據(jù)刷盤(pán);
- 3. sync_binlog=N(N>1) 的時(shí)候,表示n次事務(wù)提交之后,MySQL才進(jìn)行一次fsync動(dòng)作,將binlog cache中的數(shù)據(jù)刷入磁盤(pán)。
innodb_flush_log_at_trx_commit和sync_binlog都設(shè)置為1是MySQL數(shù)據(jù)中經(jīng)典的雙一模式,是數(shù)據(jù)庫(kù)不丟數(shù)據(jù)的保障。
MySQL數(shù)據(jù)采取WAL機(jī)制就是為了減少每次臟數(shù)據(jù)刷盤(pán)帶來(lái)的性能影響,如果設(shè)置”雙一”策略會(huì)不會(huì)影響數(shù)據(jù)庫(kù)的性能呢?其實(shí)這主要得益于redo log和binlog都是順序?qū)?,磁盤(pán)的順序?qū)懕入S機(jī)寫(xiě)的速度要快的多,加上MySQL內(nèi)部的組提交機(jī)制,已經(jīng)大幅降低了對(duì)磁盤(pán)的IOPS消耗了。
3. 兩階段提交
MySQL引入二階段提交(two phase commit or 2pc),MySQL內(nèi)部會(huì)將普通事務(wù)當(dāng)做一個(gè)XA事務(wù)(內(nèi)部分布式事務(wù))來(lái)處理,會(huì)自動(dòng)為每個(gè)事務(wù)分配一個(gè)唯一的ID(XID),COMMIT會(huì)被動(dòng)的分成Prepare和Commit兩個(gè)階段。
第一階段:Transaction Prepare Phase
此時(shí)SQL已經(jīng)成功執(zhí)行,并生成xid信息及redo和undo的內(nèi)存日志。然后調(diào)用prepare方法完成第一階段,將事務(wù)狀態(tài)設(shè)為T(mén)RX_PREPARED,并將redo log刷盤(pán)。
第二階段:Commit Phase
如果事務(wù)第一階段進(jìn)入prepare階段,則將產(chǎn)生的binlog寫(xiě)入文件并刷盤(pán),此時(shí)事務(wù)已經(jīng)鐵定要提交了。
具體異常場(chǎng)景分析:
1. 當(dāng)事務(wù)在prepare階段crash,數(shù)據(jù)庫(kù)recovery的時(shí)候該事務(wù)未寫(xiě)⼊Binary log并且存儲(chǔ)引擎未提交,則該事務(wù)rollback。
2. 當(dāng)事務(wù)在binlog階段crash,此時(shí)⽇志還沒(méi)有成功寫(xiě)⼊到磁盤(pán)中,啟動(dòng)時(shí)會(huì)rollback此事務(wù)。3. 當(dāng)事務(wù)在binlog⽇志已經(jīng)fsync()到磁盤(pán)后crash,但是InnoDB沒(méi)有來(lái)得及commit,此時(shí)MySQL數(shù)據(jù)庫(kù)recovery的時(shí)候?qū)?huì)讀出⼆進(jìn)制⽇志的Xid_log_event,然后告訴InnoDB提交這些XID的事務(wù),InnoDB提交完這些事務(wù)后會(huì)回滾其它的事務(wù),使存儲(chǔ)引擎和⼆進(jìn)制⽇志始終保持⼀致。
MySQL的二階段提交就保證了數(shù)據(jù)庫(kù)在異常宕機(jī)重啟后的數(shù)據(jù)不丟失。
二. Double Write
前面我們說(shuō)了,redo log、binlog以及二階段提交保證了數(shù)據(jù)在MySQL異常重啟后能夠通過(guò)前滾和回滾恢復(fù)數(shù)據(jù)。MySQL在recovery時(shí)通過(guò)redo log進(jìn)行恢復(fù),redo log記錄的是頁(yè)上的物理操作,但是這里有個(gè)問(wèn)題,如果頁(yè)本身就是錯(cuò)的,比如發(fā)生頁(yè)的部分寫(xiě)問(wèn)題(頁(yè)大小是 16K,假設(shè)在把內(nèi)存中的臟頁(yè)寫(xiě)到數(shù)據(jù)庫(kù)的時(shí)候,寫(xiě)了4K 突然掉電。也就是前兩 4K 是新的,后 12K 是舊的,那么這個(gè)數(shù)據(jù)頁(yè)就是不完整的,是一個(gè)壞掉的數(shù)據(jù)頁(yè)), 這時(shí)redo恢復(fù)的時(shí)候會(huì)去校驗(yàn)數(shù)據(jù)頁(yè)的完整性,此時(shí)數(shù)據(jù)頁(yè)已經(jīng)損壞了,故無(wú)法使用 redo log 進(jìn)行恢復(fù),這個(gè)數(shù)據(jù)就丟失了。
Double Write原理:
1、當(dāng)刷新緩沖池臟頁(yè)時(shí),并不直接寫(xiě)到數(shù)據(jù)文件中,而是先拷貝至double write buffer。
2、然后從double write buffer分兩次寫(xiě)入磁盤(pán)共享表空間中,每次寫(xiě)入 1MB。
3、最后再?gòu)膁ouble write buffer寫(xiě)入數(shù)據(jù)文件。雖然數(shù)據(jù)總是寫(xiě)入兩次,但是由于double write 寫(xiě)入的時(shí)候是順序?qū)?,?shí)際上也就犧牲了系統(tǒng)性能的 10%左右。
這樣就可以解決上文提到的部分寫(xiě)失效的問(wèn)題,因?yàn)樵诖疟P(pán)共享表空間中已有數(shù)據(jù)頁(yè)副本拷貝,如果數(shù)據(jù)庫(kù)在頁(yè)寫(xiě)入數(shù)據(jù)文件的過(guò)程中宕機(jī),在實(shí)例恢復(fù)時(shí),可以從共享表空間中找到該頁(yè)副本,將其拷貝覆蓋原有的數(shù)據(jù)頁(yè),再應(yīng)用重做日志即可。
3. 小結(jié)
今天我們聊了MySQL的二階段提交和double write機(jī)制,分別解決了在MySQL宕機(jī)重啟以及發(fā)生頁(yè)的部分寫(xiě)的場(chǎng)景下,MySQL是如何做到不丟失數(shù)據(jù)。那如果我們的操作系統(tǒng)宕機(jī)無(wú)法啟動(dòng)了,又該怎么辦呢?MySQL在集群架構(gòu)中又做了哪些優(yōu)化來(lái)保證數(shù)據(jù)不丟失呢?我們下一章再來(lái)和大家分享MySQL在集群架構(gòu)中的優(yōu)化改進(jìn)。
您可能感興趣的文章:- 詳解MySQL:數(shù)據(jù)完整性
- 基于MySQL數(shù)據(jù)庫(kù)的數(shù)據(jù)約束實(shí)例及五種完整性約束介紹
- 深入淺析MySQL從刪庫(kù)到跑路_高級(jí)(一)——數(shù)據(jù)完整性
- MySQL使用mysqldump+binlog完整恢復(fù)被刪除的數(shù)據(jù)庫(kù)原理解析
- Django配置MySQL數(shù)據(jù)庫(kù)的完整步驟
- php使用mysqli和pdo擴(kuò)展,測(cè)試對(duì)比mysql數(shù)據(jù)庫(kù)的執(zhí)行效率完整示例
- php使用mysqli和pdo擴(kuò)展,測(cè)試對(duì)比連接mysql數(shù)據(jù)庫(kù)的效率完整示例
- Spring MVC實(shí)現(xiàn)mysql數(shù)據(jù)庫(kù)增刪改查完整實(shí)例
- MySQL數(shù)據(jù)庫(kù)卸載的完整步驟
- C#連接mysql數(shù)據(jù)庫(kù)完整實(shí)例
- PHP中執(zhí)行MYSQL事務(wù)解決數(shù)據(jù)寫(xiě)入不完整等情況