糯米文學吧

位置:首頁 > 計算機 > php語言

PHP 死鎖問題分析

php語言1.79W

程序員們面對PHP死鎖問題的時候可能會不重視,認為重啟一下就好,但是其實這樣是沒有解決問題的。以下是本站小編精心為大家整理的PHP 死鎖問題分析,希望對大家有所幫助!更多內容請關注應屆畢業生網!

PHP 死鎖問題分析

 背景:對於死鎖的問題,人們往往想到出現一些關於訪問很緩慢,有白頁現象,要是測試環境(我就真實遇到測試環境有本文談及一樣的問題)你也就重啟一下PHP的php-fpm進程發現又好了,隔一段時間又出類似的問題,你會看下日誌,你會發現有很多日誌是“Max execution timeout of 60 seconds exceeded”,你會發現這可能是一些php的守護進程導致的,你為了解決測試環境的問題,於是覺得應該把那個php-fpm的進程數開多點,可能會好一些,於是你開多了,一直沒有面對這個問題的原因,為什麼呢,因為公司裝PHP的是運維裝的,你沒有辦法或時間去裝一個debug版本的php,你説這個問題讓運維的人來查,你覺得能查出來?So,這個問題一拖再拖,但就是沒解決,但是有一天你發現磁盤滿了,用du去看整體時發現滿了,但是如果一個個目錄去看發現並沒有佔用多少,也萬萬沒有想到PHP的死鎖還會導致磁盤空間佔用太多,上面這種情況我就真實遇到過,後來重新reboot操作系統,磁盤又回來了,所以,我認為是一篇好文章,所以轉了此文,也想説明對於PHP的擴展這方面代碼質量把關需要嚴格,再就是PHP本身關於鎖這塊要弱化(除開cookie/session和cache鎖外,其它能不用就不用),儘可能少用鎖,這是博主一點小看法,下面言歸正傳。

  發現問題

近期發現線上很多機器的磁盤空間報警, 且日誌文件已經清理,但是磁盤空間沒有釋放。通過ps aux | grep php-cgi 發現, 很多進程的啟動時間在幾天到幾周甚至幾個月之前。我們線上的php-cgi都有最大執行次數的。一般在1天內都會重啟一次。初步結論,這些cgi進程有問題。

通過lsof -p [pid] 發現, 啟動時間很久的cgi進程中打開了一些日誌文件句柄,並且沒有關閉。這些日誌文件在文件系統中已經刪除了。但是句柄沒關閉,導致磁盤空間沒有釋放。到此,磁盤空間異常的問題基本確定。是由於cgi沒有關閉文件句柄造成的。

進一步分析進程, strace -p [pid], 發現所有異常的進程都阻塞與 fmutex 狀態。換句話所,異常的cgi進程死鎖了。進程死鎖導致打開的文件句柄沒有關閉,所以導致磁盤空間異常。

為什麼cgi進程會死鎖呢?

  什麼是死鎖

學過操作系統的通同學,都瞭解多線程的概念。在多線程中訪問公共資源,需要對資源加鎖。訪問結束後,釋放鎖。如果沒有釋放鎖,那麼下一個線程來獲取資源的時候就會永遠都無法獲取資源的鎖,於是這個線程死鎖了。那麼CGI是多線程的公共資源訪問導致的死鎖嗎? 答案是NO。

1. CGI 是單線程進程,通過ps 就能看到。(進程狀態 Sl的才是多線程進程)。

2. 即使是多線程的,死鎖發生在PHP的shutdown過程中調用glibc 中time 函數的位置,不是php模塊造成的。而glibc 中的time相關函數是線程安全的,不會產生死鎖。

  那是什麼導致的死鎖呢?

通過分析linux中死鎖產生的機制,發現除了多線程會產生死鎖外,信號處理函數同樣會產生死鎖。那麼cgi是由於信號處理導致的死鎖嗎?在這之前介紹一個感念。

  函數的可重入性與信號安全

函數可重入是指,無論第幾次進入該函數,函數都能正常執行並返回結果。那麼線程安全函數是可重入的嗎?答案是NO。 線程安全函數,在第一次訪問公共資源時,會獲取全局鎖。如果函數沒有執行完成,鎖還沒釋放,此時進程被中斷。那麼在中斷處理函數中,再次訪問該函數,就會產生死鎖。那麼什麼樣的函數才可以在中斷處理函數中訪問呢? 除了沒有使用全局鎖的函數,還有一些signal safe的系統調用可以使用。調用任何其他的非signal safe的函數都會產生不可預知的後果(比如 死鎖)。 詳見 man signal。在分析死鎖的原因前,我們先看看cgi執行的流程,分析其中有沒有產生死鎖的可能。

  PHP-CGI的執行流程

Glibc中的時間函數使用到了全局鎖,保證函數的線程安全,但沒有保證信號安全(signal safe)。經過之前的分析,我們初步懷疑死鎖是由於PHP-CGI進程接收到了一個信號,然後在signal handle中執行了非signal safe的函數。主流程在中斷前,正在執行glibc中的.時間函數。在函數獲取的鎖沒釋放前,進入中斷流程。而中斷過程中又訪問了glibc中的時間函數。於是導致了死鎖。

PHP-CGI的執行流程,如下圖所示:

進一步分析發現,所有死鎖的cgi進程的sapi_global中都記錄了一個錯誤信息

“Max execution timeout of 60 seconds exceeded”.

60s 是我們php-cgi中設置執行超時。所以我們確認了,cig在執行過程中的確產生了超時異常,然後由於longjmp進入了shutdown過程。在shutdown過程中訪問了glibc中的時間函數。導致了死鎖。

void zend_set_timeout(long seconds)

{

TSRMLS_FETCH();

EG(timeout_seconds) = seconds;

if(!seconds) {

return;

}

……

setitimer(ITIMER_PROF, &t_r, NULL);

signal(SIGPROF, zend_timeout); // 此處會調用zend異常處理函數

sigemptyset(&sigset);

sigaddset(&sigset, SIGPROF);

……

}

通過gdb調試發現,所有PHP-CGI都阻塞在zend_request_shutdown中。zend_request_shutdown會調用用户自定義的php腳本中實現的shutdown函數。如果CGI執行超市,那麼定時器會產生SIGPROF信號使執行流程中斷。如果此時腳本剛好處於調用時間函數的狀態,且還沒有釋放鎖資源。然後執行流程進入了 timeout 函數,繼續跳轉到zend_request_shutdown。此時如果自定義的shutdown函數中訪問了時間函數。就會產生死鎖。我們從代碼中找到了證據:

register_shutdown_function ('SimpleWebSvc:: shutdown’);

我們在php代碼中使用qalarm系統,qalarm系統會在cgi執行結束(shutdown)的時候,注入一個鈎子函數,來分析cgi執行是否正常,如果不正常,則發送報警信息。而剛好qalarm的報警處理函數中訪問了時間函數。於是就有一定的概率產生死鎖。

  結論

通過上面的分析,我們找到了cgi死鎖產生的原因,是應為在signal handler中使用了非signal safe的函數,導致了死鎖。

  解決辦法

去掉或簡化qalarm註冊到shutdown中的鈎子函數。避免不安全的函數調用。

標籤:死鎖 PHP