2026 租用 Mac Mini 長期爬取批處理 FAQ: 斷網恢復、冪等檢查點、磁碟水位

2026年3月24日
RunMini 技術團隊
閱讀約 6 分鐘

長期爬蟲與批處理在遠端 Mac 上常因斷網、冪等不足與磁碟吃滿而失控。本文給磁碟剩餘百分比閾值退避數字檢查點檔名約定,附對照表與步驟。延伸:部落格首頁購買幫助

① 三類痛點

  1. 斷網半套:未區分已持久化與僅在記憶體,重啟易重複或漏寫。
  2. 無檢查點:無游標只能全量重跑,時間與對方壓力難控。
  3. 磁碟失控:日誌暫存無輪替,檢查點難安全落盤。

② 本地長開機與租用節點(一句對照)

相較自家長開機,租用節點把機房電力、出口與硬體維護外包;買租財務細算見站內長文,本文只談爬取批處理閾值與檢查點。

焦點程式層租用節點
斷網健康檢查、載入檢查點、退避連線與控制台由服務商提供,策略在任務內
冪等原子寫檔、日期序號命名儲存自管,須監控水位
磁碟閾值、日誌輪替、暫存配額紅線降載清理,保檢查點可寫

③ 落地步驟

  1. 目錄:專用 ./state./checkpoints,勿與下載暫存混用。
  2. 週期寫入:每固定筆數或每五分鐘(先達者)落盤;暫存檔再 rename 成正式名,避免半套 JSON。
  3. 啟動:取最新通過校驗檢查點;失敗則回退上一筆並告警。
  4. 退避:一秒起倍增至上限三百秒,加百分之二十內抖動;同錯逾十次改告警勿空轉。
  5. 磁碟:定時看可用百分比,黃燈清日誌暫存,紅燈停新下載,低於百分之五只刪搬不寫大檔。
  6. 退出:收終止信號先 flush 檢查點再退出。

④ 閾值與命名(可引用)

  • 磁碟:剩餘百分之十五下黃燈須清理;百分之十下紅燈停新下載大暫存;百分之五下強制停寫非必要,保檢查點與設定。
  • 退避:一秒起倍增、上限三百秒、抖動零至百分之二十;同錯連十次以上轉告警。
  • 檔名{job_slug}__{YYYY-MM-DD}__{seq六位}.state.json

⑤ FAQ

斷網後怎麼恢復?

健康檢查通過後載入最後成功檢查點;對外請求指數退避一秒至三百秒上限並加百分之二十內抖動,勿猛刷。

檢查點怎麼命名?

專用目錄加 job_slug__日期__序號.state.json;先寫暫存再更名。

磁碟百分比閾值?

百分之十五下黃燈清理;百分之十下紅燈停大暫存;百分之五下強制停寫非必要,保檢查點。

退避數字?

一秒起倍增至三百秒上限,間隔加零至百分之二十抖動;同錯逾十次改告警。

⑥ 引導

閾值與命名寫入設定後即可長期跑批處理;要穩定節點請至購買頁選方案,連線見幫助中心,更多文見部落格

選擇您的 Mac 節點與訪問方式

長期爬取批處理要穩定主機與遠端連線:租用 Mac Mini 專心寫檢查點與退避策略。請查看定價、立即租用,或至幫助與部落格查連線與排程。

立即租用