2026 租用 Mac Mini 長期爬取批處理 FAQ:
斷網恢復、冪等檢查點、磁碟水位
2026年3月24日
RunMini 技術團隊
閱讀約 6 分鐘
① 三類痛點
- 斷網半套:未區分已持久化與僅在記憶體,重啟易重複或漏寫。
- 無檢查點:無游標只能全量重跑,時間與對方壓力難控。
- 磁碟失控:日誌暫存無輪替,檢查點難安全落盤。
② 本地長開機與租用節點(一句對照)
相較自家長開機,租用節點把機房電力、出口與硬體維護外包;買租財務細算見站內長文,本文只談爬取批處理閾值與檢查點。
| 焦點 | 程式層 | 租用節點 |
|---|---|---|
| 斷網 | 健康檢查、載入檢查點、退避 | 連線與控制台由服務商提供,策略在任務內 |
| 冪等 | 原子寫檔、日期序號命名 | 儲存自管,須監控水位 |
| 磁碟 | 閾值、日誌輪替、暫存配額 | 紅線降載清理,保檢查點可寫 |
③ 落地步驟
- 目錄:專用
./state或./checkpoints,勿與下載暫存混用。 - 週期寫入:每固定筆數或每五分鐘(先達者)落盤;暫存檔再
rename成正式名,避免半套 JSON。 - 啟動:取最新通過校驗檢查點;失敗則回退上一筆並告警。
- 退避:一秒起倍增至上限三百秒,加百分之二十內抖動;同錯逾十次改告警勿空轉。
- 磁碟:定時看可用百分比,黃燈清日誌暫存,紅燈停新下載,低於百分之五只刪搬不寫大檔。
- 退出:收終止信號先 flush 檢查點再退出。
④ 閾值與命名(可引用)
- 磁碟:剩餘百分之十五下黃燈須清理;百分之十下紅燈停新下載大暫存;百分之五下強制停寫非必要,保檢查點與設定。
- 退避:一秒起倍增、上限三百秒、抖動零至百分之二十;同錯連十次以上轉告警。
- 檔名:
{job_slug}__{YYYY-MM-DD}__{seq六位}.state.json。
⑤ FAQ
斷網後怎麼恢復?
健康檢查通過後載入最後成功檢查點;對外請求指數退避一秒至三百秒上限並加百分之二十內抖動,勿猛刷。
檢查點怎麼命名?
專用目錄加 job_slug__日期__序號.state.json;先寫暫存再更名。
磁碟百分比閾值?
百分之十五下黃燈清理;百分之十下紅燈停大暫存;百分之五下強制停寫非必要,保檢查點。
退避數字?
一秒起倍增至三百秒上限,間隔加零至百分之二十抖動;同錯逾十次改告警。