Quels seuils d’espace disque libre utiliser sur un Mac Mini loué pour un crawler ?

Par défaut pragmatique : avertissement à 15 % libre, suspension des nouveaux téléchargements ou de la mise en file à 10 %, sortie en erreur sous 5 % pour alerter l’orchestrateur avant lenteurs APFS ou SQLite. Augmentez la marge si snapshots locaux Time Machine ou caches navigateur importants.

Quel backoff de nouvelle tentative après erreur réseau ?

Backoff exponentiel à partir de 1 seconde, doublement à chaque échec, plafond 300 secondes, jitter aléatoire d’environ 20 % pour éviter la resynchronisation des workers. Réinitialiser le backoff après un lot entièrement réussi ou une fenêtre heartbeat propre.

Comment nommer les checkpoints pour rester idempotent ?

Un dossier par job checkpoints/{job_id}/, fichiers du type shard-0-epoch-00012-seq-000003.jsonl.tmp écrits de façon atomique puis renommés en .done uniquement après fsync ; y stocker la dernière clé primaire durable ou le hachage de la liste d’URLs pour que les rejouages sautent les unités terminées.

Mac local allumé en permanence ou nœud loué : quelle différence pour ce workload ?

La machine chez vous concentre énergie, refroidissement et variabilité du FAI résidentiel ; le nœud loué déplace matériel et montée en débit vers le fournisseur, tandis que la conception checkpoints/backoff reste identique dans votre code.

Où louer et obtenir de l’aide après cette FAQ ?

Depuis l’accueil ou le blog RunMini, ouvrez la tarification ou l’achat pour choisir un Mac Mini, puis le centre d’aide pour SSH et la console ; déployez ensuite votre crawler avec la liste de contrôle de cet article.

2026 Louer un Mac Mini — crawling et batch longue durée :
FAQ reprise réseau, checkpoints idempotents et liste de seuils disque

24 mars 2026

RunMini

Lecture : 8 min

Les équipes qui exécutent crawlers, ETL ou transcodage sur un Mac Mini loué rencontrent les mêmes ruptures : micro-coupures réseau, rejouages qui doublonnent les écritures, disques qui se remplissent avant toute alerte lisible. Cette page répond à une intention de recherche forte (« reprise après coupure », « checkpoint idempotent », « seuil espace disque ») avec des chiffres exécutables : pourcentages libres, plafond de backoff, jitter, convention de nommage. Vous y trouverez une synthèse des freins, une matrice mode de défaillance / mitigation, un runbook en sept étapes, une liste de contrôle disque, des repères citables, un bloc FAQ et une conclusion orientée commande. Pour la navigation : blog, accueil, achat, centre d’aide.

Pourquoi les crawls et batchs cassent sur un Mac distant

Coupures TCP ou TLS laissent des fichiers partiels ou des clients HTTP bloqués si l’on n’impose pas de timeouts explicites et une reprise depuis un manifeste durable.
Pipelines non idempotents rappellent des APIs facturées ou insèrent des lignes en double au redémarrage sans curseur persistant ni verrou logique par unité de travail.
Pression disque se manifeste d’abord par des SQLite lentes, des profils Chromium gonflés ou des pics tmp ; sous macOS, l’interface peut sembler saine tant qu’il reste quelques pourcents libres avant que le swap ne dégrade tout le nœud.

Matrice rapide : défaillance et mitigation

Mode de défaillance	Mesure à implémenter	Responsable
Reset socket ou timeout TLS	Backoff exponentiel, jitter, plafond de tentatives par URL	Code métier
Reboot hôte ou chute SSH	Checkpoint toutes les N minutes ou M éléments ; politique launchd avec redémarrage contrôlé	Vous + disponibilité hébergeur
Disque plein	Sondes `df`, téléchargements par étapes, rotation logs, purge tmp	Vous
Mac local allumé en continu vs nœud loué	En une phrase : chez vous, vous assumez énergie, bruit et variabilité du FAI ; en location, le matériel et la montée en débit datacenter sont du côté du fournisseur, tandis que checkpoints et backoff restent votre design applicatif — sans rouvrir ici tout un comparatif achat contre location.

Runbook opérable en sept étapes

Isoler l’état. Créez STATE_ROOT/checkpoints, logs/ et tmp/ sur le volume loué afin de snapshotter ou synchroniser un seul arbre.
Nommer clairement. Exemple : checkpoints/{job_id}/shard-0-epoch-00012-seq-000003.jsonl.tmp → renommer en .done seulement après fsync ; y inscrire derniers identifiants ou hachage de lot.
Politique de backoff. Départ une seconde, doublement à chaque échec, plafond trois cents secondes, jitter pseudo-aléatoire d’environ vingt pour cent ; remise à zéro après fenêtre de succès net.
Veille disque. Échantillonner df -h toutes les cinq minutes ; avertissement à quinze pour cent libre, arrêt des nouvelles files à dix pour cent, sortie erreur sous cinq pour cent.
Heartbeat de progression. Toucher un fichier témoin ou pousser une métrique à chaque jalon ; alerter si stagnation au-delà de deux fois l’intervalle attendu.
Ordre de reprise. Après panne, supprimer les .tmp partiels, relire le dernier .done, sauter les clés déjà traitées, recréer le pool HTTP.
Documentation. Versionnez une page runbook ; reliez les URL console et les procédures centre d’aide pour l’astreinte.

Liste de seuils disque — à copier dans la supervision

≥ 15 % libre : vert ; profondeur de crawl normale.
10–15 % libre : jaune ; journaliser le volume, rotation des logs, ne plus ouvrir de nouveaux contextes navigateur.
5–10 % libre : orange ; suspendre les téléchargements, terminer uniquement les unités en cours, compacter SQLite si besoin.
< 5 % libre : rouge ; quitter avec code non nul, notifier, purger tmp/ et caches avant relance.
Snapshots APFS : si activés, ajoutez environ cinq points de marge ou surveillez l’espace snapshot séparément.

Repères citables : checkpoint au minimum toutes les cinq minutes ou tous les dix mille enregistrements réussis, selon la première échéance. Plafond de retry trois cents secondes avec jitter vingt pour cent. Portes disque à quinze, dix et cinq pour cent libres.

FAQ

Quels seuils d’espace libre appliquer ?

Avertir à quinze pour cent, figer les nouvelles files à dix pour cent, arrêt dur sous cinq pour cent sauf marge éprouvée. Majorer si snapshots locaux ou caches navigateur volumineux.

Quel backoff pour clients crawl et batch ?

Exponentiel depuis une seconde, doublement par échec, plafond trois cents secondes, jitter d’environ vingt pour cent pour désynchroniser les workers.

Comment garder les checkpoints idempotents ?

Écrire dans un fichier temporaire par job, vider les tampons disque, renommage atomique vers un suffixe .done ; y stocker le curseur durable pour ignorer les shards terminés au rejouage.

La location change-t-elle le code ?

Peu : défenses réseau et disque restent dans votre job. La location déplace surtout la maintenance matérielle et l’uplink, pas la logique idempotente.

Étapes suivantes

Une fois le runbook intégré, choisissez un nœud via achat, validez SSH depuis le centre d’aide, et réutilisez si besoin le guide cron et watchdog 7×24 pour l’orchestration d’agents. Le blog et l’accueil recensent d’autres guides RunMini.

Mac Mini loué pour crawlers et batch

Besoin d’un nœud Apple Silicon joignable en SSH pour scraping, pipelines média ou ETL nocturne ? Parcourez le blog, revenez à l’accueil, puis passez commande sur achat. Accès console ou quotas : le centre d’aide détaille les étapes.

Voir les tarifs Louer maintenant Centre d'aide

Un Mac Mini loué donne accès à Apple Silicon sans investissement bare-metal : appliquez les règles ci-dessus, puis finalisez votre commande sur la page achat pour lancer un crawl longue durée avec moins d’imprévus. D’autres articles vous attendent sur le blog ; l’accueil résume l’offre RunMini.