Automatisches Sichern von Seiten in Archive.org

Webseiten verändern sich ständig oder verschwinden ganz aus dem Internet und es gibt viele Fälle, in denen man ein Backup haben möchte. Die Wayback Machine des großartigen Internet Archives bietet genau das - aber leider nicht für alle Internetseiten, sondern das Internet Archive muss diese aktiv archivieren. Im Rahmen der Coronakrise 2020 wollte ich die sich steitig überschlagende Nachrichtenlage bewahren. Ein einziger Schnappschuss pro Tag reicht da nicht aus. Die gedruckte Zeitung reicht da nicht aus. Daher sichere ich mit einer kleinen Bastelei die wichtigsten 55 deutschen Nachrichtenseiten automatisch jeweils 1x pro Stunde in der Wayback Machine.
Blogbeitrag dazu: https://schmalenstroer.net/blog/2020/03/archiviert-die-coronakrise/
Und wie geht das? Zuerst benötigen wir einen Computer, der 24/7 läuft - denn logischerweise passiert nichts, wenn der Rechner aus ist. Hier läuft eh ein Raspberry Pi für PiHole und diverse andere Spielereien und daher bietet der sich perfekt an.
Wir missbrauchen dafür die Tatsache, dass wir die Archivierung von Seiten über den simplen Aufruf von https://web.archive.org/save/URLderzuarchivierendenSeite anstoßen können. Mit dem Kommandozeilentool curl kann man das dann automatisieren. Linux besitzt auch die eingebaute Möglichkeit, bestimmte Kommandos zu festgelegten Zeiten auszuführen.
Wir rufen im Terminal mit
sudo crontab -e
den Crontab auf.

Als Beispiel:
1 5-23 * * * curl https://web.archive.org/save/www.1live.de
Die kryptischen Zahlen vorne geben an, wann der jeweilige Befehl ausgeführt werden soll. Diese kann man problemlos z.B. mit diesem Generator erstellen, dann macht man nichts falsch:
https://crontab.guru/
Hier ist es auch nicht nur möglich, die Seiten jede Stunde zu sichern, sondern den Cronjob etwa 1x im Monat oder alle 14 Tage ausführen zu lassen. Nicht jede Webseite muss ja automatisch alle paar Stunden gesichert werden - für die meisten Webseiten sollte es ausreichen, wenn diese alle paar Wochen oder Monate mal gespeichert werden.
Das war's - solange der Raspi läuft und Internet hat, wird er die Befehle ausführen und die Seiten regelmäßig archivieren.
Ob alles geklappt hat, könnt Ihr mit dem Befehl
grep CRON /var/log/syslog
checken.