Blog

Nextcloud anstatt Google Drive/One auf der Synology. Schritt 4: Notizen

Nachdem die Daten von Google Drive und Google Photos ihren Weg in die eigene Wolke gefunden haben, sind als (zunächst) letzter Schritt die Notizen aus Google Keep dran. Wie bereits bei den Photos lassen diese sich über die Takeout-Funktion exportieren. Hier wird als Option lediglich html angeboten.

Pro Notiz wird dabei eine HTML-Datei erzeugt. Diese lässt sich dann bereits in OwnCloud einfügen und man hat als „Archiv“ jederzeit Zugriff auf alte Notizen. Möchte man hingegen die Notizen auch noch weiter bearbeiten, so müssen sie in das Markdown-Format konvertiert werden. Hierzu gibt es ein kleines Online-Tool namens keep2md. (Quellcode)

Die Bedienung ist denkbar einfach. Einfach über den Knopf „Dateien auswählen“ eine oder mehrere HTML-Dateien aus Google Keep wählen. Durch einen Klick auf „convert“ wird aus jeder einzelnen Datei dann eine Markdown-Datei mit dem gleichen Inhalt erstellt. Es gibt lediglich zwei kleine Einschränkungen: Eine evtl. gesetzte Hintergrundfarbe wird ebenso wenig übernommen, wie eingefügte Bilder.

Hier sollte man übrigens auf den Browser achten: Chrome beispielsweise erlaubt maximal 10 Downloads am Stück, während Firefox auch größere Mengen erlaubt.

Sind alle Markdown-Dateien erstellt (Erkennbar an der Endung .md) können sie in den „Notes“-Ordner der Owncloud abgelegt werden. Wer möchte kann hier (im Gegensatz zu Keep) auch Ordner als Kategoriesortierung anlegen. Im Anschluss lassen sich die Dateien direkt im Browser mit der Notizapp bearbeiten.

Mobil lassen sich die Notizen mit der Nextcloud-App (ohne Formatierung) anzeigen:

 

Wer sie auch mobil bearbeiten möchte, kann ein paar Euro in NextCloud Notes investieren, hat dafür aber eine komfortable Möglichkeit, die Notizen zu bearbeiten.

. Zusätzlich kann natürlich ein beliebiger Markdown-kompatibler Editor verwendet werden. Dank der Owncloud/Nextcoud – App werden auch hier die Notizen automatisch synchronisiert.

Nextcloud anstatt Google Drive/One auf der Synology. Schritt 3: Sync & Bilder

Sync OwnCloud-NAS

Das Synchronisieren mit OwnCloud ist relativ einfach, vor allem wenn man vorher schon ähnliches mit Google Drive eingerichtet hatte. Due Synchronisation erfolgt mittels WebDAV. Die Adresse hierfür kann in Owncloud unter Einstellungen angezeigt werden. Diese Adresse per Copy&Paste merken:

Im Anschluss kann diese Adresse dann in der „Cloud Station“ von der Synology eingetragen weden:

Wichtig: Bei der „Server address“ muss am Ende der Slash („/“) entfernt werden, sonst kommt Synology mit der URL nicht klar. Hat ewig gedauert, bis ich das herausgefunden habe und dieser Hinweis war auch nirgends im Internet zu finden (bis jetzt  😎)

Wenn alles klappt, sollte jetzt die Synchronisierung automatisch anfangen.

Hinweis; Ich hatte gewaltige Diskrepanzen in der Anzeige in Sachen Speicherverbrauch Google Drive/Lokale Festplatte/Owncloud. Es waren aber dann doch alle Dateien vorhanden.

 

Google Photos

Sichern und Übertragen

Es gibt zwei Möglichkeiten, die Photos aus Google Photos zu sichern. Option eins ist Google Takeout. Hier werden sämtliche Fotos und Alben als ZIP-Archiv exportiert. Pro Album gibt es ein Verzeichnis, welches dann Bilder und Meta-Informationen als Json enthält. Zusätzlich wird pro Aufnahmetag ein weiteres Verzeichnis erstellt. Das führt dadurch auch zu Duplikaten. Meine 20GB an Photos wurden so zu 35GB durch die Redundanz.

Eine zweite Möglichkeit ist es, die Photos direkt zunächst in Google Drive zu exportieren. Hierzu auf die Einstellungen gehen und „Fotos exportieren“ auswählen.

Dadurch wird ein neuer Ordner „Google Photos“ erstellt, der dann die Bilder in der Verzeichnisstruktur „Google Photos[Jahr][Monat]“ enthält, was praktischerweise auch der Struktur der Nextcloud-App entspricht (s.u.)

Das geht überraschenderweise sehr schnell, so dass ich annehme, dass es intern bereits alles darum liegt und der „Export“ nur das Verzeichnis anzeigt.

Die für mich beste Lösung war eine Kombination aus beiden Methoden. Ich habe zunächst alle Bilder mit der zweiten Methode schön übersichtlich sortiert nach Jahr & Monat exportiert und dann in Owncloud importiert. Dann habe ich zusätzlich diejenigen Alben, die ich auch als Album behalten wollte (und nicht etwa automatische Alben oder „ein Album pro Tag“ ebenfalls hoch geladen. Es empfiehlt sich, den automatischen Ordner „Photos“ in OwnCloud zu verwenden.

(„Hochladen“ bedeutet hier natürlich: In den entsprechenden Ordner auf dem NAS kopieren. Die Synchronisation erledigt ja automatisch den Rest)

Sync mit dem Smartphone

 

(Das folgende bezieht sich auf Android, mit IOS wirds aber ähnlich funktionieren):

Die kostenlose App NextCloud bietet neben komfortablen Zugriff auf die Inhalte der eigenen Cloud auch die Möglichkeit, Bilder automatisch in die Cloud zu synchronisieren (so wie Google Photo es macht). Über „Automatisches Hochladen“ kann man im Anschluss das Verzeichnis für den Speicherort der Kamera auswählen. Der Haken „Unterordner benutzen“ sorgt dafür, dass die Bilder in die Struktur „Jahr\Monat“ eingefügt werden. Als Zielordner sollte „Photos“ verwendet werden.

 

Nextcloud anstatt Google Drive/One auf der Synology. Schritt 2: Suchen auf dem NAS

Wenn das OCR erfolgreich gelaufen ist, kann man bereits auf dem Synology direkt nach den Inhalten suchen. Dafür muss dem NAS aber mitgeteilt werden, dass die entsprechenden Verzeichnisse indiziert werden müssen. Die Indizierung geht übrigens auch bei ein paar tausend PDFs sehr schnell.

Zuständig dafür ist das Paket „Universal Search“.

Wenn es noch nicht installiert ist, einfach über den Paketmanager aktivieren. Nach Start der App kann über das Zahnrad in die Einstellungen gewechselt werden. Über einen Klick auf „Indexed Folder List“ kann man dann neue Verzeichnisse hinzufügen:

Hier nun das Verzeichnis wählen, einen Namen aussuchen und als Typ „Document“ auswählen.

Nachdem die Indizierung abgeschlossen ist, kann man bereits in der „Universal Search“ eine Volltextsuche durchführen. Man kann ab jetzt aber auch direkt im Filemanager danach suchen. Da in den ganzen Rechnungen und Verträgen meine Adresse in Hamburg steht werden diese nun auch alle gefunden:

 

Das wars schon.

Nextcloud anstatt Google Drive/One auf der Synology. Schritt 1: OCR

Mein Entschluss stand fest: Anstatt Google (oder ein anderer Anbieter) wollte ich meine Daten selbst in der Cloud hosten. Die Lösung sollte da nicht (NUR) auf dem NAS selbst laufen, sondern ich wollte auch weiterhin direkt im Internet eine Kopie besitzen die einerseits Datenredundanz bietet und selbst dann verfügbar sein, wenn mein NAS explodiert und auch schnelleren und unkomplizierteren Zugriff von unterwegs erlauben als über den lokalen Internetprovider auf meine Synology.

Eines der Hauptgründe für Drive war bisher das automatische OCR: Ich scanne bereits jetzt sämtliche Dokumente ein, synchronisiere sie dann zu Drive und bekomme OCR automatisch. Das hilft ungemein auch alte Rechnungen, etwa für Garantiebelege oder die Lohnsteuererklärung zu finden.

Das bedeutet aber natürlich auch, dass Google exakt weiß, was in meinen Dokumenten steht. Sicher sein, dass damit kein Schindluder getrieben wird, kann man nicht. Ebenso wie bei anderen Anbietern. Die OCR-Funktion ist also einerseits ein wichtiges Kriterium, andererseits macht es mehr Sinn, das selbst zu erledigen. Optimalerweise genauso bequem wie bisher.

Als ersten Schritt brauche ich also ein OCR für die PDF-Dateien. Das soll von nun an direkt beim Einscannen auf dem NAS passieren. Zum Glück gibt es da einen fertigen DockerContainer. Einfach nach „OCRmyPDF“ suchen und das Image herunterladen. Es muss KEIN Container erstellt werden. Dies geschieht durch das Script automatisch. Der Container ist unter dem Namen „ocr“ zu finden. Dies wird nur bei Bedarf für jeden einzelnen OCR-Auftrag erledigt.

 

Und dafür ist ein kleines aber feines PHP-Script zuständig namens „FileBasedMiniDMS„. Zugegeben: Das könnte man vermutlich auch über Shellscripte anstatt PHP machen, aber einem geschenkten Gaul und so 😎. Also flugs die beiden PHP-Dateien irgendwo auf das NAS gepackt. Auch wenn es PHP-Dateien sind, werden sie übrigens NICHT über den Webserver ausgeliefert. Sie sollten also nicht im Web-Verzeichnis liegen.

Die Konfiguration ist relativ simpel und erfolgt über die config.php. Folgende Werte sind dabei interessant:

$doRenameAfterOCR
Sorgt dafür, dass die Dateien nach der Regel „datum name tags“ umbenannt werden.
$doTagging
Sorgt **zusätzlich** zum OCR dafür, dass Dokumente nach Tags einsortiert werden. Dafür muss der Dateiname aber bereits Tags enthalten. Nur in Kombi mit $tagsfolder .
$matchWithoutOCR
Gibt den Filter an, welche Dateien überprüft werden sollen. „*“ für alle Dateien eintragen.
$dockercontainer
Muss genauso lauten wie das Image. I.d.R. nicht anzupassen
$inboxfolder
Verzeichnis, in dem sich die zu prüfenden PDF-Dateien befinden. Unterverzeichnisse werden rekursiv durchsucht
$OCRPrefix
Wird nach dem OCR vor den Dateinamen geschrieben
$recyclebin
Hier werden nach dem OCR die Original-PDF dateien hin verschoben (inkl. der Verzeichnisstruktur). Wichtig: Bloß nicht als Unterverzeichnis der zu scannenden Dokumente, sonst wird es von dort erneut versucht zu OCRen.

Die Felder $renamerules und $tagrules sollte man anpassen, bzw. einfach leeren, dass dort nur noch „=array();“ steht.

zum Testen kann man nun am Besten

php FileBasedMiniDMS.php -d -t >> ocr.log 2>&1

aufrufen. Das „tut so“, als würde es alle Dokumente Scannen und loggt die Ausgabe. Wenn nichts gescanned wird, zusätzlich mit „-o“ prüfen. Tauchen jetzt die Dateien auf, ist der Wert von $matchWithoutOCR nicht in Ordnung.

Läuft alles, können die Parameter (-d -o -t) entfernt werden. Neben einem Backup (sowieso) bietet es sich an, erst einmal in einem kleinen Verzeichnis zu testen. War auch das erfolgreich, muss das Script nur noch per Cronjob (oder über die Oberfläche als Scheduler) eingetragen werden und fertig.

Das Dateidatum der PDF-Datei bleibt übrigens erhalten.

Ein kleiner Hinweis zur Performance:

Auf meiner Synology DS218+ (Intel Celeron J3355/DualCore 2Ghz), die im Idle-Modus ca. 5% CPU verbraucht und 800MB von 10GB dauerte eine 5MB PDF-Datei (Dann unter CPU-Vollast bei kaum erhöhtem Speicherverbrauch) ca. 4 Minuten. Beim initialen OCR wird das also eine ganze Weile brauchen.

 

 

 

Mein subjektiver Crowdfunding-Rückblick (bisher)

Zum Jahresende ist es ja üblich, einen Rückblick zu schreiben. Die besten Filme des Jahres, die tollsten Spiele, die dümmsten Deutschen besorgtesten Bürger, … – Das sollen andere machen.

Ich hatte heute mal wieder ein spannendes Crowdfunding-Projekt gefunden, mich dann aber entschlossen, nicht zu unterstützen, weil mir der Anbieter nicht seriös genug erschien. Warum eigentlich? Kann ich nicht wirklich fest machen, aber Grund genug, mal zurück zu schauen, welche Crowdfunding-Projekte ich bereits unterstützt habe, und wie der Erfolg war.

P.S: Für mein Fazit gaaaaaaanz nach unten Scrollen Weiterlesen