In Teil 1 des Beitrages, „Screaming Frog 4.0 – Jetzt mit Analytics und mehr – Teil 1„, haben wir uns mit der Integration von Analytics in den Screaming Frog beschäftigt. Dieses Mal beschäftigen wir uns genauer mit der ebenfalls neuen Funktion „Custom Extraction“.

Was ist Custom Extraction, und wo finde ich es?

Dieses nette neue Feature erlaubt die Sammlung aller nur erdenklichen Daten direkt aus dem HTML-Code der gecrawlten Seiten. Wichtig dabei ist, die Einstellung noch vor dem eigentlichen Crawl vorzunehmen, damit die Wunschinfos auch mitgenommen werden. Zu finden ist diese Funktion unter: Configuration -> Custom -> Extraction. #Wer hätte damit gerechnet? 😉

Wie verwende ich Custom Extraction?

Bevor wir uns an die Einrichtung machen, sollten wir uns überlegen was wir überhaupt wissen wollen. Es kann jeder Wert abgefragt werden, der einem in den Sinn kommt und im Quellcode vorhanden ist. Als Beispiel ziehen wir aus unserem ersten Beitrag den Open Graph Title, das Veröffentlichungsdatum, und zu guter Letzt den Ankertext des ersten Links im Text.

Öffnen wir oben beschriebenen Menüpunkt, sehen wir eine sehr schlichte Eingabemaske. Hier vergeben wir zuerst einen Namen für unseren Export und wählen die Art, wie wir den Inhalt schnappen wollen. Wir können dabei zwischen CSSPath, XPath und RegEx wählen.

Custom Extraction Praxis Beispiel

Für die Extraktion des OG Title verwenden wir RegEx, da wir nur den Wert und nicht das komplette „Konstrukt“ wollen. In unserem Fall kopieren wir uns aus dem Quellcode der Seite einfach den kompletten Tag und ersetzen den auszugebenden Wunschpart mit (.*?) . Das Ergebnis hier ist

<meta property=“og:title“ content=“(.*?)“ /> .

Schön ist, dass Screaming Frog am Ende der Zeile direkt anzeigt, ob der Code zulässig ist. Haben sich Syntax Fehler eingeschlichen, wird dort ein rotes X angezeigt. Ist alles in Ordnung, erstrahlt ein grünes Checkmark. (Wer mehr über RegEx und dessen Verwendung erfahren will, unter http://www.lmdfdg.com/?q=RegEx gibt es jede Menge hilfreiches Material.)

Als nächstes suchen wir uns das Veröffentlichungsdatum heraus. Da wir den Inhalt innerhalb eines DIV Container auslesen wollen, bietet sich hier XPath an. Er wird ähnlich wie unser Ergebnis aussehen:

/html/body/div[1]/div[3]/div/div[1]/div[1]/div/p/span[1]

TIPP:

Wer keine dutzenden Unterpfade abzählen und eintippen will, kann sich diese mithilfe von Browserplugins, wie z.B. Firebug für Firefox (), schnell und einfach kopieren. Einfach auf das gewünschte Objekt rechts klicken, Element mit Firebug untersuchen und nochmals per Rechtsklick den XPath kopieren.

Zu guter Letzt haben wir die Wahl zwischen Extract „InnerHTML, HTML Element, Text“

InnerHTML: Exportiert Text und Code, der innerhalb des Containers steht.
HTML Element: Exportiert den Container selbst und alles was in ihm steht.
Text: Exportiert ausschließlich den plain Text, der innerhalb des Containers steht.

Uns interessiert nur der tatsächliche Inhalt. Etwaige Formatierungen usw. wollen wir nicht haben, wir wählen also „Extract Text“.

Um unseren Wissensdurst zu stillen, holen wir jetzt noch den ersten Ankertext aus dem Text. Wie vorher geht das am einfachsten per XPath. Das Ergebnis sieht entsprechend ähnlich aus:

/html/body/div[1]/div[3]/div/div[1]/div[1]/div/div/p[1]/strong/a

Auch CSSPath wäre möglich. Da dieser aber deutlich unübersichtlicher ist und oft mit einem zusätzlichen Attribut genauer identifiziert werden müsste, bevorzuge ich XPath. Nachfolgend noch einmal alle Beispiele und Funktionen auf einen Blick.

Ergebnis der Custom Extraction

Sind wir schlussendlich glücklich mit unserer Konfiguration, können wir den Crawl starten.

TIPP:

Probiert eure Konfiguration zuerst an ein paar wenigen Seiten aus und passt sie nochmals an, sollte das Ergebnis nicht wie erhofft aussehen. Das spart Zeit.

Die fertige Auswertung nennt sich „Custom“ und findet sich kurz vor dem Reiter „Analytics“. Auch wichtig, setzt den Filter unbedingt auf „Extraction“. Ansonsten seht ihr andere oder auch keine Werte.

Weitere Anwendungsmöglichkeiten

Oben sind natürlich nur Beispiele genannt, wie ihr die Funktion verwenden könnt. Eurer Fantasie sind fast keine Grenzen gesetzt. So könnte man beispielsweise auch Infos ziehen wie:

Welche Sprachen sind verlinkt? Fehlen manchmal hreflang Tags?
Welche Mikrodaten/Itemtypes werden verwendet?
Welche Analytics ID wird verwendet? Ist es stets die richtige?
Wer ist der Autor eines Beitrages? Wie viele hat jeder geschrieben?

Welche Funktion gefällt euch oder findet ihr besonders interessant? Was habt ihr dadurch herausgefunden? Wir sind gespannt auf eure Kommentare!

Über die/den Verfasser:in

SEO-Küche Internet Marketing GmbH & Co. KG

Keine Kommentare vorhanden

Hast du eine Frage oder Meinung zum Artikel? Schreib uns gerne etwas in die Kommentare.
Antworten abbrechen

Jetzt den SEO-Küche-Newsletter abonnieren

Ähnliche Beiträge

Mit SERP Overlap zur Content Struktur

von Sebastian Kraus
18.07.2024

Website-Content datenbasiert strukturieren Die Content Struktur ist eines der wichtigsten Kriterien, wenn es um den Aufbau Ihrer Website geht. Die Struktur entscheidet darüber, welche Dokumente auf einer Website angelegt werden und für welche Keywords diese optimiert werden. Doch wie findet man die optimale Abgrenzung der Keywords für jedes eigenständige Dokument? […]

Bing-SEO: So rankt ihr bei der Microsoft Suchmaschine

von Christoph
12.07.2024

SEO für Bing: Warum Suchmaschinenoptimierung außerhalb von Google lohnenswert sein kann Obwohl Google unangefochten der Gigant unter den Suchmaschinen ist und mit einem Marktanteil von über 90% die Internetlandschaft dominiert, gibt es dennoch gute Gründe, sich auch mit der Suchmaschinenoptimierung (SEO) für Microsoft Bing zu beschäftigen. Bing, mit einem Marktanteil […]

Stellenanzeigen optimieren: SEO im Recruiting

von Christoph
04.07.2024

Tipps für mehr Bewerbende: SEO für Stellenanzeigen In der heutigen digitalen Welt reicht es nicht mehr aus, einfach nur Stellenanzeigen auf Jobportalen zu veröffentlichen und auf qualifizierte Bewerber zu warten. Unternehmen, die die besten Talente gewinnen möchten, müssen proaktiv vorgehen und alle zur Verfügung stehenden Mittel nutzen. Eine besonders effektive […]

Nützliche Chrome Extensions für die Suchmaschinenoptimierung (SEO)

von SEO-Küche
02.07.2024

Suchmaschinenoptimierung (SEO) ist ein wesentlicher Bestandteil des Online-Marketings, um die Sichtbarkeit einer Website in den Suchmaschinenergebnissen zu verbessern. Die richtige Nutzung von Chrome Extensions kann dabei eine enorme Hilfe sein. Hier sind einige der nützlichsten Chrome Extensions, die Ihnen bei der Optimierung Ihrer SEO-Bemühungen helfen können: 1. MozBar MozBar ist […]

Ein Glossar als SEO-Strategie: Warum es so wirkungsvoll ist

von Oliver Lindner
23.06.2024

Die Optimierung der eigenen Website für Suchmaschinen ist eine der zentralen Aufgaben im Online-Marketing. Ein effektives Werkzeug, das dabei oft unterschätzt wird, ist das Glossar bzw. Lexikon. In diesem Beitrag zeigen wir, warum das Erstellen eines Glossars eine kluge SEO-Strategie ist und wie Sie es erfolgreich in Ihre Website integrieren […]

Unser Campixx 2024 Recap

von Christoph
17.06.2024

Das war die Campixx 2024 Die Campixx 2024 ist schon wieder vorbei und für uns ist es Zeit kurz zurückzublicken, oder anders: Unser Campixx 2024 Recap. Die diesjährige Campixx fand im Van der Falk Hotel im Süden Berlins statt. An dieser Stelle können wir schon mal sagen, dass die Location […]

Screaming Frog 4.0 – Jetzt mit Analytics und mehr – Teil 2