Web Scraping Kursübersicht auf make.com

Aug 17, 2024

Web Scraping in make.com - Kursübersicht

Einführung

  • Nick bietet einen umfassenden Kurs zu Web-Scraping auf make.com an.
  • Ziel: Web-Scraping-Kenntnisse für statische und dynamische Websites vermitteln.
  • Kein Webentwicklerwissen erforderlich.
  • Fokus auf 80/20-Regel: 80% des Wissens in 20% der Zeit.

Grundlegende Konzepte

HTML und Websites

  • HTML (Hypertext Markup Language): Ein weltweit genutzter Standard zur Darstellung von Webinhalten.
  • Browser rendern HTML in anschauliche Darstellungen für Nutzer.

Client-Server-Architektur

  • Der Computer des Nutzers ist der Client, welcher Anfragen an einen Server sendet.
  • HTTP-Anfragen: Fordern HTML einer Webseite vom Server an.

Statische vs. Dynamische Websites

  • Statische Websites: Der HTML-Inhalt ändert sich nicht und ist einfach zu extrahieren.
  • Dynamische Websites: Generieren HTML-Inhalte basierend auf Skripten und Benutzeranfragen. Schwerer zu extrahieren.

Web-Scraping-Methoden

Statische Websites

  • Einfach zu scrapen; HTML-Datei bleibt unverändert.
  • Prozess: HTTP-Anfrage an URL senden, HTML erhalten, dann analysieren.
  • Tools: make.com kann diese Websites nativ scrapen.

Dynamische Websites

  • Erfordern zusätzliche Tools wie Headless Browser oder API-Dienste (z.B. apify).
  • make.com unterstützt dynamisches Scraping nicht nativ.

Parsen von HTML

  • Ziel: Relevante Daten aus HTML extrahieren.
  • Historisch komplex, heutzutage erleichtert durch AI und Tools wie Regex.

Praktische Anwendung

Kontaktinformationen extrahieren

  • Beispielprojekt: E-Mail-Adressen von Websites sammeln.
  • Nutzung von AI, Regex und Make.com, um Daten zu extrahieren und in Google Sheets zu speichern.

Strukturierte Daten extrahieren

  • Ziel: Webseiten analysieren, wichtige Informationen zusammenfassen lassen (z.B. Beschreibungen, Wertvorschläge).

Scrapen von Fiverr-Listings

  • Beispiel zum Extrahieren von Informationen aus Fiverr: Name, Level, Titel, Kosten der Freelancer.

Fortgeschrittene Techniken

Dynamische Websites scrapen

  • Nutzung von apify für dynamisches Scraping.
  • Ablauf: Seite mit apify laden, HTML extrahieren, analysieren.

Verdeckte APIs verwenden

  • Möglichkeit, direkt auf Datenbanken der Websites zuzugreifen, um JSON-Daten zu erhalten.
  • Beispiel: Nutzung von Looms versteckter API zum Abrufen von Video-Transkriptionen.

Zusammenfassung

  • Make.com bietet robuste Möglichkeiten zum Scrapen statischer Websites.
  • Für dynamische Websites sind zusätzliche Tools notwendig.
  • Web-Scraping ist ein mächtiges Werkzeug zur Datengewinnung und Analyse.

Tipps und Hinweise

  • Experimentieren mit verschiedenen Scraping-Methoden und Tools.
  • Nutzung von AI zur Erleichterung der Datenverarbeitung.
  • Berücksichtigen der rechtlichen Aspekte beim Scrapen von Daten aus dem Web.