Web Scraping com Selenium e Beautiful Soup - Integração e Finalização

Jul 10, 2024

Web Scraping com Selenium e Beautiful Soup - Integração e Finalização

Introdução

  • Continuação da série sobre web scraping.
  • Integração do Selenium com Beautiful Soup para scraping da página do Airbnb.
  • Objetivo: Raspar dados de hospedagens e salvar em um arquivo CSV ou Excel.
  • Recomendação de assistir vídeos anteriores para acompanhar o raciocínio.

Revisão do Video Anterior

  • Abertura do Chrome configurada pelo Selenium.
  • Busca por hospedagens em São Paulo já funcional.
  • Adição de código para interagir com a página de seleção de adultos (adicionando dois adultos).

Preparação do Ambiência

  • Criação de uma cópia do código do vídeo anterior para continuar a partir de onde pararam.
  • Disponibilização dos arquivos no GitHub.

Codificação e Modificações

  • Detalhe Importante: Escolha correta dos seletores ao utilizar Selenium.
  • Utilização das tags svg, path e button para selecionar o ícone de adicionar adultos.
  • Processos de inspeção dos elementos HTML para identificar componentes relevantes da página.

Coletando e Manipulando Dados

Coleta da Primeira Hospedagem

  • Criação de variáveis para armazenar informações específicas de uma hospedagem como descrição, URL, detalhes e preço.
  • Descrição da Hospedagem: Uso de tag meta e atributo content.
  • URL da Hospedagem: Busca dentro da mesma tag meta com itemprop URL.
  • Detalhes da Hospedagem: Separação do tipo de hospedagem e localização usando listas ordenadas <ol> e elementos internos <li>. Utilização de compreensão de listas para simplificação.

Inserção e Organização dos Dados

  • Implementação de laços for para automatizar a coleta de múltiplas hospedagens na página. Uso de find_all para encontrar todos os elementos de hospedagens.
  • Armazenamento dos dados coletados em listas de listas.

Salvando os Dados

  • Conversão dos dados em um DataFrame do pandas.
  • Salvamento do DataFrame em um arquivo CSV usando to_csv, garantindo formatos corretos e remoção de índices desnecessários.
  • Procedimento detalhado para lidar com possíveis problemas de localização de elementos e ajustes.

Encerramento

  • Checagem final do arquivo CSV contendo todas as hospedagens e seus detalhes coletados.
  • Incentivo para engajar com o conteúdo do canal, deixar like e se inscrever para mais informações sobre Python, ciência de dados e web scraping.