Firecrawl 網頁抓取工具概述

Feb 22, 2025

Firecrawl 概覽

介紹

  • Firecrawl:一個能夠提取網頁內容並將其轉換為乾淨的 markdown 的網路爬蟲工具。
  • 功能
    • 抓取所有可訪問的子頁面。
    • 不需要網站地圖。
    • 輸出適合 LLM 應用程序的 markdown。

主要功能

  • 爬取、抓取、清理:從網站的可訪問子頁面提取內容。
  • 動態內容處理:能夠抓取由 JavaScript 渲染的內容。
  • 智能等待:調整等待時間以確保在抓取前載入所有內容。
  • 操作:支持在提取前進行點擊、滾動和打字等交互。
  • 媒體解析:從 PDF、DOCX、圖片等中提取內容。

整合和功能

  • 與流行工具整合
    • LlamaIndex、Langchain、Dify、Langflow、Flowise、CrewAI、Camel AI。
  • 開源:以透明度為重點進行協作開發。
  • 無緩存:確保訪問最新的數據。
  • 為 AI 构建:由 LLM 工程師設計。

價格計劃

  • 免費計劃
    • 500 個信用。
    • 不需要信用卡。
    • 每分鐘 10 次抓取、1 次爬取。
  • 愛好者計劃
    • 每月 $16 或每年 $190。
    • 每月 3000 個信用。
    • 每分鐘 20 次抓取、3 次爬取。
  • 標準計劃
    • 每月 $83 或每年 $990。
    • 每月 100,000 個信用。
    • 每分鐘 100 次抓取、10 次爬取。
    • 包括標準支持。
  • 增長計劃
    • 每月 $333 或每年 $3990。
    • 每月 500,000 個信用。
    • 每分鐘 1000 次抓取、50 次爬取。
    • 優先支持。
  • 企業計劃
    • 無限信用。
    • 大量折扣和自訂功能。

附加功能

  • 自動充值信用:當信用不足時自動充值。
  • 信用包:購買額外的每月信用。

使用和社區

  • 免費啟動,輕鬆擴展:無成本啟動項目,然後擴展規模。
  • 社區貢獻:通過 GitHub 鼓勵貢獻。

技術細節

  • 隱身代理和速率限制:管理請求以避免檢測和速率限制問題。
  • 處理驗證碼/驗證:使用隱身代理,並可以提供驗證頭。
  • 不支持社交媒體:僅限於商業網站、文檔和幫助中心。

常見問題

  • 一般情況
    • Firecrawl 提供乾淨的 markdown 用於 LLM 應用程序。
    • 適合 LLM 工程師、數據科學家、AI 研究人員。
    • 開源版本可在 GitHub 上獲得。
  • 抓取和爬取
    • 能處理動態 JavaScript 內容。
    • 遵守 robots.txt。
  • API 和計費
    • API 密鑰可通過儀表板獲取。
    • 首 500 次抓取免費,之後可選每月計劃。