Lấy link trong Sitemap

Trong cách đăng này, tôi sẽ giải thích cách trích xuất URL từ sơ đồ trang web, sử dụng một số kỹ thuật:

  • Google Trang tính với công thức IMPORT XML
  • Ếch hét 
  • Python 
  • Dịch vụ bên ngoài

Trích xuất URL từ một sơ đồ trang bằng Google Trang tính Một trong những lợi thế chính của việc truy xuất URL trực tiếp trong Google Trang tính là khả năng đưa chúng vào dữ liệu từ Google Analytics hoặc Google Search Console trong cùng một bảng tính. Để đạt được điều đó, hãy làm theo các hướng dẫn sắp tới: Lấy URL sơ đồ trang web mà bạn muốn trích xuất URL. Nó thường là https://www.example.com/sitemap.xml.

Nếu bạn không biết sơ đồ trang web của mình đang sử dụng URL nào, hãy xem tệp robots.txt (https://www.example.com/robots.txt), vì nó có thể được chỉ ra ở đó: sitemap-in-robots-txt

Tạo bảng tính mới trong Google Trang tính. Bạn có thể sử dụng miền https://sheets.new để tạo một trong một cú nhấp chuột mà không cần phải truy cập Trang chủ của Google Drive cũng như Google Trang tính.

Trong một trong các ô, hãy bao gồm công thức sau: example-importxml-sietmap-google-sheet

=IMPORTXML(B1;”//*[local-name() =’url’]/*[local-name() =’loc’]”)

Như bạn có thể thấy, nó là một trong những kỹ thuật đơn giản nhất để đạt được kết quả mong muốn. Tuy nhiên, bạn có thể không làm việc với Google trong công ty của mình, do đó, tôi sẽ giải thích cách sử dụng các phương pháp khác nhau để có được kết quả tương tự. Trích xuất URL từ sơ đồ trang web với Screaming Frog Screaming Frog là một trong những công cụ hữu ích nhất mà bạn phải sử dụng khi làm SEO. Để trích xuất URL từ sơ đồ trang web (thậm chí không cần thu thập thông tin), bạn có thể sử dụng một thủ thuật siêu đơn giản: Abrid Screaming Frog y usar el modo List mode-list-hét-ếch Nhấp vào nút “Tải lên” và chọn tùy chọn “Tải xuống Sơ đồ trang web” hoặc “Tải xuống Chỉ mục Sơ đồ trang web”, tùy thuộc vào tệp bạn sẽ nhập. menu-download-sitemap-hét-ếch Nhập URL download-sitemap-hét-ếch Chờ một chút, chọn văn bản xuất hiện trong cửa sổ (CMD + A hoặc CTR + A để chọn mọi thứ) và sao chép nó (CMD + C hoặc CTR + C) Dán văn bản vào tài liệu Google Trang tính Xóa hai dòng đầu tiên và dòng cuối cùng của văn bản đã dán Nhìn “Đã tìm thấy” (có dấu cách) và thay thế bằng “” (không có gì) tìm-thay-thế-google-trang tính Bạn sẽ có danh sách đầy đủ Tất nhiên, nếu bạn muốn nhận thông tin về các URL này (chẳng hạn như mã phản hồi), bạn phải thu thập thông tin chúng, nhưng mục tiêu của cách đăng này là giải thích cách chỉ truy xuất danh sách URL, không phải cách thu thập thông tin chúng như tốt 🙂 Trích xuất URL từ sơ đồ trang web bằng Python Nếu bạn đã quen với Python, bạn có thể sử dụng công thức sau trong quy trình làm việc của mình: def ExtractSitemap(url, sitemap_index): xml = [] final_xml = [] if sitemap_index == 0: r = requests.get(url) soup = Soup(r.content, features=’lxml’) urls = soup.findAll(‘loc’) for element in urls: url = str(element) url = url.replace(”, ”).replace(”, ”) final_xml.append(url) elif (sitemap_index == 1): r = requests.get(url) soup = Soup(r.content, features=’lxml’) urls = soup.findAll(‘loc’) for element in urls: url = str(element) url = url.replace(”, ”).replace(”, ”) xml.append(url) for element in xml: r = requests.get(element) soup = Soup(r.content, features=’lxml’) urls = soup.findAll(‘loc’) data_new.append(element) for element in urls: url = str(element) url = url.replace(”, ”).replace(”, ”) final_xml.append(url) return final_xml Hàm này chấp nhận hai tham số: URL sơ đồ trang web Sơ đồ trang web là một chỉ mục (1) hay một sơ đồ trang web thông thường (0) Nếu bạn muốn chức năng này hoạt động, bạn sẽ cần Yêu cầu cùng với BeautifulSoup được cài đặt trong môi trường Python của bạn. Trích xuất URL từ sơ đồ trang web bằng công cụ bên ngoài Bạn có thể tìm thấy một số công cụ cho phép bạn tải xuống danh sách URL từ sơ đồ trang web, nhưng nếu tôi phải chọn một công cụ, tôi sẽ truy cập https://robhammond.co/tools/xml-extract , đơn giản và hiệu quả . xml-sitemap-extractor Bạn chỉ cần nhập URL sơ đồ trang web và công cụ sẽ trích xuất các URL. Làm thế nào đơn giản nó có thể được? Tôi hy vọng bạn thích hướng dẫn này. Nếu đúng như vậy, vui lòng chia sẻ nó 🙂 Bất kỳ nghi ngờ hoặc nhận xét nào của bạn, vui lòng liên hệ với tôi qua phần bình luận hoặc qua Twitter.