Crawl Budget là gì?

Crawl Budget là gì?

Crawl Budget là số thời gian và tài nguyên mà một công cụ tìm kiếm gán cho việc Crawl một trang web cụ thể. Nói cách khác, đó là số trang tối đa mà một công cụ tìm kiếm có thể Crawl trên trang web của bạn trong khoảng thời gian cụ thể.

Crawl Budget có thể thay đổi cho các công cụ tìm kiếm khác nhau (hoặc các trình Crawl).

Google cho biết bạn không nên lo lắng về Crawl Budget trừ khi:

  • Trang web của bạn có hơn 1 triệu trang duy nhất với nội dung thay đổi khoảng một lần mỗi tuần.
  • Bạn có một trang web có quy mô trung bình, ví dụ, khoảng 10.000 trang và thay đổi nội dung thường xuyên (hàng ngày).
  • Bạn điều hành một trang web tin tức.

Search Console phân loại đa số URL trên trang web của bạn là “Đã phát hiện – hiện không được lập chỉ mục”.

Mỗi trang web sẽ có một Crawl Budget khác nhau dựa trên hai yếu tố sau:

  • Yêu cầu Crawl. Số lượng trang, tần suất đăng bài/cập nhật và sự phổ biến của các trang định nó.
  • Giới hạn tốc độ Crawl. Nó bị ảnh hưởng bởi khả năng của máy chủ, giới hạn Crawl được đặt (trong Search Console) bởi chủ trang web, giới hạn Crawl của công cụ tìm kiếm, v.v. Google cũng có thể tự động điều chỉnh tốc độ Crawl khi máy chủ chậm hoặc ngược lại.

Crawl Budget

Tại sao Crawl Budget quan trọng?

Crawl Budget quan trọng bởi vì nó ảnh hưởng đến số lượng trang mà Googlebot có thể Crawl trên trang web của bạn. Ngoài ra, nó cũng ảnh hưởng đến tần suất mà Googlebot có thể Crawl lại các trang web của bạn để cập nhật chỉ mục của nó.

Xem thêm:  Content Pillar là gì?

Mặc dù Google có tài nguyên khổng lồ, nhưng nó không thể Crawl (và Crawl lại thường xuyên) tất cả các trang trên Internet. Do đó, Google gán một Crawl Budget cho các trang web.

Và đó là lý do tại sao bạn muốn đảm bảo rằng Crawl Budget của bạn không bị lãng phí để Crawl các trang không quan trọng trên trang web của bạn.

Tuy nhiên, nếu bạn chỉ điều hành một blog thông thường hoặc trang web nhỏ, bạn không cần quá lo lắng về Crawl Budget.

Làm thế nào để tăng Crawl Budget?

Dưới đây là cách bạn có thể tối ưu hóa Crawl Budget của trang web của mình.

Tăng tốc máy chủ và giảm thời gian tải trang

Thời gian phản hồi của máy chủ và tốc độ tải trang ảnh hưởng trực tiếp đến quá trình Crawl. Nó hoạt động như sau:

Khi Googlebot Crawl trang web của bạn, nó tải các tài nguyên trước và sau đó xử lý chúng. Nếu máy chủ của bạn phản hồi nhanh chóng đối với các yêu cầu Crawl của Google, nó có thể Crawl nhiều trang hơn trên trang web của bạn.

Vì vậy, hãy sử dụng dịch vụ lưu trữ web nhanh và đáng tin cậy cùng với Mạng phân phối nội dung (CDN) để cải thiện thời gian phản hồi ban đầu của máy chủ.

Đồng thời, giảm thời gian tải trang của bạn bằng cách:

  • Ngăn Crawl các tài nguyên lớn nhưng không quan trọng bằng cách sử dụng tệp robots.txt.
  • Tránh các chuỗi chuyển hướng dài.
  • Loại bỏ các chủ đề và plugin nặng và mã hóa kém để giảm bớt trang web quá nặng.

Thêm nhiều liên kết hơn

Số lượng liên kết đến một trang cho biết với Google về mức quan trọng của trang đó. Googlebot ưu tiên Crawl các trang có nhiều liên kết trả về và liên kết nội bộ.

Vì vậy, bạn có thể tăng Crawl Budget bằng cách thêm nhiều liên kết ngoại và liên kết nội bộ hơn vào các trang của bạn. Trong khi việc nhận liên kết trả về từ các trang web bên ngoài có thể mất thời gian và không hoàn toàn nằm trong tầm kiểm soát của bạn, bạn có thể bắt đầu với tùy chọn dễ dàng hơn – liên kết nội bộ.

Xem thêm:  Broken Link là gì?

Bạn có thể nhận được gợi ý về liên kết nội bộ bằng cách kiểm tra trang web của mình bằng công cụ Kiểm tra trang web của chúng tôi.

Sửa liên kết bị lỗi và giảm số lần chuyển hướng

Quá nhiều liên kết nội bộ bị lỗi (mã phản hồi 404 hoặc 410) và URL được chuyển hướng (mã phản hồi 3xx) có thể lãng phí Crawl Budget của trang web của bạn. Mặc dù những trang này sẽ có ưu tiên Crawl thấp nếu chúng không thay đổi trong một thời gian dài, tốt hơn hết là sửa chúng để tối ưu hóa Crawl Budget và bảo trì tổng thể cho trang web của bạn.

Bạn có thể dễ dàng tìm các URL bị lỗi và URL được chuyển hướng trên trang web của bạn trong báo cáo trang nội bộ trong Công cụ Kiểm tra trang web hoặc sử dụng Công cụ Webmaster miễn phí của chúng tôi.

Khi bạn tìm thấy các liên kết nội bộ bị lỗi, bạn có thể khôi phục trang tại cùng một URL hoặc chuyển hướng URL đó đến một trang liên quan khác.

Về các chuyển hướng, hãy kiểm tra xem có nhiều chuyển hướng không cần thiết và chuỗi chuyển hướng không cần thiết, sau đó thay thế chúng bằng một liên kết trực tiếp.

Sử dụng Indexing API nếu có thể

Một cách khác để Crawl các trang của bạn nhanh hơn là sử dụng Indexing API của Google. Nó cho phép bạn thông báo trực tiếp cho Google mỗi khi bạn thêm, xóa hoặc cập nhật trang trên trang web của bạn.

Tuy nhiên, Indexing API hiện chỉ được sử dụng cho các trường hợp như video trực tiếp và thông tin về công việc. Vì vậy, nếu nó áp dụng cho trang web của bạn, bạn có thể sử dụng nó để cập nhật URL của bạn trong chỉ mục và kết quả tìm kiếm của Google.

Câu hỏi thường gặp

Googlebot có tuân theo crawl-delay trong tệp robots.txt không?

  • Không, Googlebot không tuân theo các thiết lập crawl-delay được áp dụng trong tệp robots.txt.
Xem thêm:  Computer-Generated Content

Khi nào bạn nên quan tâm đến Crawl Budget?

  • Bạn chỉ nên quan tâm đến Crawl Budget nếu bạn điều hành một trang web rất lớn, tức là có hơn 1 triệu trang hoặc một trang web quy mô trung bình với thay đổi nội dung thường xuyên (hàng ngày). Tuy nhiên, đa số các trang web không cần lo lắng về Crawl Budget.

Làm thế nào để kiểm tra Crawl Budget cho trang web của tôi?

  • Bạn sẽ không tìm thấy số cụ thể về Crawl Budget ở đâu. Tuy nhiên, bạn có thể kiểm tra tổng quan về hoạt động Crawl của Google trong báo cáo Thống kê Crawl trong Google Search Console.
avata-web

Với 12 năm kinh nghiệm: Thiết kế web, SEO từ khóa, Adwords,… Tôi thành lập BALICO với mục tiêu mang đến những giải pháp chuyển đổi số trong kinh doanh dành cho doanh nghiệp vừa và nhỏ (SME), nâng cao năng lực cạnh tranh, đồng hành cùng khách hàng tự tin bước vào kỷ nguyên công nghệ 4.0

Kết nối với tôi:  Facebook | Tiktok | Twitter | Linkedin | Youtube | Blog