Crawler là gì? Tại sao việc crawling trang web lại quan trọng?

Crawler là gì?

Một crawler là một chương trình internet được thiết kế để duyệt internet một cách có hệ thống. Crawler thường được sử dụng như một phương tiện để các công cụ tìm kiếm khám phá và xử lý các trang web để đưa chúng vào chỉ mục và hiển thị chúng trong kết quả tìm kiếm.

Ngoài các crawler xử lý HTML, còn có một số crawler đặc biệt được sử dụng để chỉ mục hình ảnh và video.

Trong thực tế, các crawler web chính cần biết là các crawler được sử dụng bởi các công cụ tìm kiếm hàng đầu trên thế giới: Googlebot, Bingbot, Yandex Bot và Baidu Spider.

Crawler tốt và Crawler xấu

Hãy tưởng tượng một crawler tốt như một bot có thể giúp trang web của bạn, chủ yếu bằng cách thêm nội dung của bạn vào chỉ mục tìm kiếm hoặc bằng cách giúp bạn kiểm tra trang web của bạn.

Những đặc điểm của một crawler tốt khác là nó xác định chính nó, tuân theo chỉ thị của bạn và điều chỉnh tốc độ crawling của mình để tránh quá tải máy chủ của bạn.

Một crawler xấu là một bot không mang lại giá trị cho chủ sở hữu trang web và có thể có ý đồ độc hại.

Các tài sản web chỉ ra liệu họ muốn các trang web của họ bị crawl và được chỉ mục thông qua tệp robots.txt và chỉ thị trên trang. Tuy nhiên, một crawler xấu có thể không nhận diện chính nó, tránh qua các chỉ thị của bạn, tạo ra tải không cần thiết trên máy chủ và thậm chí lấy cắp nội dung và dữ liệu.

Có hai loại chính của crawler:

Bot crawl liên tục thực hiện việc crawl 24/7 để khám phá các trang mới và crawl lại các trang cũ (ví dụ: Googlebot).
Bot theo yêu cầu sẽ crawl một số trang giới hạn và thực hiện việc crawl chỉ khi được yêu cầu (ví dụ: AhrefsSiteAudit bot).

Tại sao việc crawling trang web quan trọng?

Nói chung, mục đích của một crawler của công cụ tìm kiếm là để tìm hiểu những gì có trên trang web của bạn và thêm thông tin này vào chỉ mục tìm kiếm. Nếu trang web của bạn không được crawl, thì nội dung của bạn sẽ không xuất hiện trong kết quả tìm kiếm.

Crawling trang web không chỉ là một sự kiện một lần – đó là một thực hành liên tục đối với các trang web hoạt động. Bot sẽ thường xuyên crawl lại các trang web để tìm và thêm các trang mới vào chỉ mục tìm kiếm, đồng thời cập nhật thông tin về các trang hiện có.

Mặc dù hầu hết các crawler liên quan đến công cụ tìm kiếm, nhưng cũng có các loại crawler khác. Ví dụ, bot AhrefsSiteAudit, nguồn sức mạnh của công cụ Site Audit của chúng tôi, có thể giúp bạn xem xét những vấn đề liên quan đến SEO trên trang web của bạn.

Các crawler hoạt động như thế nào?

Bây giờ chúng ta đã tìm hiểu về các crawler là gì và tại sao chúng quan trọng, hãy xem xét cách các crawler của công cụ tìm kiếm thực sự hoạt động.

Tóm tắt, một web crawler như Googlebot sẽ khám phá các URL trên trang web của bạn thông qua các bản đồ trang, liên kết và việc gửi thủ công thông qua Google Search Console. Sau đó, nó sẽ theo dõi các liên kết được “cho phép” trên các trang đó.

Nó thực hiện điều này trong khi tuân theo các quy tắc trong tệp robots.txt, cũng như các thuộc tính “nofollow” trên các liên kết và trên các trang cá nhân.

Bạn cũng nên lưu ý rằng một số trang web – những trang web có hơn 1 triệu trang được cập nhật thường xuyên hoặc những trang web có 10 nghìn trang nội dung thay đổi hàng ngày – có thể có một “nguồn cấp phát crawl” giới hạn.

Nguồn cấp phát crawl đề cập đến lượng thời gian và tài nguyên mà bot có thể dành cho một trang web trong một phiên làm việc.

Mặc dù có rất nhiều sự quan tâm về nguồn cấp phát crawl trong cộng đồng SEO, thì đa số chủ sở hữu trang web không cần lo lắng về nguồn cấp phát crawl.

Ưu tiên Crawl

Do khả năng giới hạn của nguồn cấp phát crawl, các crawler hoạt động dựa trên một tập hợp các ưu tiên crawl. Ví dụ, Googlebot xem xét các yếu tố sau đây:

PageRank của URL
Tần suất cập nhật của trang (các trang)
Trang web mới hay không

Như vậy, crawler có thể tập trung vào việc crawl các trang quan trọng nhất trên trang web của bạn trước.

Phiên bản Crawler cho Di động và Máy tính Bàn

Googlebot, ví dụ, có hai phiên bản chính: Googlebot Desktop và Googlebot Smartphone.

Ngày nay, Google sử dụng chỉ mục dựa trên di động trước tiên, điều này có nghĩa là đại diện cho điện thoại di động của nó là Googlebot chính được sử dụng để crawl và chỉ mục trang.

Tuy nhiên, quan trọng là hiểu rằng các phiên bản khác nhau của một trang web có thể được trình bày cho những loại crawler khác nhau.

Về mặc kỹ thuật, bot xác định chính nó đến máy chủ web bằng cách sử dụng tiêu đề yêu cầu HTTP User-Agent, cùng với một thông tin nhận dạng duy nhất.

Mã thông tin người dùng:

Googlebot
Dòng chuỗi mã thông tin người dùng đầy đủ:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Các phương pháp tốt nhất cho một trang web thân thiện với việc crawling

Để đảm bảo trang web của bạn sẵn sàng cho việc crawling, có một số bước chúng tôi đề nghị. Hãy tuân theo chúng để đảm bảo các trang quan trọng của bạn có cơ hội tốt nhất để được chỉ mục và xếp hạng.

Kiểm tra tệp robots.txt

Hãy nhớ rằng các crawler đôi khi được gọi là “bots”? Tệp robots.txt chính là tệp trên trang web của bạn tương tác với những bot đó, sử dụng một loạt các chỉ thị cho crawler.
Tệp robots.txt thường nằm trong thư mục gốc của trang web của bạn, bạn có thể xem nó bằng cách truy cập yourwebsite.com/robots.txt. Để chỉnh sửa tệp robots.txt, bạn cần một ứng dụng FTP hoặc truy cập vào trình quản lý cPanel của máy chủ.

Khi đã vào tệp robots.txt, bạn cần đảm bảo rằng nó không cấm bot tốt truy cập vào bất kỳ trang hoặc phần nào mà bạn muốn được chỉ mục.

Nếu bạn hiểu rõ các chỉ thị trong tệp robots.txt, chỉ cần xem tệp này là đủ để kiểm tra lỗi như chỉ thị noindex hoặc nofollow không chính xác.

Nếu không, bạn có thể sử dụng một công cụ kiểm tra robots.txt. Đối với Googlebot cụ thể, bạn có thể sử dụng công cụ kiểm tra robots.txt của họ.

Hãy đảm bảo rằng tệp robots.txt có thể truy cập được bởi các crawler – bạn không muốn nó bị chặn ở mức máy chủ.

Gửi sitemap trang web

Bước tiếp theo là gửi bản đồ trang của bạn, đó là một tệp văn bản đơn giản được lưu trữ dưới định dạng XML liệt kê tất cả các trang của trang web bạn muốn được chỉ mục.
Nếu bạn muốn gửi URL của bản đồ trang một cách thủ công, đây là cách nó trông như trong Google Search Console ở mục Index > Sitemaps:

Quá trình sẽ tương tự cho các công cụ tìm kiếm phổ biến khác, như trong Bing Webmaster Tools.

May mắn thay, việc tạo bản đồ trang không phải là bước phức tạp. Nếu trang web của bạn chạy trên nền WordPress, bất kỳ plugin SEO phổ biến nào – như Yoast hoặc Rank Math – sẽ tự động tạo bản đồ trang cho bạn và cung cấp URL của bản đồ trang để bạn gửi.

Thường, URL sẽ trông giống như sau: yourwebsite.com/sitemap_index.html

Sử dụng các chỉ thị cho crawler một cách khôn ngoan

Tệp robots.txt sử dụng các chỉ thị để thông báo cho các crawler những trang được phép (hoặc không được phép) được crawling. Dựa trên các quy tắc trong tệp robots.txt này, crawler có thể truy cập một trang được “cho phép” và kiểm tra các chỉ thị khác, như một thẻ meta “nofollow” trong phần HTML của trang của bạn hoặc thuộc tính liên kết “nofollow” trong mã HTML của trang.

Với điều này trong tâm trí, quan trọng rằng bạn cho phép các trang quan trọng trong thanh điều hướng của trang web của bạn được crawling. Bất kỳ chỉ thị cấp trang nào cũng sẽ không được xem xét nếu nội dung không được phép crawling trong tệp robots.txt của bạn.

Ngay cả khi bạn không muốn một số trang của bạn được chỉ mục, chúng vẫn đóng một vai trò quan trọng trong việc cho phép crawler theo dõi các liên kết và khám phá các trang khác trên trang web của bạn.

Các chỉ thị này cũng có thể được thiết lập trong tiêu đề HTTP “X-Robots-Tag“, điều thường bị bỏ qua.

Cung cấp liên kết nội bộ giữa các trang

Khó có thể nào đánh giá quá quan trọng của việc tạo liên kết nội bộ giữa các trang trên trang web của bạn.
Việc này không chỉ giúp các công cụ tìm kiếm hiểu rõ về nội dung của mỗi trang, mà còn giúp crawler khám phá trang trước tiên – điều này xảy ra khi Googlebot theo dõi một trang đã biết đến một trang mới.

Các liên kết nội bộ cũng giúp bạn định hình cách PageRank lan truyền trong toàn bộ trang web của bạn. Thông thường, càng nhiều liên kết nội bộ trỏ đến một trang cụ thể, thì trang đó càng quan trọng.

Giảm thiểu các lỗi 4xx và các chuyển hướng không cần thiết

Giống như việc tạo liên kết nội bộ, SEO kỹ thuật là một yếu tố quan trọng – và thường bị bỏ qua – trong hồ sơ SEO của một trang web.
Nhắc lại một chút, lỗi 4xx thường ám chỉ cho crawler rằng nội dung tại URL đó không tồn tại (404) hoặc không thể truy cập (403). Nếu bạn đã gỡ bỏ một trang, ví dụ, nó có thể xuất hiện như một trang lỗi 404 và cuối cùng sẽ bị loại khỏi chỉ mục tìm kiếm.

Có một số lỗi 4xx đôi khi không quan trọng lắm, nhưng mã trạng thái 4xx quá nhiều đại diện cho rất nhiều “đường cụt” cho crawler. Nếu bot liên tục tìm thấy các trang chết hoặc trang lỗi khi crawling trang web của bạn, điều này sẽ không tốt cho việc crawling mượt mà.

Vì vậy, trong khả năng có thể, sử dụng Ahrefs Site Audit để sửa các trang này hoặc thiết lập một chuyển hướng đến một trang hoạt động.

Bạn cũng muốn loại bỏ bất kỳ chuyển hướng không cần thiết và chuỗi chuyển hướng. Mỗi lần chuyển hướng đại diện cho một yêu cầu máy chủ mới, điều này đồng nghĩa với việc trang tải chậm hơn và trải nghiệm người dùng kém hơn.

Một số chuyển hướng là bắt buộc – như từ các trang bạn đã gỡ bỏ – nhưng chỉ sử dụng chúng khi cần thiết.

Câu hỏi thường gặp

Crawling và chỉ mục có phải là một điều gì đó giống nhau không?

Không, crawling đề cập đến quá trình khám phá các trang web và nội dung có sẵn công khai. Chỉ mục đề cập đến công cụ tìm kiếm phân tích các trang này và lưu trữ chúng trong chỉ mục tìm kiếm của họ.

Các crawler nào hoạt động nhiều nhất?

Chúng tôi đã đề cập đến một số công cụ tìm kiếm crawler phổ biến nhất trước đó, bao gồm Googlebot, Bingbot, Yandex Bot và Baidu Spider.

Để tìm hiểu thêm về các crawler hoạt động nhiều nhất, hãy kiểm tra nghiên cứu lưu lượng Bot của Imperva. Thú vị thay, AhrefsBot, nguồn sức mạnh của toàn bộ cơ sở dữ liệu liên kết của chúng tôi, đã được xem là crawler hoạt động nhiều thứ hai sau Googlebot.

Các crawler có gây hại cho trang web của tôi không?

Mặc dù hầu hết các crawler không gây hại cho trang web của bạn, nhưng có các crawler xấu có thể làm như vậy.

Thường xuyên, một crawler có hại sẽ chiếm quá nhiều băng thông của bạn, làm cho các trang web chậm lại và ảnh hưởng đến trải nghiệm người dùng của trang web của bạn. Tuy nhiên, một bot xấu cũng có thể cố gắng lấy dữ liệu hoặc thu thập nội dung từ trang web của bạn.

Trịnh Bảo

Tốt nghiệp CNTT và bắt đầu công việc Thiết kế web, SEO, Adwords,… từ 2008, với hơn 15 năm kinh nghiệm của mình, tôi thành lập BALICO với mục tiêu mang đến những giải pháp chuyển đổi số trong kinh doanh dành cho doanh nghiệp vừa và nhỏ (SME), nâng cao năng lực cạnh tranh, đồng hành cùng khách hàng tự tin bước vào kỷ nguyên công nghệ 4.0