Crawlability là gì?
Crawlability là khả năng của một trình crawler trang web, như Googlebot, để truy cập các trang web và tài nguyên trên trang. Vấn đề về Crawlability có thể ảnh hưởng tiêu cực đến sự xếp hạng tìm kiếm hữu cơ của trang web.
Bạn nên phân biệt Crawlability và Indexability.
Indexability đề cập đến khả năng của một trình crawler trang web để phân tích một trang và thêm nó vào chỉ mục của nó.
Chỉ các trang có khả năng Crawl và Index mới có thể được tìm thấy và được thêm vào chỉ mục bởi Google, có nghĩa rằng chúng có thể xuất hiện trong kết quả tìm kiếm của các trình crawler trang web.
Tại sao Crawlability quan trọng?
Crawlability là điều quan trọng đối với bất kỳ trang web nào dự kiến nhận lưu lượng tìm kiếm hữu cơ. Crawlability cho phép các trình crawler trang web truy cập trang để đọc và phân tích nội dung của chúng để có thể thêm vào chỉ mục tìm kiếm.
Một trang không thể được chỉ mục một cách đúng đắn nếu không được crawler. Chúng tôi thêm “đúng đắn” ở đây vì trong trường hợp hiếm hoi, Google có thể chỉ mục một URL mà không cần crawl dựa trên văn bản URL và văn bản mô tả của liên kết ngược của nó, nhưng tiêu đề và mô tả của trang sẽ không xuất hiện trên SERP.
Crawlability không chỉ quan trọng với Google. Các trình crawler trang web cụ thể khác phải crawl các trang web vì nhiều lý do khác nhau.
Những yếu tố nào ảnh hưởng đến khả năng Crawlability của một trang web?
Khả năng phát hiện trang
Trước khi crawler một trang web, trình crawler phải trước tiên phát hiện trang web đó. Các trang web không có trong bản đồ trang hoặc thiếu liên kết nội bộ (được gọi là trang mồ côi) không thể được tìm thấy bởi trình crawler và do đó không thể được crawl hoặc chỉ mục.
Nếu bạn muốn một trang được chỉ mục, nó phải được bao gồm trong bản đồ trang và có các liên kết nội bộ (tốt nhất là cả hai).
Liên kết không theo dõi (nofollow)
- Googlebot không theo dõi các liên kết có thuộc tính “rel=nofollow.
- Vì vậy, nếu một trang có, ví dụ, chỉ có một liên kết không theo dõi, thì nó tương đương với việc không có liên kết nào cả về mặt crawler.
Tập tin robots.txt
- Một tập tin robots.txt cho biết cho trình crawler trang web các phần của trang web mà họ có thể và không thể truy cập.
- Nếu bạn muốn trang được crawler, nó không được từ chối trong tập tin robots.txt.
Hạn chế truy cập
Có thể có các hạn chế cụ thể trên các trang web ngăn các trình crawler trang web truy cập chúng.
Những hạn chế này có thể bao gồm:
- Hệ thống đăng nhập nào đó
- Danh sách đen User-agent
- Danh sách đen địa chỉ IP
Làm thế nào để phát hiện vấn đề về Crawlability trên trang web của bạn?
Cách đơn giản nhất để phát hiện vấn đề về Crawlability trên một trang web là sử dụng một công cụ SEO đặc biệt như Ahrefs Site Audit hoặc Ahrefs Webmaster Tools miễn phí của chúng tôi.
Ahrefs Webmaster Tools có thể crawler toàn bộ trang web, theo dõi các vấn đề mới hoặc tái phát hiện theo thời gian. Ngoài ra, nó sẽ chia các vấn đề thành các danh mục khác nhau, giúp bạn hiểu rõ hơn về hiệu suất SEO tổng thể của trang web của bạn và tại sao trang web của bạn không thể được crawler.
Câu hỏi thường gặp
Có gì khác biệt giữa Crawlability và Indexability?
Crawlability là khả năng của một trình crawler trang web truy cập trang web và crawler nội dung của nó. Indexability là khả năng của một trình crawler trang web phân tích nội dung mà nó crawler để thêm nó vào chỉ mục của nó.
Một trang có thể có khả năng Crawl nhưng không thể Index.
Một trang web có thể được chỉ mục trong Google mà không cần crawler không?
Một cách đáng ngạc nhiên, Google có thể chỉ mục một URL mà không cần crawler, cho phép nó xuất hiện trong kết quả tìm kiếm. Tuy nhiên, đó là một trường
Tốt nghiệp CNTT và bắt đầu công việc Thiết kế web, SEO, Adwords,… từ 2008, với hơn 15 năm kinh nghiệm của mình, tôi thành lập BALICO với mục tiêu mang đến những giải pháp chuyển đổi số trong kinh doanh dành cho doanh nghiệp vừa và nhỏ (SME), nâng cao năng lực cạnh tranh, đồng hành cùng khách hàng tự tin bước vào kỷ nguyên công nghệ 4.0
Kết nối với tôi: Facebook | Tiktok | Twitter | Linkedin | Youtube | Blog