Trang chủ Kiếm Tiền Online Search Engine Optimization Googlebot là gì? Googlebot lập chỉ mục trang web như thế nào?

Googlebot là gì? Googlebot lập chỉ mục trang web như thế nào?

Bởi

09/23/2020

1276

Googlebot ( hay Google bot) là con bọ (trình thu thập dữ liệu) của Google, còn được gọi là spider. Googlebot dùng để thu thập thông tin, cập nhật thêm những chỉ mục mới và website mới.

Googlebot

Tổng quan về Googlebot

Googlebot sử dụng các thuật toán và bò vào website, thực hiện quá trình thu thập và tiếp nhận dữ liệu web. Nhờ vậy mà người dùng tìm kiếm được thông tin từ hàng tỷ website trên thế giới.

Quá trình thực hiện:

Bảng này liệt kê thông tin về các trình thu thập dữ liệu thông thường của Google mà bạn có thể thấy trong nhật ký liên kết giới thiệu và cách xác định các trình đó trong robots.txt, thẻ meta robots và lệnh HTTP X-Robots-Tag.

Googlebot bắt đầu với danh sách URL của web tạo ra từ quá trình thu thập trước đó và bổ sung sitemap dữ liệu được cung cấp bởi quản trị web.

Khi Googlebot truy vấn các trang web này phát hiện liên kết (SRC và HREF) trên mỗi trang và thêm chúng vào danh sách của các trang để thu thập dữ liệu. Các trang web mới, xem xét các trang web đang hoạt động, các liên kết chết được ghi nhận và được sử dụng để cập nhật chỉ mục trên Google.

Bảng sau đây liệt kê các trình thu thập dữ liệu mà các sản phẩm và dịch vụ khác nhau của Google sử dụng:

Mã tác nhân người dùng ở dòng User-agent: trong tệp robots.txt sẽ chỉ định loại trình thu thập dữ liệu khi viết quy tắc thu thập dữ liệu cho trang web của bạn. Một số trình thu thập dữ liệu có nhiều mã, như trình bày trong bảng. Bạn chỉ được sử dụng một mã trình thu thập dữ liệu duy nhất cho một quy tắc để quy tắc đó có hiệu lực. Danh sách này không đầy đủ, nhưng bao gồm hầu hết các trình thu thập dữ liệu bạn có thể thấy trên trang web của mình.
Chuỗi tác nhân người dùng đầy đủ là phần mô tả đầy đủ về trình thu thập dữ liệu và xuất hiện trong yêu cầu và nhật ký web của bạn.

Các giá trị này có thể bị giả mạo. Nếu cần xác minh rằng khách truy cập là Googlebot, bạn nên sử dụng quy trình tra cứu DNS ngược.

Trình thu thập dữ liệu	Mã tác nhân người dùng (mã sản phẩm)	Chuỗi tác nhân người dùng đầy đủ
APIs-Google	APIs-Google	APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense	Mediapartners-Google	Mediapartners-Google
AdsBot Mobile Web Android (Kiểm tra chất lượng quảng cáo trong trang web trên Android)	AdsBot-Google-Mobile	Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, như Gecko) Chrome Mobile Safari (tương thích; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot Mobile Web (Kiểm tra chất lượng quảng cáo trong trang web trên iPhone)	AdsBot-Google-Mobile	Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 như Mac OS X) AppleWebKit/601.1.46 (KHTML, như Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (tương thích; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
AdsBot (Kiểm tra chất lượng quảng cáo trong trang web dành cho máy tính)	AdsBot-Google	AdsBot-Google (+http://www.google.com/adsbot.html)
Googlebot Image	Googlebot-Image Googlebot	Googlebot-Image/1.0
Googlebot-News	Googlebot-News Googlebot	Googlebot-News
Googlebot Video	Googlebot-Video Googlebot	Googlebot-Video/1.0
Googlebot (Máy tính)	Googlebot	Mozilla/5.0 (tương thích; Googlebot/2.1; +http://www.google.com/bot.html) Mozilla/5.0 AppleWebKit/537.36 (KHTML, như Gecko; tương thích; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z‡ Safari/537.36 hoặc (hiếm khi sử dụng): Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot (Điện thoại thông minh)	Googlebot	Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (tương thích; Googlebot/2.1; +http://www.google.com/bot.html)
Mobile AdSense	Mediapartners-Google	(Nhiều loại thiết bị di động) (tương thích; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Mobile Apps Android (Kiểm tra chất lượng quảng cáo trong trang trên ứng dụng Android. Tuân theo quy tắc của robot AdsBot-Google.)	AdsBot-Google-Mobile-Apps	AdsBot-Google-Mobile-Apps
Feedfetcher	FeedFetcher-Google Không tuân theo quy tắc robots.txt – tìm hiểu nguyên nhân	FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)
Google Read Aloud	Google-Read-Aloud Không tuân theo quy tắc robots.txt – tìm hiểu nguyên nhân	Các tác nhân hiện tại: Tác nhân máy tính: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/41.0.2272.118 Safari/537.36 (tương thích; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943) Tác nhân thiết bị di động: Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (tương thích; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943) Tác nhân cũ (không còn nữa): google-speakr
Duplex on the Web	DuplexWeb-Google Có thể bỏ qua ký tự đại diện * cho tác nhân người dùng – tìm hiểu nguyên nhân	Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36
Google Favicon (Truy xuất biểu tượng trang web cho nhiều dịch vụ)	Google Favicon Đối với các yêu cầu do người dùng đưa ra, trình thu thập dữ liệu này sẽ bỏ qua các quy tắc robots.txt	Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
Web Light	googleweblight Không tuân theo quy tắc robots.txt – tìm hiểu nguyên nhân	Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, như Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

^‡ Chrome/W.X.Y.Z trong tác nhân người dùng

Nếu thấy chuỗi Chrome/W.X.Y.Z trong chuỗi tác nhân người dùng trong bảng, thì W.X.Y.Z chính là trình giữ chỗ đại diện cho phiên bản của trình duyệt Chrome mà tác nhân người dùng đó sử dụng, ví dụ như 41.0.2272.96. Số phiên bản này sẽ tăng theo thời gian để phù hợp với phiên bản Chromium mới nhất mà Googlebot sử dụng.

Nếu bạn đang tìm kiếm tác nhân người dùng có mẫu này trong nhật ký máy chủ của mình, thì có lẽ bạn nên sử dụng ký tự đại diện cho số phiên bản thay vì chỉ định số phiên bản chính xác.

Tác nhân người dùng trong robots.txt

Trong trường hợp có nhiều tác nhân người dùng được công nhận trong tệp robots.txt, Google sẽ thực hiện theo tác nhân cụ thể nhất. Nếu muốn tất cả các trình thu thập dữ liệu của Google đều có thể thu thập dữ liệu các trang của bạn, thì bạn không cần đến tệp robots.txt. Nếu bạn muốn chặn hoặc cho phép tất cả các trình thu thập dữ liệu của Google truy cập một số nội dung nhất định, bạn có thể thực hiện bằng cách chỉ định Googlebot làm tác nhân người dùng. Ví dụ: nếu bạn muốn tất cả các trang của bạn xuất hiện trong Google Tìm kiếm và nếu bạn muốn quảng cáo AdSense xuất hiện trên trang của mình thì bạn không cần dùng tệp robots.txt. Tương tự như vậy, nếu bạn muốn chặn hoàn toàn một số trang từ Google, việc chặn tác nhân người dùng Googlebot cũng sẽ chặn tất cả các tác nhân người dùng khác của Google.

Tuy nhiên, bạn có thể cài đặt cụ thể hơn nếu muốn kiểm soát chi tiết hơn. Trong trường hợp này, hãy sử dụng robots.txt để không cho phép tác nhân người dùng Googlebot-image thu thập dữ liệu các tệp trong thư mục cá nhân của bạn (trong khi cho phép Googlebot thu thập dữ liệu tất cả các tệp), cụ thể như sau:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Trong một ví dụ khác, giả sử bạn muốn quảng cáo trên tất cả các trang của bạn, nhưng bạn không muốn các trang đó xuất hiện trong Google Tìm kiếm. Trong trường hợp này, bạn sẽ chặn Googlebot, nhưng cho phép Mediapartners-Google, cụ thể như sau:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Tác nhân người dùng trong thẻ meta robots

Một số trang sử dụng nhiều thẻ meta robot để xác định lệnh cho nhiều trình thu thập dữ liệu, cụ thể như sau:

<meta name="robots" content="nofollow"><meta name="googlebot" content="noindex">

Trong trường hợp này, Google sẽ sử dụng tổng hợp các lệnh cấm và Googlebot sẽ theo cả hai lệnh noindex và nofollow.

Đọc Thêm: Google Penguin thuật toán thanh trừng SEO mũ đen

Googlebot là gì? Googlebot lập chỉ mục trang web như thế nào?

Tổng quan về Googlebot

Tác nhân người dùng trong robots.txt

Tác nhân người dùng trong thẻ meta robots

BÌNH LUẬN Hủy trả lời

Recent Posts

iPhone 13 mới ra mắt : chip Apple A15, có 5 màu sắc giá...

Bộ nhận dạng thương hiệu vai trò và sự cần thiết trong doanh nghiệp

Bảng mã IMEI iPhone giúp kiểm tra xuất xứ iPhone nhanh chóng tiện lợi

Web check iMei iPhone miễn phí uy tín nhanh chóng nhất hiện nay

Hướng dẫn cách tạo ID Apple mới trên iPhone để tải ứng dụng và...

POPULAR CATEGORIES

Tiêu Điểm

iPhone 13 mới ra mắt : chip Apple A15, có 5...

Bộ nhận dạng thương hiệu vai trò và sự cần thiết...

Bảng mã IMEI iPhone giúp kiểm tra xuất xứ iPhone nhanh...

Bài Viết Phổ Biến

Menu Filter và những hiệu ứng sử dụng bộ lọc trong...

SEO là gì? Search Engine Optimization là gì

Thẻ heading là gì? Cách dùng thẻ H1, H2, H3…khi...

Chuyên Mục