Google là một cỗ máy tìm kiếm lớn nhất hành tinh này, ít nhất là cho tới ngày nay. Data Center của Google, có
người nói rằng có thể nhìn thấy được từ Mặt Trăng, thế mới biết nó vĩ đại như
thế nào. Ở bài viết này chúng ta sẽ hiểu cỗ máy tìm kiếm Google hoạt động như
thế nào.
1.
Googlebot, Web Crawler của Google
Googlebot là một
robot của Google, tìm và lấy các trang trên các web, đưa chúng vào chỉ mục của
Google (Indexer). Có thể tưởng tượng nó giống như một con nhện nhỏ đang tất
bật trên khắp các trang mạng. Trên thực tế, Googlebot không đi tới tất cả các
trang, nó gửi yêu cầu tới các máy chủ để lấy các page, tải toàn bộ trang đó và
giao nó cho bộ phận lưu chỉ mục của Google.
Google gửi yêu cầu
tới hàng ngàn máy chủ khác nhau cùng một lúc. Để tránh việc tràn ngập các máy
chủ cá nhân hoặc lấn át các yêu cầu của người dùng, Googlebot cố ý làm cho tốc
độ gửi yêu cầu tới các trang chậm hơn rất nhiều so với khả năng của nó.
Google tìm các
trang web theo hai cách: thông qua địa chỉ URL và qua việc tìm kiếm các link
trên web.
2.
Google Indexer
Sau khi Googlebot
tải về toàn bộ các trang được tìm thấy, những trang này được lưu trữ trong cơ
sở dữ liệu của chỉ mục Google (hay nói cách khác là được Google Index). Cơ sở
dữ liệu được sắp xếp theo thứ tự bảng chữ cái các cụm từ tìm kiếm, mỗi mục sẽ
lưu một danh sách các tài liệu có chứa từ tìm kiếm này và vị trí nó xuất hiện
trong văn bản. Nhờ đó, cấu trúc của dữ liệu cho phép truy cập nhanh chóng các
tài liệu có chứa các truy vấn của người dùng.
Để cải thiện hiệu
suất tìm kiếm, Google sẽ bỏ qua (không index) những từ gọi là “stop words”
(the, is, on, or, of, how, why, as well as cũng như những chữ số 1 chữ số và
một số chữ cái đơn). Google cũng bỏ qua các dấu chấm câu và các khoảng để
dấu cách quá lớn, cũng như chuyển tất cả các chữ cái về dạng viết thường.
3.
Bộ xử lý truy vấn của Google
Bộ xử lý truy vấn
bao gồm giao diện người dùng (box tìm kiếm trên trang chủ Google), “bộ máy”
đánh giá mức độ liên quan giữa truy vấn và các dữ liệu, văn bản, và hiển thị
kết quả tìm kiếm.
PageRank – hệ thống
xếp hạng các trang web của Google góp phần rất quan trọng việc đánh giá của
Google. Một trang có PageRank cao hơn được coi là quan trọng hơn và có nhiều
khả năng được hiển thị ở vị trí cao hơn các trang PageRank thấp. Google dựa
trên rất nhiều yếu tố để đưa ra chỉ số PageRank và quyết định những tài liệu
nào liên quan đến truy vấn, bao gồm cả sự phổ biến của trang, vị trí và số
lượng các từ tìm kiếm trong trang và mức độ liên quan đến các từ tìm kiếm trên
trang.
Video mô tả hoạt động của Google:
Video mô tả hoạt động của Google:
| LỊCH KHAI GIẢNG TẠI HYNET: Khóa học Khám phá Internet Marketing | ||||
| Khai giảng | Thời lượng | Địa điểm | Đăng kí | |
| 20/04 | 7 buổi | Đào Tấn- Hà Nội | Đăng kí | |
| 13/05 | 7 buổi | Đào Tấn- Hà Nội | Đăng kí | |
| 13/06 | 7 buổi | Đào Tấn- Hà Nội | Đăng kí | |










0 nhận xét:
Đăng nhận xét