Google search hoạt động thế nào?




Google search hoạt động thế nào? 

Mạng máy tính là nơi chúng ta kết nối với nhau, và là một kho dữ liệu khổng lồ. Để tìm được thông tin mình cần tìm, một công cụ tìm kiếm là điều cần thiết. Từ đó Google Search ra đời. Chính nhờ tốc độ tìm kiếm rất nhanh và kết quả tìm kiếm phù hợp, Google đã trở thành công cụ tìm kiếm tốt nhất trên Internet. Vậy làm sao mà Google có thể làm được điều này. Hãy cùng nhau tìm hiểu nhé.

Một chiếc máy tính thông thường như của chúng ta, khi tìm kiếm file hay tập tin nào đó, phải mất một khoảng thời gian nhất định mới có thể tìm thấy được. Nó tìm kiếm bằng cách duyệt hết tất cả các tập tin và kiểm tra từ khóa của tập tin đó có trùng khớp với từ khóa cần tìm hay không, rồi hiển thị ra màn hình. Cách này đối với yêu cầu tốc độ trên Internet hiện nay thì không phù hợp. Và Google phải bằng cách nào đó không cần duyệt hết các thông tin để tránh lãng phí thời gian. Vậy bằng cách nào?

Google sử dụng một thứ gọi là index (chỉ mục), hiểu đơn giản như một từ điển có dữ liệu là tập hợp các từ được sắp xếp thành một bảng với index là các chữ cái từ A đến Z, khi bạn muốn tìm kiếm như “be”, để gợi ý cho bạn những từ như “beach” , “beaf”, “bee”,… nó sẽ chỉ cần duyệt các từ bắt đầu bằng chữ B, và tìm những từ chứa “be” trong danh sách đó. Thay vì đi duyệt hết tất cả các từ, công cụ tìm kiếm chỉ cần dựa vào đặc điểm của từ tìm kiếm (be – B) để tìm và đưa ra các kết quả cho bạn. Các index cụ thể như thế nào, và thuật toán của Google ra làm sao, là một bí mật công nghệ. Chúng ta chỉ hiểu cơ bản cách để hạn chế thời gian tìm kiếm mà thôi.

Để đảm bảo đưa được thông tin hữu ích cho người dùng, Google cần phải xếp hạng các kết quả tìm kiếm. Ví dụ bạn muốn search “Cách làm Sandwich”, ngoài các page làm Sandwich, cũng có thể có một số page về tên người là Sandwich, hay chỉ là các page bán Sandwich. Vậy nên việc xếp hạng tập trung giải đáp vấn đề “Bạn muốn nhận được kết quả thế nào?”

Ngoài việc hiểu được ý nghĩa của câu hỏi, Google còn phải xác định hàng trăm hàng nghìn đặc điểm của người tìm kiếm cơ bản như nơi bạn đang sống, đặc điểm tính cách của bạn, công việc của bạn,…. Vì Sandwich có thể ở Mỹ sẽ có công thức khác so với ở VN hay chăng? Hay người trẻ tuổi thích loại Sandwich khác so với người lớn chăng?

Ngoài ra còn đặc điểm của trang web đó như tần suất sử dụng từ, vị trí đặt từ, độ tin cậy của trang web. Nhưng không phải cứ có càng nhiều từ thì trang web của bạn sẽ lên top tìm kiếm. Nếu là vậy thì nhiều trang web không đáng tin cậy có thể lợi dụng điều này để đăng những thông tin phục vụ cho mục đích của họ như quảng cáo, cài mã độc,… Chính vì điều này, ngoài việc tìm kiếm thông tin, Google còn phải lọc các trang web xấu.

Thông tin luôn luôn thay đổi, bắt buộc bảng dữ liệu cũng như nhiều thứ khác phải thay đổi liên tục. Chính sự thay đổi sẽ khiến cho máy tính phải sử dụng một phần CPU để thực hiện công việc, và sự hao phí đó là không xứng đáng, vì việc tìm kiếm của người dùng trên máy tính là không nhiều.

 Nội dung bài viết thuộc về Lê Công Diễn.


Người viết: Lê Công Diễn
Mang đi nhớ ghi nguồn



Nhận xét

Bài đăng phổ biến từ blog này

Deploy project Springboot MIỄN PHÍ sử dụng Render

Ứng dụng Mã hóa bất đối xứng (Asymmetric cryptography) vào Chữ ký số (Digital Signature)

API và HTTP - Một số khái niệm cơ bản cần biết về Web (Phần 2)