Đối với hầu hết mọi người sử dụng internet, cách thuật toán tìm kiếm trực tuyến cũng như cách Google xếp hạng trang web trong từng trang kết quả tìm kiếm thường được mô tả một cách rất chung chung.
Điều đáng nói ở đây là, nguồn tin Erfan Azimi cung cấp hơn 2 nghìn trang tài liệu mô tả cách SEO của Google Search vận hành nói rằng, chính Google đã vô tình đăng tải những thông tin được coi là bí mật kinh doanh này lên mạng internet, cụ thể hơn là đăng tải nó lên GitHub ngày 27/3, rồi sau đó bị xóa đi vào ngày 7/5. Khá chắc chắn rằng Google không cố tình làm điều này để mọi người hiểu rõ tường tận cách công cụ tìm kiếm của họ vận hành.
Có một điều chắc chắn, những người làm trong ngành SEO và digital marketing sẽ thấy những tài liệu này vô cùng có giá trị. Nhưng trong số những yếu tố được liệt kê để đánh giá một đường link hiển thị trong kết quả tìm kiếm, thì tài liệu của Google hoàn toàn không đề cập việc yếu tố nào quan trọng hơn để dân SEO nhắm vào tập trung tối ưu trang web và nội dung của họ.
Nhiều thông tin được rò rỉ trong lượng tài liệu này trái ngược hoàn toàn với những tuyên bố chính thức của những người làm việc cho Google trong những năm qua. Một trong số đó là những tuyên bố về việc Google không tập trung chỉ số click-through rate (tỷ lệ nhấp chuột) của một trang web để đánh giá nó cao hay thấp. Sự thật trái ngược hoàn toàn. Trang web càng nhiều lượt click đương nhiên sẽ được Google đánh giá cao hơn. Một điểm trái ngược nữa là Google luôn phủ nhận rằng subdomain được xếp hạng riêng, hay phủ nhận việc tuổi của tên miền được thu thập và đánh giá…
Cụ thể hơn, đọc hết 2500 trang tài liệu bị Google vô tình rò rỉ, Fishkin đưa ra những kết luận sau đây về cách công cụ tìm kiếm của Google vận hành, rồi xếp hạng những đường link trong kết quả tìm kiếm:
- Những năm đầu Google vận hành, nhóm kỹ sư phát triển công cụ tìm kiếm nhận ra họ cần dữ liệu clickstream data, tức là luồng mọi URL một trình duyệt đã tới. Họ cần dữ liệu này của một tỷ lệ lớn người dùng internet để tối ưu kết quả tìm kiếm.
- Một hệ thống có tên NavBoost thu thập dữ liệu từ Toolbar PageRank của Google. Hệ thống này đã được phó chủ tịch mảng tìm kiếm của Google, Pandu Nayak đề cập khi tuyên thệ trước tòa trong vụ kiện giữa bộ tư pháp Mỹ với Google. NavBoost hiện diện vì nhu cầu dữ liệu clickstream khổng lồ của Google. Chính nhu cầu dữ liệu này đã trở thành một trong số những lý do khiến Google tạo ra trình duyệt Chrome, để thu thập dữ liệu một cách toàn diện.
- NavBoost sử dụng dữ liệu số lần tìm kiếm một từ khóa cụ thể, để xác định những nhu cầu tìm kiếm trực tuyến đang là xu hướng, rồi phân tích số lần click vào một kết quả tìm kiếm, phân tích cả “long click” lẫn “short click”, tức là click vào kết quả nhưng ở lại trang web lâu để đọc thông tin, so với việc click vào kết quả nhưng nhanh chóng quay ngược trở lại trang kết quả tìm kiếm để tìm đường link khác.
- Google sẽ tận dụng lịch sử cookie, dữ liệu thu thập từ Chrome, cùng thuật toán nhận diện thói quen duyệt web của trình duyệt để chống tình trạng click spam, dù là con người hay máy móc click vào các đường link để gian lận thứ hạng.
- Google sẽ xác định click và tương tác trong mỗi lệnh tìm kiếm trực tuyến, kể cả trong và sau lệnh tìm kiếm chính, gọi là NavBoost Query. Lấy ví dụ, nếu nhiều người tìm kiếm “Tinhte”, nhưng không tìm thấy “Cuhiep”, rồi nhanh chóng đổi từ khóa thành “Cuhiep” rồi click vào trang web có liên quan, thì trang web này cũng sẽ được đẩy ranking lên khi người dùng tìm kiếm “Tinhte” trên Google.
- Dữ liệu của NavBoost được ứng dụng ở tầng host khi xác định chất lượng chung của một trang web. Có nguồn tin nói rằng đây chính là “Panda”, thuật toán xếp hạng trang web trong trang kết quả tìm kiếm, thứ mà dân SEO hay chính bản thân Google thỉnh thoảng đề cập. Việc đánh giá từ dữ liệu của NavBoost sẽ nâng hạng hoặc hạ vị trí một trang web trong kết quả tìm kiếm.
- Những yếu tố nhỏ hơn bao gồm việc hạ vị trí những trang web có tên miền giống hệt như những cụm từ khóa không có thương hiệu, ví dụ như “dong-ho-xa-xi” hay “nha-dat-sai-gon”, thường là để lợi dụng từ khóa tìm kiếm, hay điểm số “BabyPanda” xếp hạng trang web, và dữ liệu spam signal cũng được kết hợp sử dụng để đánh giá chất lượng một trang web.
- NavBoost xác định được dữ liệu truy cập và tìm kiếm trực tuyến ở ngưỡng từng tỉnh và thành phố của một quốc gia, xác định được người dùng đang xài máy tính hay điện thoại.
- Trong khi đại dịch COVID-19 xảy ra, hay cuộc bầu cử tổng thống Mỹ diễn ra, nhân sự Google đã tạo ra những danh sách riêng, những trang web tổng hợp một cách thủ công, những đường link có thể và cần được hiển thị ở vị trí cao trong những trang kêt quả tìm kiếm với những từ khóa có liên quan.
Rand Fishkin khẳng định rằng, những kết luận trên đây mới chỉ là bề nổi của tảng băng chìm sau khi theo dõi đầy đù 2500 trang tài liệu mà Google vô tình để lộ. Chi tiết anh em có thể theo dõi và đọc cụ thể tại đây.