Thuật toán tìm kiếm của Google là một trong những hệ thống quyền lực nhất trên Internet, quyết định sự sống còn của các trang web và những nội dung trên web sẽ trông như thế nào. Tuy nhiên, cách thức Google xếp hạng các trang web vẫn luôn là một bí ẩn, thôi thúc các nhà báo, nhà nghiên cứu và những người làm trong lĩnh vực tối ưu hóa công cụ tìm kiếm (SEO) từng bước khám phá.
Mới đây, bí ẩn như sắp được giải mã khi một vụ rò rỉ cho thấy hàng ngàn trang tài liệu nội bộ mở ra một cái nhìn chưa từng có về cách thức hoạt động của Google Search và rằng Google chưa hoàn toàn trung thực về điều này trong nhiều năm. Cho đến nay, Google vẫn chưa phản hồi các yêu cầu bình luận về tính xác thực của các tài liệu này.
Rand Fishkin, người đã làm việc trong lĩnh vực SEO hơn một thập kỷ, cho biết một nguồn tin đã chia sẻ với ông 2.500 trang tài liệu với hy vọng việc báo cáo về sự rò rỉ này sẽ phản bác lại những "lời nói dối" mà nhân viên Google đã chia sẻ về cách thuật toán tìm kiếm hoạt động. Theo Fishkin, các tài liệu mô tả về API tìm kiếm của Google và phân tích thông tin nào có sẵn cho nhân viên.
Các chi tiết mà Fishkin chia sẻ rất phức tạp và kỹ thuật, có thể dễ hiểu hơn đối với các nhà phát triển và chuyên gia SEO hơn là người dùng phổ thông. Nội dung của tài liệu này cũng không cho thấy Google sử dụng dữ liệu và tín hiệu cụ thể như họ từng đề cập để xếp hạng tìm kiếm.
Thay vào đó, các tài liệu rò rỉ mô tả dữ liệu nào được Google thu thập từ các trang web và người tìm kiếm để cung cấp manh mối gián tiếp cho các chuyên gia SEO về những gì Google quan tâm, như chuyên gia SEO Mike King đã viết trong bản tổng quan về các tài liệu.
Các tài liệu rò rỉ đề cập đến các chủ đề như loại dữ liệu nào Google thu thập và sử dụng, những trang web nào Google nâng cao cho các chủ đề nhạy cảm như bầu cử, cách Google xử lý các trang web nhỏ và hơn thế nữa. Ngoài ra một số thông tin trong các tài liệu dường như mâu thuẫn với các tuyên bố công khai của đại diện Google.
Ông King cho biết: "'Nói dối' là một từ khắc nghiệt, nhưng đó là từ duy nhất chính xác để sử dụng ở đây… Mặc dù tôi không trách các đại diện của Google vì đã bảo vệ thông tin độc quyền của họ, tôi vẫn thấy không ổn với nỗ lực của họ nhằm tích cực bác bỏ những người trong lĩnh vực tiếp thị, công nghệ và báo chí, những người đã trình bày các phát hiện có thể tái hiện được."
Thuật toán tìm kiếm bí mật của Google đã tạo ra một ngành công nghiệp tiếp thị toàn cầu, với hàng triệu công ty trên thế giới thực hiện theo hướng dẫn công khai của Google. Các chiến thuật SEO gây khó chịu đã dẫn đến hệ quả là các kết quả tìm kiếm của Google đang ngày càng tệ hơn, đầy rẫy nội dung rác mà các nhà điều hành web cảm thấy bắt buộc phải tạo ra để trang của họ được nhìn thấy.
Nhưng một số chi tiết trong các tài liệu rò rỉ đã đặt câu hỏi về độ chính xác của các tuyên bố công khai của Google về cách Search hoạt động. Một ví dụ do Fishkin và King đưa ra là liệu dữ liệu Chrome của Google có được sử dụng trong xếp hạng hay không.
Trước đây đại diện của Google luôn nhấn mạnh rằng họ không sử dụng dữ liệu Chrome để xếp hạng các trang, nhưng tài liệu rò rỉ cho thấy, Chrome được đề cập cụ thể trong nhiều mục về cách các trang web xuất hiện trong Search. Ví dụ trong ảnh chụp màn hình dưới đây, các liên kết xuất hiện dưới URL chính của vogue.com có thể được tạo ra một phần bằng dữ liệu Chrome.
Một câu hỏi khác được đặt ra là vai trò của E-E-A-T trong xếp hạng – nếu có – là gì. E-E-A-T là viết tắt của kinh nghiệm, chuyên môn, uy tín và đáng tin cậy, một bộ chỉ số của Google được sử dụng để đánh giá chất lượng của các kết quả. Các đại diện của Google đã trước đây nói rằng E-E-A-T không phải là yếu tố xếp hạng. Fishkin lưu ý rằng ông không tìm thấy nhiều trong các tài liệu đề cập đến E-E-A-T theo tên.
Tuy nhiên, King đã trình bay chi tiết cách Google thu thập dữ liệu tác giả từ một trang và có một trường để xác định liệu thực thể trên trang có phải là tác giả hay không. Một phần các tài liệu do King chia sẻ cho biết trường này được "phát triển và điều chỉnh chủ yếu cho các bài báo tin tức... nhưng cũng được điền cho nội dung khác (ví dụ, các bài báo khoa học)."
Mặc dù điều này không xác nhận rằng các dòng tên tác giả là một chỉ số xếp hạng rõ ràng, nhưng nó cho thấy Google ít nhất đang theo dõi thuộc tính này. Các đại diện của Google đã trước đây khẳng định rằng các dòng tên tác giả là điều mà các chủ sở hữu trang web nên làm cho độc giả, không phải Google, bởi vì nó không ảnh hưởng đến xếp hạng.
Các tài liệu này được rò rỉ vào đúng thời điểm nhạy cảm khi chính phủ Mỹ đang theo đuổi vụ kiện chống độc quyền với Google – chủ yếu xoay quanh công cụ Tìm kiếm của họ - theo đó cũng sẽ buộc công ty phải tiết lộ nhiều tài liệu nội bộ hơn, để các bên có cái nhìn sâu sắc hơn về cách hoạt động trong cỗ máy kiếm tiền chính của công ty.