Tinh Tế: Làm thế nào các thuật toán của Google Panda Hoạt động

Trong năm 2005 Google công bố báo cáo “Web Authoring kê”, trong đó cung cấp một cái nhìn độc đáo như thế nào một công cụ tìm kiếm lớn xem các trang web ở cấp độ HTML cơ bản.

Trong tháng 8 năm 2009 Matt Cutts mời Webmasters để giúp thử nghiệm một công nghệ lập chỉ mục mới mà Google đã đặt tên là Caffeine. Cộng đồng SEO ngay lập tức giảm đầu cơ tràn lan về cách Caffeine sẽ ảnh hưởng đến bảng xếp hạng (trên thực tế, tác dụng duy nhất là không chủ ý).

Bởi tháng 2 năm 2010 ngay cả khi tôi đã trở thành con mồi để Speculationitis Caffeine. Trên 25 tháng 2 năm 2010 Matt McGee khẳng định rằng Google vẫn chưa thực hiện công nghệ Caffeine trên hơn 1 trung tâm dữ liệu (tại thời điểm này, trong tháng 4 năm 2013, chỉ có 13 trung tâm dữ liệu của Google trên toàn thế giới).

Trên 08 tháng 6 2010 Google công bố hoàn thành triển khai công nghệ lập chỉ mục Caffeine của nó. Caffeine cho Googlekhả năng chỉ số nhiều của các trang web với tốc độ nhanh hơn bao giờ hết. Công nghệ lập chỉ mục lớn hơn, nhanh hơn này luôn thay đổi kết quả tìm kiếm bởi vì tất cả các nội dung mới được phát hiện đã được thay đổi khung các công cụ tìm kiếm tham chiếu cho hàng triệu các truy vấn.

Trên 11 tháng 11 năm 2010 Matt Cutts nói rằng Google có thể sử dụng như nhiều như 50 biến thể cho một số 200 + tín hiệu xếp hạng, một điểm mà Danny Sullivan sử dụng để ngoại suy một tiềm năng 10.000 “tín hiệu” Google có thể sử dụng trong thuật toán của nó.

Vào ngày 24 tháng 2 năm 2011 Google đã công bố việc phát hành lặp đi lặp lại thuật toán Panda đầu tiên của mình vào chỉ số.

Vào ngày 02 Tháng Ba năm 2011 Google đã yêu cầu quản trị web để chia sẻ URL của trang web mà họ tin rằng không nên hạ cấp bởi Panda. Các cuộc thảo luận diễn ra trong nhiều tháng và sợi dài hơn 1000 bài viết. Kỹ sư của Google đôi khi khẳng định trong suốt năm 2011 rằng họ vẫn đang theo dõi các cuộc thảo luận và thu thập thêm thông tin.

Ngày hôm sau có dây xuất bản một cuộc phỏng vấn với Amit Singhal và Matt Cutts (xem bên dưới).

Trên 06 tháng 5 năm 2011 Amit Singhal xuất bản 23 câu hỏi thu hút nhiều sự chỉ trích từ các nhà tiếp thị Web thất vọng. Các mobs tức giận không hiểu bối cảnh trong đó các câu hỏi nên được sử dụng.

Trên 21 Tháng Sáu 2011 Danny Sullivan đề nghị Panda có thể là một yếu tố xếp hạng không chỉ là một bộ lọc (một điểm mà tôi và những người khác cũng đã đến giữ vào thời điểm đó, nhưng Danny là người đầu tiên đề nghị này công khai).

Vào giữa tháng 3 năm 2013 Google đã công bố rằng các thuật toán Panda đã được “đưa vào quá trình lập chỉ mục của chúng tôi”, có nghĩa là nó đã được tại về cơ bản chạy trên máy lái tự động. Giữa 24 tháng 2 năm 2011 và ngày 15 tháng ba năm 2013 đã có hơn 20 “lặp đi lặp lại” khẳng định và nghi ngờ của thuật toán Panda làm thay đổi kết quả tìm kiếm cho hàng triệu các truy vấn.

Những gì Google đã nói với chúng tôi về các thuật toán Panda
Vào ngày 03 Tháng Ba năm 2011 có dây xuất bản một cuộc phỏng vấn với Amit Singhal và Matt Cutts, nơi họ giải thích những gì là Panda và nó đến từ đâu.
Singhal: Vì vậy, chúng tôi đã làm Caffeine [một cập nhật lớn để cải thiện quá trình lập chỉ mục của Google] vào cuối năm 2009. Chỉ số của chúng tôi tăng một cách nhanh chóng, và chúng tôi chỉ thu thập dữ liệu với tốc độ nhanh hơn nhiều. Khi điều đó xảy ra, chúng tôi về cơ bản có rất nhiều nội dung tươi tốt, và một số không tốt như vậy. Vấn đề này đã chuyển từ sai ngữ pháp ngẫu nhiên, nhóm nghiên cứu thư rác đã độc đáo đưa về chăm sóc, thành phần nào giống như văn xuôi bằng văn bản. Nhưng nội dung là nông cạn.
Matt Cutts: Nó giống như, “mức tối thiểu mà tôi có thể làm điều đó không phải là thư rác là gì?” Nó loại giảm giữa các nhóm tương ứng của chúng tôi. Và sau đó chúng tôi quyết định, được rồi, chúng tôi đã đến với nhau và tìm ra cách để giải quyết vấn đề này.

Quá trình mà Google phát triển để đối phó với điều này “nội dung nông cạn” nó đã đột nhiên nhận thức được là không đơn giản. Họ đã chọn một nhóm các trang web, đưa các trang web “chất lượng Người đánh giá”, người sau đó xem xét lại các trang web. Các ý kiến bao gồm hoặc bao gồm một cuộc khảo sát nơi Người đánh giá chất lượng trả lời câu hỏi trực quan:
Wired.com: Làm thế nào để bạn nhận ra một chỗ cạn nội dung? Bạn có phải gió lên xác định nội dung chất lượng thấp?
Singhal: Đó là một vấn đề rất, rất khó khăn mà chúng tôi đã không được giải quyết, và đó là một sự tiến hóa đang diễn ra như thế nào để giải quyết vấn đề đó. Chúng tôi muốn giữ nó chặt chẽ khoa học, vì vậy chúng tôi sử dụng hệ thống đánh giá tiêu chuẩn của chúng tôi mà chúng tôi đã phát triển, nơi chúng tôi về cơ bản gửi các văn bản để kiểm tra bên ngoài. Sau đó, chúng tôi hỏi những câu hỏi Người đánh giá như: “bạn có thể thoải mái đưa ra trang web này thẻ tín dụng của bạn? Bạn sẽ có thuốc cho thoải mái theo quy định của trang web này để trẻ em của bạn? ”

Cutts: Có một kỹ sư đã đưa ra một tập hợp các câu hỏi nghiêm ngặt, tất cả mọi thứ từ. “Bạn có xem xét trang web này là có quyền lực? Nó sẽ không sao nếu điều này là trong một tạp chí? Trang web này có quảng cáo quá mức? “Câu hỏi theo con đường này.

Singhal: Và trên cơ sở đó, chúng tôi về cơ bản hình thành một số định nghĩa của những gì có thể được coi là chất lượng thấp. Ngoài ra, chúng tôi đưa ra các trang web chặn Chrome [cho phép người sử dụng để xác định các trang web mà họ muốn chặn từ kết quả tìm kiếm của họ] trước đó, và chúng tôi đã không sử dụng dữ liệu trong sự thay đổi này. Tuy nhiên, chúng tôi so sánh và nó đã được 84 phần trăm sự chồng chéo [giữa các trang web tải về bằng cách chặn Chrome và xuống cấp bởi bản cập nhật]. Để nói rằng chúng tôi đã đi đúng hướng.

Wired.com: Nhưng làm thế nào để bạn thực hiện điều đó thuật toán?

Cutts: Tôi nghĩ rằng bạn tìm kiếm tín hiệu tái tạo cùng một trực giác, cùng kinh nghiệm mà bạn có là một kỹ sư và rằng người dùng có. Bất cứ khi nào chúng ta nhìn vào các trang web bị chặn hầu hết, nó không phù hợp với trực giác và kinh nghiệm của chúng tôi, nhưng quan trọng là, bạn cũng có kinh nghiệm của bạn về các loại của các trang web đó sẽ tăng thêm giá trị cho người dùng so với không tăng thêm giá trị cho người sử dụng. Và chúng tôi thực sự đã đưa ra một phân loại để nói, được rồi, IRS hoặc Wikipedia hay New York Times là hơn ở phía bên này, và các trang web chất lượng thấp hơn ở phía bên này. Và bạn thực sự có thể nhìn thấy lý do toán học …

Singhal: Bạn có thể tưởng tượng trong một siêu không một loạt các điểm, một số điểm có màu đỏ, một số điểm có màu xanh, và những người khác có một số hỗn hợp. Công việc của bạn là tìm một chiếc máy bay mà nói rằng hầu hết mọi thứ ở phía bên này của nơi này có màu đỏ, và hầu hết những điều trên mà bên của máy bay đối lập với màu đỏ.

Kể từ khi các kỹ sư tìm kiếm không có thể tính toán một tín hiệu cho “bạn sẽ tin tưởng trang web này với thẻ tín dụng của bạn”, họ đã phải tìm các phép đo thống kê khác sẽ tương ứng cao với các câu trả lời được cung cấp trong điều tra Người đánh giá chất lượng.
Biểu đồ mẫu chứng minh siêu phẳng tách từ một bài báo là đồng tác giả của Navneet Panda.
23 câu hỏi Amit Singhal (xem liên kết ở trên) gần như chắc chắn lấy trực tiếp từ các điều tra Người đánh giá chất lượng. Tôi tin rằng họ đã đề cập ở đâu đó rằng các cuộc khảo sát thực tế có khoảng 100 câu hỏi. Câu trả lời cho những câu hỏi này không cung cấp cho Google dữ liệu có thể được tích hợp vào bất kỳ yếu tố xếp hạng. Tôi tin rằng họ đã âm mưu các câu trả lời trên một biểu đồ đã giúp họ chia một mẫu của các trang web từ trên Web vào “chất lượng cao” và “chất lượng thấp” các trang web. Họ có thể sử dụng một kỹ thuật tương tự như siêu phẳng tách, đó là một trong những lĩnh vực mà kỹ sư của Google Navneet Panda đã nghiên cứu.

Những gì chúng ta biết về các thuật toán Panda độc lập của Bình luận của Google
Các thuật toán Panda là một thuật toán heuristic. Có nghĩa là, nó quét một tập dữ liệu lớn và tìm kiếm các loại cụ thể các giải pháp cho các câu hỏi hoặc vấn đề (chẳng hạn như, “kết hợp của các tín hiệu thống kê gì sẽ chia dữ liệu vào ALPHA và nhóm BETA?”). Những gì có thể mang tính cách mạng về các thuật toán Panda (tôi tin) là (tôi nghĩ) tìm cách loại bỏ hoặc bỏ qua so sánh không cần thiết và tính toán, do đó làm giảm số lượng tổng thể của các tính toán cần thiết để tìm thấy phù hợp nhất cho một giải pháp cụ thể mong muốn.

Những gì Google cần làm là phát triển một tập hợp các tín hiệu xếp hạng và / hoặc trọng lượng mà có thể giúp họ trang web riêng biệt vào “chất lượng cao” và “chất lượng thấp” các trang web. Khảo sát Rater chất lượng dường như đã được sử dụng để chia một hồ bơi của trang web bí mật được chọn vào một máy bay tách biệt như vậy. Các kỹ sư của Google sau đó quay Panda lỏng lẻo về khối lượng bao la của họ dữ liệu về trang web với mục đích tìm kiếm các nhóm tốt nhất của tín hiệu và giá trị cân nhắc đối với những tín hiệu có thể sản xuất các trận đấu gần nhất để lựa chọn tập thể Người đánh giá chất lượng.

Thông qua việc lặp đi lặp lại nhiều công Google dường như đã được thay đổi (có lẽ chủ yếu là to ra) hồ bơi (học tập) của các trang web được sử dụng để xác định những kết hợp của các tín hiệu và trọng lượng nên được sử dụng để xác định một Web (trang / trang web) của Panda Điểm. Điểm này (nếu có) có lẽ là thêm vào (trang / trang web) của PageRank. Mờ mô tả các thuật toán như một “tài liệu phân loại”, mà trong sử dụng thiết lập có nghĩa là nó là một chương trình quét các tài liệu Web cá nhân và đánh giá chúng.
Do đó, “điểm Panda” của bạn được gán cho các trang cá nhân, và tích lũy đủ trang trên Website của bạn có thể bị ảnh hưởng tiêu cực mà họ “kéo xuống” phần còn lại của trang web của bạn, một kịch bản có thể là của Google đã thừa nhận.

Thay đổi các thiết lập học tập nên có nghĩa là sự kết hợp của các tín hiệu tốt nhất kết hợp và trọng lượng cũng sẽ thay đổi, ngay cả khi chỉ có một cách tinh tế.

Những gì tôi tin phương tiện này về các thuật toán Panda
Làm thế nào để Google biết nếu một Website trong bộ học tập nên được đánh giá là “chất lượng cao” hay “chất lượng thấp”? Tôi tin rằng họ đã tiến hành nhiều, có lẽ nhiều người, mới chất lượng Khảo sát Rater như họ đã mở rộng bộ học tập của mình. Mỗi trang web thời gian được bổ sung cho việc học tập thiết lập Người đánh giá chất lượng cung cấp thông tin phản hồi trên các trang web và các kỹ sư sử dụng thông tin phản hồi để xác định xem trang web này là “chất lượng cao” hay “chất lượng thấp”.

Bằng cách này, Google luôn luôn có một kế hoạch chi tiết khá hiện tại của những gì các trang web như thế nào. Kế hoạch chi tiết này được sử dụng để giúp các thuật toán Panda tìm thấy những trận đấu tốt nhất của tín hiệu Website và làm thế nào để cân nặng những tín hiệu để tạo ra một tập hợp các điểm (được giao cho các trang cá nhân) để phân chia các Web vào “chất lượng cao” và “chất lượng thấp” .

Tôi nghi ngờ rằng – tại các thuật toán Panda là nhiều hơn hoặc ít hơn tự động – có phải là ngưỡng để bảo vệ một không xác định “lớp trung lưu” của các trang web có các trang có thể không thực sự được coi là “chất lượng cao” hay “chất lượng thấp”. Có lẽ nội dung này không được phân định một số điểm Panda ở tất cả. Có lẽ nó chỉ có nghĩa là điểm số không ảnh hưởng đến giá của một tài liệu của Google chỉ số cách này hay cách khác.

Làm thế nào quan trọng là Panda cho Webmasters vào năm 2013?
Ở đây trong năm 2013, thuật toán Panda vẫn còn xáo trộn nhiều Webmasters. Nó được trích dẫn nhiều hơn bất kỳ Google thay đổi thuật toán khác, ngoại trừ chim cánh cụt trên quang phổ rộng của các cuộc thảo luận SEO mà tôi làm theo. Tôi tiếp tục nhận được yêu cầu tư vấn từ những người có trang web dường như không thể phục hồi từ Panda.

Vào cuối tháng ba Eric Enge chia sẻ suy nghĩ mới nhất của mình Panda trên Google+. Đường xuống trong các ý kiến sâu cuối cùng tôi quyết định bước ra khỏi tối tăm và có ngoại lệ đối với một phần của logic của Eric (đã được lý / lập luận / hỗ trợ bởi nhiều người trong ngành công nghiệp). Các cuộc thảo luận ban đầu tập trung vào tỷ lệ trả lại, nhưng cuối cùng tôi nhận ra rằng chúng tôi đã thực sự không nói về tỷ lệ thư bị trả lại (và chắc chắn không phải trả mức giá mà bạn có thể theo dõi và đo lường trong phân tích của bạn).

Trong bình luận cuối cùng của tôi trên cuộc thảo luận mà tôi đã bắt đầu như sau:
Bạn có thể làm cho một tách trà hoặc bạn có thể lắp ráp một bộ sưu tập của tách trà. Bạn cũng có thể chọn một tách trà, chỉ một, mà người khác đã làm. Vì vậy, Google là nói cho mọi người về tách trà chứ không phải là làm cho chúng. Từ góc nhìn của nó tốt hơn để tạo ra một bộ sưu tập lớn của tách trà hơn để đánh giá mỗi tách trà một cách chi tiết tỉ mỉ như vậy mà họ chỉ chọn một.
Do đó, họ cần phải tập trung vào những gì làm cho các bộ sưu tập tốt nhất của tách trà, không phải là tách trà tốt nhất. Đó là một nguyên tắc cơ bản của kinh tế học (hoặc có thể là một nguồn sinh học so sánh hơn) là một hệ thống gravitates hướng tới một điểm cân bằng đó tạo ra kết quả tốt nhất có thể cho số tiền ít nhất của năng lượng. Rằng “kết quả tốt nhất” luôn luôn là một sự thỏa hiệp, không bao giờ là một lựa chọn hoàn hảo.

Công việc của Google là không duy nhất trong các trang web tốt nhất mà là để tìm kiếm nội dung đủ chấp nhận được để hiển thị trong SERPs của nó mà người sử dụng hài lòng. Khi bạn biết gì về cây mũ mạ vàng làm thế nào để bạn nói với mọi người mà cây mũ mạ vàng là tốt nhất? Bạn có thể không. Bạn chỉ có thể giúp họ nhìn vào các bài thuyết trình tốt nhất từ các nhà cung cấp cây mũ mạ vàng và hy vọng có chất thực sự đằng sau các bài thuyết trình.

Chú ý: Sau khi suy nghĩ về điều này hơn một số, Eric xuất bản một tổng kết đẹp một vài ngày sau đó mà tôi có thể đồng ý. Những gì tôi đã đề cập đến trong nhận xét của tôi đến Eric là những gì tôi đã thường được gọi là Nguyên tắc Wikipedia, nói rằng “một công cụ tìm kiếm cố ý thúc đẩy nội dung chất lượng thấp mà là tối thiểu có thể chấp nhận để tìm kiếm vì chi phí ít hơn để làm điều đó hơn để thúc đẩy nội dung tốt hơn “.

Kỹ sư tìm kiếm có thể không đồng ý với cách diễn đạt của tôi, nhưng nguyên tắc là âm thanh cơ bản. Một công cụ tìm kiếm không, có thể không, và sẽ không cố gắng để cải tiến sự hài lòng của người tìm kiếm với kết quả. Nếu kết quả đáp ứng cho người sử dụng công trình công cụ tìm kiếm được thực hiện, ngay cả khi có thể có thông tin tốt hơn có sẵn không có thể hưởng lợi người tìm kiếm hơn.

Lợi ích cạnh tranh thúc đẩy công cụ tìm kiếm vượt quá ngưỡng các Nguyên tắc của Wikipedia, để đảm bảo. Sau khi tất cả, nếu ai đó tạo ra một công cụ tìm kiếm tốt hơn so với Google thì Google hoặc phải cải thiện kết quả hoặc có nguy cơ mất người sử dụng công cụ tìm kiếm tốt hơn của nó. Tuy nhiên, tất cả những đối thủ cạnh tranh kinh tế giữa các công cụ tìm kiếm có nghĩa là ngưỡng hài lòng là cao, không loại bỏ. Công nghệ không thể làm đi với cân bằng vốn có của nó.

Vì vậy, Làm thế nào để phục hồi từ một hạ xuống Panda?
Câu trả lời ngắn gọn là đơn giản: bạn thiết kế lại trang web của bạn trình bày thông tin (và tạo ra một trải nghiệm người dùng) đó là khoảng so sánh về chất lượng trình bày để được cung cấp bởi các trang web được hưởng lợi từ các thuật toán Panda.

Nói cách khác, bạn phải dừng lại đặt lợi ích riêng của bạn trước các lợi ích của người sử dụng và tạo ra giá trị phần trình bày thực sự cho những người sử dụng. Sự nhấn mạnh ngày càng tăng về chuyển đổi trong ngành công nghiệp marketeering Web có tất cả-nhưng-đảm bảo rằng thuật toán Panda của Google sẽ có rất nhiều trang để hạ cấp trong nhiều năm tới.

Các thuật toán Panda là trang web bổ ích mà tổ chức và trình bày thông tin đó là hữu ích, độc đáo, và có liên quan đến người sử dụng, các thuật toán đã hạ trang web mà chỉ xuất bản nội dung để ai đó có thể kiếm được một số tiền. Là ý định này của Google với Panda? Tôi nghi ngờ điều đó. Họ tiếp tục giúp đỡ nhiều trang web tạo ra hàng tỷ đô la doanh thu. Panda là không thực sự về số tiền cho Google – không trực tiếp. Panda chỉ đơn giản là một phản ứng với áp lực cạnh tranh để liên tục nâng cao chất lượng kết quả tìm kiếm.

Nếu nó không được cho Bing và công cụ tìm kiếm khác, chúng ta có thể chưa bao giờ thấy một thuật toán Panda. Hoặc có thể nó sẽ cư xử khác nhau.

Chúng tôi có thể có được xuống để chi tiết Panda cụ thể?
Tôi đã nói với Eric rằng tôi không còn bị ràng buộc bởi thỏa thuận không tiết lộ để tiếp tục nghiên cứu Panda của tôi để bản thân mình. Tôi không có dữ liệu ban đầu tôi thu thập được bởi vì đó là độc quyền, nhưng tôi biết những gì tôi học được. Và bây giờ tôi có thể nói rằng tôi tham gia vào một nghiên cứu tương quan khoa học cứng nhắc mà đánh giá một số yếu tố góp phần đề xuất cho hạ Panda. Chỉ có 1 trong những yếu tố được đề xuất tạo ra một mối tương quan inarguable thống kê.

Tôi đã gửi một đề nghị để nâng cao SMX 2013 để chia sẻ nghiên cứu của tôi, nhưng có vẻ như điều đó sẽ không xảy ra. Tôi sẽ không đặt nó trên SEO Lý thuyết vì nhiều lý do tôi không muốn đi vào. Hiểu rằng kể từ khi tôi không có quyền truy cập vào các dữ liệu ban đầu tôi đã có thể tái tạo lại nghiên cứu của tôi (và có lẽ đó là lý do đủ để không bao gồm một trình bày trong SMX nâng cao).

Đối với 1 “tương quan inarguable thống kê” nó chỉ áp dụng cho trang web mà rơi vào một thể loại nhất định. Bởi “thể loại” tôi có nghĩa là các trang web chia sẻ một thiết kế chắc chắn và phong cách trình bày. Điều này không có gì để làm với “nội dung” và nó không phải là một tỷ lệ trả lại.

Có nguyên nhân khác hoặc giải thích cho hạ Panda? Tôi thuyết phục phải có. Tuy nhiên, cho đến nay, tôi chưa thấy ai công bố bất kỳ nghiên cứu đáng tin cậy phân tích các yếu tố Panda (và chỉ để được rõ ràng, bạn đã không thấy ME xuất bản bất cứ điều gì như thế, một trong hai).

Tôi đã thảo luận một số phát hiện Panda của tôi trên lý thuyết SEO phí tin. Nhiều mặc dù tôi muốn cho tất cả các bạn để đăng ký nhận bản tin, tôi sẽ thay bạn đã không làm điều đó vì lý do đó mà thôi, và nếu bạn đăng ký bạn phải trả tiền cho các vấn đề trở lại cụ thể. Bạn không thể chỉ đăng ký 1 tháng, tấn công các tài liệu lưu trữ, và sau đó để lại.

Có lẽ ở đâu đó trong tương lai tôi sẽ có cơ hội để thực hiện một bài thuyết trình công cộng. Tôi không thể giải quyết được toàn bộ câu đố Panda cho bạn, nhưng tôi đã chắc chắn đã giúp mang lại rất nhiều các trang web trở lại từ hạ Panda. Không có giải pháp công thức, trừ trường hợp trong đó nhiều trang web đã thực hiện cùng một sai lầm hơn và hơn nữa.

Đơn giản là chữa bệnh tốt nhất cho một hạ xuống Panda. Chặn điều đó, đưa trải nghiệm người dùng trước các mục tiêu tài chính của bạn là con đường tối ưu để tồn tại trong thời đại của gấu trúc và chim cánh cụt.

Tinh Tế

Thứ Năm, 6 tháng 6, 2013

Làm thế nào các thuật toán của Google Panda Hoạt động

Không có nhận xét nào:

Đăng nhận xét