搜尋引擎如何判斷內容與連結的相關性?

(圖片來源:socialmediaimpact.com)

在之前的"Web Spam Detection"與"Link farm detection"談到搜尋引擎可以判斷垃圾網站的成份，但是許多意圖操作的人還是會想出方法，想要逃脫搜尋引擎的偵測，我們來看看常見的例子與其破綻 ...

有些人會認為，既然link farm (連結農場) 有以下的連結特性 (如下圖)，因此就會思考做出不一樣的連結狀態。

(資料來源: A New Enhanced Technique for Link Farm Detection)

例如刻意在許多頁面，連結到無辜的第三者網站或是政府網站。

其實這樣的作法還是沒有辦法躲避偵測，因為連結農場可以自己操作連外的連結，但是沒有辦法「自然的」操作連進來的連結。

頂多可以購買少數的高Pagerank的網站來抬高身價，但是要達成多樣性且高品質的話，所花的代價根本不敷成本。

並且故意連結到無辜的第三者網站，更容易因為第三者網站的外部連結報告 (如Google網站管理工具)，而自曝身份。所以要把人為連結操作到自然並且有效，除非投入大量的人力與財力，否則是不可能有效的。就算短期有效果，隨著搜尋引擎的演算法改善，更可能一夕完全失效。

除了透過link schemes之外，還可以透過內容與連結的相關性來瞭解link farm。也就是在"連結不是原罪，Google也不是大神"說過的，連結最基本的規範 = 客戶必須知情 or 內容必須相關。如果在網頁內容插入不相關的連結，並且沒有NoFollow，如果不相關連結類型的數目越多，則就越可能是link farm。

網站是否為link farm (連結農場)，其實只需要看整體連結狀態，以及整體不相關非NoFollow的連結數目，就可以知道。

但是相關性如何判斷呢 ? 之前曾經在"搜尋引擎知道網頁內容是否相關 (relevant content)?"提過，我們再來仔細的看看。

最經常被用來判斷文件相關性的方法，有TF-IDF、Euclidean Distance、Cosine Similarity、Jaccard Coefﬁcient、Pearson Correlation Coefﬁcient ... 等等。

為了正確的瞭解這些演算法是否可以自動判讀文件相關性，我們以下列的流程來進行實驗，並且檢定出有顯著改善的演算法 :

上面的步驟分成三大程序:

第一步是由已經人工分類的DMOZ中倒出所有的資料，匯入MySQL中，以備後面程式使用。

第二步是資料的預處理步驟，先進行網頁資料抓取，然後取出我們需要的資料，分成英文與中文分別處理字詞的分析，讓抓取的資料還原到基本的單詞。

第三步就是把第二步處理過的資料，進行演算法計算與比較。由此便可以知道各演算法計算出的相關性數值，並且比較各種不同演算法的精準度。

結果發現所有的演算法在所有的資料實驗中，其精準度都達80%以上，並且某些演算法其精準度還達90%以上。

這個代表的是: 使用最簡單的方法、以最便宜的硬體，就可以快速輕易的知道網頁間的相關性。所以Google等搜尋引擎會不知道嗎? 當然會比我們更清楚。所以各種SEO的作弊行為，其實應該可以退場了，好好的進行真正的網站優化才是上策。

文章出處:

http://seo.dns.com.tw/?p=10411

創物網站設計/網頁設計統一編號36600794
TEL:07-3220462 / Fax:07-3221742
高雄市三民區九如二路57號6樓之5

搜尋引擎如何判斷內容與連結的相關性?

網站是否為link farm (連結農場)， 其實只需要看整體連結狀態，以及整體不相關非NoFollow的連結數目，就可以知道。

網站是否為link farm (連結農場)，其實只需要看整體連結狀態，以及整體不相關非NoFollow的連結數目，就可以知道。