在這個科技高度發達的時代,百度已經成為人們獲取新聞的主要途徑。但是現在的百度充斥著重復的內容,給用戶的訪問造成了很大的麻煩。所以百度需要判斷網頁的重復度,只選擇一些優質行業供用戶瀏覽。然而,在現有技術中,通常通過比較兩個頁面的內容和借用點來確認兩個頁面的相似性。
這種方法可以精確計算,但是時間復雜度太高,計算耗費大量時間。通過在一個頁面中簽署一些重要的信息,然后比較兩個頁面的簽名,就可以計算出相似度。這種方法簡單、高效、快捷,更適合百度這種海量信息的應用場景。
1,網站重復內容的判斷
a .獲取多個網頁;
b .分別提取網頁的網頁文本;
c .從網頁文本中提取一個或多個句子,并根據一個或多個句子計算網頁文本句子簽名;
d .根據網頁句子簽名對多個網頁進行聚類;
e .根據每個類別計算網頁的附加簽名;
f .根據附加簽名判斷每個類別下的網頁是否重復。
通過上述方式,本發明的網頁重復判斷系統及判斷方法能夠通過網頁文本的包括句子簽名在內的多維簽名,有效且快速地判斷網頁是否重復。
網站的基本結構
提取正文
a .將網頁分塊;
b .對分割后的網頁進行分塊過濾,得到包含網頁文本的內容;
c .從內容塊中提取網頁文本。
正文分句
a、對網頁正文進行句子處理;
在這一步中,您可以使用分號、句號、感嘆號和其他表示句子結束的符號在網頁的文本中制作從句。此外,網頁文本的視覺信息也可以用于在網頁文本上制作子句。
b .過濾并轉換從句后的網頁文本;
在該步驟中,首先過濾掉句子中的數字信息;版權信息和其他對網頁重復判斷不起決定性作用的信息。然后對句子進行轉換,例如全角/半角轉換或者繁簡轉換,使轉換后的句子格式統一。
c .從過濾轉換后的網頁文本中提取最長的一個或多個句子;
在該步驟中,過濾和轉換后的網頁文本提取最長的句子或預定數量的連續句子的組合。比如在一個網頁實例中,過濾轉換后的某個段落是最長的,遠遠超過其他句子,那么你可以選擇這個段落作為網頁正文句子,或者選擇最長的連續句子組合作為網頁正文句子。
d .對一個或多個句子進行哈希簽名操作,得到網頁文本句子簽名。
Simhash算法是通過比較每個網頁的附加簽名是否相同或相似來判斷網頁是否重復。具體來說,在比較simhash簽名操作得到的網頁正文簽名時,比較網頁正文簽名的不同位數。不同的數字越少,網頁重復的可能性就越高。當比較其他附加簽名時,如果附加簽名相等,則意味著該網頁在該緯度是重復的。
總結:
1.兩個網頁的真實標題簽名是一樣的。
2.我所在行業的兩個網頁的內容簽名是一樣的。
3.兩個網頁的網頁正文簽名的不同位數小于6。
4.這兩個網頁具有相同的網站位置簽名和相同的url文件名簽名。
5.注釋塊簽名、資源簽名、標簽標題簽名、摘要簽名和url文件名簽名中的三個簽名是相同的。
附加信息全站判斷重復標準:
通過比較兩個頁面,我們可以得到一組真實的重復URL。一般來說,如果這個真重復url集合中的網頁數量/整個網頁集合中的網頁數量大于30%,則整個網頁集合被認為是真重復,否則是假重復。