專利名稱 | 網頁包覆程式的維護方法 METHOD FOR WRAPPER MAINTENANCE |
申請日 (校編號) | 2006/04/14 (095001TW) |
專利證書號 | I328952 中華民國 |
專利權人 | 國立中央大學 |
發明人 | 蘇木春、李允中、王紹睿 |
技術摘要: | ||||||||
本發明提出一種網頁包覆程式的維護方法,此方法先分別給予擷取網頁之每一個網頁標籤一個標籤值,而形成一第一標籤值分佈圖。接著,經傅立葉轉換為一頻譜圖。然後,找出頻譜圖中最高尖峰週期,並以一濾波器濾除此最高尖峰以外的其餘尖峰。之後,將濾除過後之頻譜圖經傅立葉反轉換回一第二標籤值分佈圖。最後,比對第一標籤值分佈圖與第二標籤值分佈圖,以找出第一標籤值分佈圖中多筆資料的頭尾位置,並根據這些資料的頭尾位置更新網頁擷取規則。 |
||||||||
解決的問題或達成的功效: | ||||||||
本發明是有關於一種包覆程式的維護方法,且特別是有關於一種以數位訊號處理方法更新修正網頁擷取規則的包覆程式維護方法。 |
||||||||
應用領域: | ||||||||
包覆程式的維護方法 |
||||||||
適用產品: | ||||||||
網頁 |
||||||||
IPC: | ||||||||
H04L-029/02(2006.01);G06F-017/14(2006.01);G06F-017/30(2006.01) |
||||||||
Claim 1: | ||||||||
1.一種網頁包覆程式的維護方法,適於更新該網頁包覆程式之一網頁擷取規則,該維護方法包括下列步驟:a.擷取一網頁之原始碼中的多個標籤,並給予每一該些標籤一標籤值,而形成一第一標籤值分佈圖;b.將該第一標籤值分佈圖進行傅立葉轉換,獲得一頻譜圖;c.找出該頻譜圖中一固定範圍內之一最高尖峰,並根據該最高尖峰的週期,設計一濾波器,而濾除該最高尖峰以外的其餘尖峰;d.將濾除過後之該頻譜圖透過傅立葉反轉換回一第二標籤值分佈圖;e.取用該第二標籤值分佈圖的多個區段與該第一標籤值分佈圖比對,找出該第一標籤值分佈圖中多筆資料的頭尾位置;以及f.根據該些資料的頭尾位置更新該網頁擷取規則。 |
||||||||
相關圖片: | ||||||||
| ||||||||
聯繫方式 | ||||||||
|
||||||||