web數據挖掘技術分析與研究

1Web數據挖掘面臨的問題

目前面向Web的數據挖掘面臨的問題，主要有兩個方面：

1.1數據庫環境的異構型

Web上的每個站點就是一個數據源，數據源之間是異構的，外加上各個站點的信息和組織的不同，Web網站就構成了一個巨大的異構數據庫環境。要對這些數據進行挖掘，首先，要解決各個站點之間的異構數據集成，提供用户統一界面，從複雜的數據源中取得所需的有用的信息知識。其次，有關Web上的數據查詢。

1.2數據結構的半結構化

Web上的數據比較複雜，各個站點的數據都獨立設計，具有動態可變性。雖然Web上的數據形成半結構化數據。這些問題是進行Web數據挖掘所面臨的最大困難。

2XML技術在Web數據挖掘中的優勢

Web數據的異構使Web數據挖掘變得十分困難,通過XML可以解決這個問題。因為XML文檔具有很好的自我描述性，他的元素、子元素、屬性結構樹可以表達極為豐富的語義信息，能夠很好的描述半結構化的數據，因此在網絡數據集成、發送、處理和顯示的方面。開發人員能夠用XML的格式標記和交換數據。XML在三層架構上為數據的處理提供了有用的途徑。利用XML，Web設計人員能夠構建文檔類型定義的多層次互相關聯的系統、元數據、數據樹、樣式表和超鏈接結構。基於XML的Web數據挖掘技術，能夠使不同來源的結構化的數據很容易地結合在一起，解決Web數據挖掘的難題。

2.1XML技術在Web數據挖掘中具體作用利用XML技術我們在Web數據挖掘中可以完成以下幾點：

2.1.1集成異構數據源

XML是一種半結構化的數據模型，可以完成和關係數據庫中的屬性一一對應，從而實施精確地查詢與模型抽取。XML可以搜索多個不同數據庫的問題，以實現集成。

2.1.2和異構數據進行交換

在Web數據挖掘程中，用户需要和異構數據源進行數據交換，XML通過自定義性及可擴展性來標識各種數據，從而描述從各站點蒐集到的Web頁中的數據。XML的出現解決了數據查詢的.統一接口。

2.1.3過濾信息並顯示

XML描述數據本身，可以使得定義的數據以不同的方式顯示，對獲取的信息進行裁減和編輯以適應不同用户的需求。以不同的瀏覽形式提供給不同的用户。

3基於XML的Web數據挖掘模型

我們通過對XML及Web數據挖掘的分析，設計了一個基於XML的Web數據挖掘模型通過提供一個Web數據挖掘的集成環境，提高數據挖掘系統的整體性能。工作流程如下：系統根據用户要求蒐集Web資源，經數據轉換器處理成相應的XML數據存儲，提供給挖掘器使用；挖掘器則根據要求從選取相應的算法挖掘，輸出挖掘結果；用户根據自己的滿意度，獲得需要的挖掘結果，調整挖掘要求進入新一輪數據挖掘。通過系統的維護我們可以加入新的挖掘算法，實現升級。

3.1各模塊具體功能

3.1.1數據收集

從Web站點上採集數據並存儲，獲得挖掘內容。針對異構數據源，可以多種方式提出相關需求，挖掘的重點是Web內容和Web使用的數據。把用户訪問網站留下原始日誌數據進行清洗、過濾和轉換處理，轉變成統一處理的數據結構，構建日誌數據庫。

3.1.2轉換器

對檢索得到的數據用XML技術進行預處理，建立半結構化數據模型，抽取其特徵的元數據，用結構化的形式保存，為挖掘模塊提供所需的數據。

3.1.3挖掘器

不同的挖掘算法有不同適用情況，挖掘綜合器根據具體的需求和挖掘方法的不同選擇策略到挖掘算法庫中去選擇挖掘算法或種組合算法執行挖掘任務。隨着應用的深入，知識庫中的算法和規則不斷的豐富。挖掘算法庫是挖掘分析方法的綜合庫，以插拔的形式組織存放各種挖掘算法。314結果生成與評估以直觀的方式提交挖掘結果，便於用户的評估。通過模式分析和興趣度度量，若結果使得用户滿意，數據挖掘結束，輸出用户感興趣的內容；否則可以在此重新提出挖掘要求，重新挖掘。

3.2系統各模塊實現方法

3.2.1數據收集

數據的收集也涉及數據挖掘的技術，其過程是：通過人工輸入辦法，給出查詢主題，找到相關的Web頁,然後,通過相應的數據挖掘的算法對訓練數據集提煉，利用提煉出的數據模式,進行更大範圍的搜索，以獲取更多的數據源。最終形成較新和有效XML文檔。

3.2.2數據的轉換處理

數據抽取轉換是模型實現一個重要環節,其主要方法是把現有的Web頁面轉換成XML格式,並使用相關工具處理XML結構數據檢要把HTML中含有的與主題無關的標記過濾掉,然後轉化到XML的格式存儲。目前Web頁面到XML文檔的轉換,有兩部分數據構成:一是XML數據，二是非XML數據。XML數據,可以直接將它們提交給下一個模塊。對於非XML數據,本文的實現方法是用到Tidy以改正HTML文檔中的常見錯誤並生成格式編排良好的等價文檔，還可以使用Tidy生成XHTML(XML的子集)格式的文檔。通過構造相應的Java類完成將數據從HTML到XML的轉換。

3.2.3挖掘方法

（1）文本分類：文本分類是指按預先定義的主題類別，把集合中的每個文檔確定一個所屬類別。這樣，用户能夠方便地瀏覽文檔，並限制搜索範圍來使查找更為容易。利用文本分類技術對大量文檔進行快速、有效地自動分類。有關的算法通常採用TFIDF和NaiveBayes等方法。

（2）文本聚類：文本聚類與分類的不同之處在於，聚類不需要預先定義好的主題類別，它是將把文檔集合分成若干個簇，要求同簇內文檔內容相似度最大，而不同簇間的相似度最小。Hearst等人研究表明聚類假設，即與用户查詢相關的文檔通常會聚類比較靠近，而遠離與用户查詢不相關文檔。可以利用文本聚類技術把搜索引擎檢索結果分成若干個簇，用户只要考慮那些相關的簇，就能夠縮小所需要瀏覽的結果數量。目前，常用的文本聚類算法,分為兩種：以G-HAC等算法為代表的層次凝聚法，以k-means等算法為代表的平面劃分法。

（3）關聯分析：關聯分析是指從文檔集合中發現不同詞語之間關係Brin提出一種從大量文檔中查找一對詞語出現模式算法，在Web上尋找作者和書名的模式，從而發現數千本在Amazon網站上查找不到的新書。

（4）模式評價：Web數據挖掘中十分重要的過程就是模式評價。常用的方法有預留法和交叉實驗法，將數據分成訓練集和測試集兩部分，學習和測試反覆進行，最後用一個平均質量模型來確定模型質量的好壞。

（5）預留法：從數據集合隨機抽取預定大小一個子集作為測試集，其他數據則作為訓練集。

（6）交叉驗證法：把整個數據集合按照所要進行的學習測試循環次數分成一定數目的子集，在每次循環中，選取其一個子集作為測試集，其它子集並集則作為訓練集。

4結束語

XML技術不僅為Web上的數據交換提供了一個標準,而且能夠更好的表示數據內容，以及數據的含義。隨着XML的興起和完善，Web頁面會藴涵更多的結構化和語義的信息，因此,基於XML技術的數據挖掘已成為目前Web挖掘的研究熱點。當然Web數據挖掘這一研究領域還有待於進一步研究。