① 數據挖掘演算法與生活中的應用案例
數據挖掘演算法與生活中的應用案例
如何分辨出垃圾郵件」、「如何判斷一筆交易是否屬於欺詐」、「如何判斷紅酒的品質和檔次」、「掃描王是如何做到文字識別的」、「如何判斷佚名的著作是否出自某位名家之手」、「如何判斷一個細胞是否屬於腫瘤細胞」等等,這些問題似乎都很專業,都不太好回答。但是,如果了解一點點數據挖掘的知識,你,或許會有柳暗花明的感覺。
本文,主要想簡單介紹下數據挖掘中的演算法,以及它包含的類型。然後,通過現實中觸手可及的、活生生的案例,去詮釋它的真實存在。 一般來說,數據挖掘的演算法包含四種類型,即分類、預測、聚類、關聯。前兩種屬於有監督學習,後兩種屬於無監督學習,屬於描述性的模式識別和發現。
有監督學習有監督的學習,即存在目標變數,需要探索特徵變數和目標變數之間的關系,在目標變數的監督下學習和優化演算法。例如,信用評分模型就是典型的有監督學習,目標變數為「是否違約」。演算法的目的在於研究特徵變數(人口統計、資產屬性等)和目標變數之間的關系。
分類演算法分類演算法和預測演算法的最大區別在於,前者的目標變數是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),後者的目標變數是連續型。一般而言,具體的分類演算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
預測演算法預測類演算法,其目標變數一般是連續型變數。常見的演算法,包括線性回歸、回歸樹、神經網路、SVM等。
無監督學習無監督學習,即不存在目標變數,基於數據本身,去識別變數之間內在的模式和特徵。例如關聯分析,通過數據發現項目A和項目B之間的關聯性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
聚類分析聚類的目的就是實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
關聯分析關聯分析的目的在於,找出項目(item)之間內在的聯系。常常是指購物籃分析,即消費者常常會同時購買哪些產品(例如游泳褲、防曬霜),從而有助於商家的捆綁銷售。
基於數據挖掘的案例和應用上文所提到的四種演算法類型(分類、預測、聚類、關聯),是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景,例如協同過濾、異常值分析、社會網路、文本分析等。下面,想針對不同的演算法類型,具體的介紹下數據挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
基於分類模型的案例這裡面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫葯領域的應用,即腫瘤細胞的判斷和分辨。
垃圾郵件的判別郵箱系統如何分辨一封Email是否屬於垃圾郵件?這應該屬於文本挖掘的范疇,通常會採用樸素貝葉斯的方法進行判別。它的主要原理是,根據郵件正文中的單詞,是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等詞彙時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬於垃圾郵件,應該包含以下幾個步驟。
第一,把郵件正文拆解成單片語合,假設某篇郵件包含100個單詞。
第二,根據貝葉斯條件概率,計算一封已經出現了這100個單詞的郵件,屬於垃圾郵件的概率和正常郵件的概率。如果結果表明,屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
醫學上的腫瘤判斷如何判斷細胞是否屬於腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經驗的醫生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。並且,通過主觀(醫生)+客觀(模型)的方式識別腫瘤細胞,結果交叉驗證,結論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特徵,例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等,構成細胞特徵的數據。其次,在細胞特徵寬表的基礎上,通過搭建分類模型進行腫瘤細胞的判斷。
基於預測模型的案例這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是,通過搜索引擎來預測和判斷股價的波動和趨勢。
紅酒品質的判斷如何評鑒紅酒?有經驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。但是,統計學家並沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且,現在很多釀酒企業其實也都這么幹了,通過監測紅酒中化學成分的含量,從而控制紅酒的品質和口感。
那麼,如何判斷鑒紅酒的品質呢?
第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
搜索引擎的搜索量和股價波動一隻南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以後,引起美國德克薩斯州的一場龍卷風。你在互聯網上的搜索是否會影響公司股價的波動?
很早之前,就已經有文獻證明,互聯網關鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣,現在也有些學者發現了這樣一種現象,即公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。這是已經得到無數論文驗證了的。
基於關聯分析的案例:沃爾瑪的啤酒尿布啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發現一個非常有趣的現象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在於,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數據中發現了這種關聯性,因此,將這兩種商品並置,從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性,如果大量的數據表明,消費者購買A商品的同時,也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
基於聚類分析的案例:零售客戶細分對客戶的細分,還是比較常見的。細分的功能,在於能夠有效的劃分出客戶群體,使得群體內部成員具有相似性,但是群體之間存在差異性。其目的在於識別不同的客戶群體,然後針對不同的客戶群體,精準地進行產品設計和推送,從而節約營銷成本,提高營銷效率。
例如,針對商業銀行中的零售客戶進行細分,基於零售客戶的特徵變數(人口特徵、資產特徵、負債特徵、結算特徵),計算客戶之間的距離。然後,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
基於異常值分析的案例:支付中的交易欺詐偵測採用支付寶支付時,或者刷信用卡支付時,系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應該是基於一個欺詐規則庫的。可能包含兩類規則,即事件類規則和模型類規則。第一,事件類規則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標准差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規則,則是通過演算法判定交易是否屬於欺詐。一般通過支付數據、賣家數據、結算數據,構建模型進行分類問題的判斷。
基於協同過濾的案例:電商猜你喜歡和推薦引擎電商中的猜你喜歡,應該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了商品」、「瀏覽了該商品的顧客最終購買了商品」,這些都是推薦引擎運算的結果。
這裡面,確實很喜歡亞馬遜的推薦,通過「購買該商品的人同時購買了**商品」,常常會發現一些質量比較高、較為受認可的書。一般來說,電商的「猜你喜歡」(即推薦引擎)都是在協同過濾演算法(Collaborative Filter)的基礎上,搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為,在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此,找出最相似的顧客或最關聯的產品,從而完成產品的推薦。
基於社會網路分析的案例:電信中的種子客戶種子客戶和社會網路,最早出現在電信領域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關系網路。電信領域的網路,一般會分析客戶的影響力和客戶流失、產品擴散的關系。
基於通話記錄,可以構建客戶影響力指標體系。採用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力,分析的結果表明,高影響力客戶的流失會導致關聯客戶的流失。其次,在產品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網路在銀行(擔保網路)、保險(團伙欺詐)、互聯網(社交互動)中也都有很多的應用和案例。
基於文本分析的案例這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP,直接把紙質文檔掃描成電子文檔。相信很多人都用過,這里准備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和後四十回,好像並非都是出自曹雪芹之手,這裡面准備從統計的角度聊聊。
字元識別:掃描王APP手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別(Optical Character Recognition)。圖像識別比較復雜,字元識別理解起來比較容易些。
查找了一些資料,字元識別的大概原理如下,以字元S為例。
第一,把字元圖像縮小到標准像素尺寸,例如12*16。注意,圖像是由像素構成,字元圖像主要包括黑、白兩種像素。
第二,提取字元的特徵向量。如何提取字元的特徵,採用二維直方圖投影。就是把字元(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值,垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三,基於前面的字元特徵向量,通過神經網路學習,從而識別字元和有效分類。
文學著作與統計:紅樓夢歸屬這是非常著名的一個爭論,懸而未決。對於紅樓夢的作者,通常認為前80回合是曹雪芹所著,後四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次,以及不同詞性之間的相關系做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前後文風的差異。有些學者通過場景(花卉、樹木、飲食、醫葯與詩詞)頻次的差異,來做統計判斷。總而言之,主要通過一些指標量化,然後比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
以上是小編為大家分享的關於數據挖掘演算法與生活中的應用案例的相關內容,更多信息可以關注環球青藤分享更多干貨
② 國內的數據挖掘,大數據應用的案例有哪些
1. 亞馬遜的「信息公司」:果全球哪家公司從大數據發掘出了最大價值,截至目前內,答案可能非亞馬遜莫屬。容亞馬遜也要處理海量數據,這些交易數據的直接價值更大。
作為一家「信息公司」,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網站上的所有行為都記錄下來
2. 谷歌的意圖:果說有一家科技公司准確定義了「大數據」概念的話,那一定是谷歌。根據搜索研究公司comScore的數據,僅2012年3月一個月的時間,谷歌處理的搜索詞條數量就高達122億條。谷歌的體量和規模,使它擁有比其他大多數企業更多的應用大數據的途徑。
3.塔吉特的「數據關聯挖掘」:用先進的統計方法,商家可以通過用戶的購買歷史記錄分析來建立模型,預測未來的購買行為,進而設計促銷活動和個性服務避免用戶流失到其他競爭對手那邊。
③ 電子商務和電子政務有什麼區別
電子商務:利用電子化的手段進行的商務活動,本質是商務,技術是電子商務的手段。
電子政務:運用計算機及其網路為代表的現代信息與通信技術,重組行政組織結構,改善
公共管理模式,實現政府辦公自動化,政府業務流程信息化,為公眾、企業和社會提供廣泛、高效
和個性化的一種政務模式。 他們兩者之間的聯系與區別如下:
1)電子政務與電子商務的實施主體與服務的用戶不同。
電子政務前提是政府信息化,實施的主體是政府機構,向政府各部門、企業、公眾進行管理和提供服務。
電子商務前提是企業信息化,實施的主體是商業機構,用戶群體是企業及企業的客戶。
2)電子政務與電子商務的建設思想和應用目的不同。
電子政務強調信息技術與政府管理體制變革有機結合,目的是藉助於信息技術對傳統政府模式進行根本性
變革,改善管理機制和管理模式,提高政府管理效率。
電子商務強調信處技術與企業經營模式的有機結合,目的是開拓市場、延伸渠道、降低成本、提高效率、
創造良好的經營環境。
3)電子商務與電子政務的建設可以相互借鑒。
電子商務發展的成熟技術可應用在電子政務上,兩者的交集是政府與企業的信息介面,兩者的發展離不開
相互的支持。兩者在內部資源進行優化配置;對傳統流程進行優化重組;建立對外的信息交換門戶;對服務對象為
核心的服務觀念上是一致的。
4)電子政務為電子商務提供有效的管理與服務。
④ web挖掘怎麼實現
截止到今天為止,我尚不知道有什麼有價值的web挖掘系統存在,不過您可以參考檢索引擎的挖掘演算法,比如Apache的lucene等
http://lucene.apache.org/java/docs/index.html
-------------
並為您附錄以下信息:
近年來,隨著 Internet/Web技術的快速普及和迅猛發展,使各種信息可以以非常低的成本在網路上獲得,由於Internet/WWW在全球互連互通,可以從中取得的數據量難以計算,而且Internet/WWW的發展趨勢繼續看好,特別是電子商務的蓬勃發展為網路應用提供了強大支持,如何在WWW這個全球最大的數據集合中發現有用信息無疑將成為數據挖掘研究的熱點。
Web挖掘指使用數據挖掘技術在WWW數據中發現潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個研究領域,包括資料庫技術、信息獲取技術、統計學、人工智慧中的機器學習和神經網路等。
2.Web挖掘流程
與傳統數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態的、並且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如下[3]:
1.查找資源:任務是從目標Web文檔中得到數據,值得注意的是有時信息資源不僅限於在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網站的日誌數據甚至是通過Web形成的交易資料庫中的數據。
2.信息選擇和預處理:任務是從取得的Web資源中剔除無用信息和將信息進行必要的整理。例如從Web文檔中自動去除廣告連接、去除多餘格式標記、自動識別段落或者欄位並將數據組織成規整的邏輯形式甚至是關系表。
3.模式發現:自動進行模式發現。可以在同一個站點內部或在多個站點之間進行。
4.模式分析:驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。
Web挖掘作為一個完整的技術體系,在進行挖掘之前的信息獲得IR(Information Retrieval)和信息抽取IE(Information Extraction)相當重要。信息獲得(IR)的目的在於找到相關Web文檔,它只是把文檔中的數據看成未經排序的片語的集合,而信息抽取(IE)的目的在於從文檔中找到需要的數據項目,它對文檔的結構合表達的含義感興趣,它得一個重要任務就是對數據進行組織整理並適當建立索引。
信息獲得(IR)和信息抽取(IE)技術的研究已近有很長時間,隨著Web技術的發展,基於Web技術的IR、 IE得到了更多的重視。由於Web 數據量非常大,而且可能動態變化,用原來手工方式進行信息收集早已經力不從心,目前的研究方向是用自動化、半自動化的方法在Web上進行IR和IE。在 Web環境下既要處理非結構化文檔,又要處理半結構化的數據,最近幾年在這兩方面都有相應的研究成果和具體應用,特別是在大型搜索引擎中得到了很好的應用。
3.Web挖掘分類及各自的研究現狀及發展
根據對Web數據的感興趣程度不同,Web挖掘一般可以分為三類:Web內容挖掘(Web Content mining)、 Web結構挖掘( Web structure mining)、 Web 用法挖掘(Web usage Mining)
3.1、Web內容挖掘:
指從Web內容/數據/文檔中發現有用信息,Web上的信息五花八門,傳統的Internet由各種類型的服務和數據源組成,包括WWW、FTP、Telnet等,現在有更多的數據和埠可以使用,比如政府信息服務、數字圖書館、電子商務數據,以及其他各種通過 Web可以訪問的資料庫。Web內容挖掘的對象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數據。其中針對無結構化文本進行的Web挖掘被歸類到基於文本的知識發現(KDT)領域,也稱文本數據挖掘或文本挖掘,是Web挖掘中比較重要的技術領域,也引起了許多研究者的關注。最近在Web多媒體數據挖掘方面的研究成為另一個熱點。
Web內容挖掘一般從兩個不同的觀點來進行研究。從資源查找(IR)的觀點來看,Web內容挖掘的任務是從用戶的角度出發,怎樣提高信息質量和幫助用戶過濾信息。而從DB的角度講Web內容挖掘的任務主要是試圖對Web上的數據進行集成、建模,以支持對Web數據的復雜查詢。
3.1.1從資源查找(Information Retrival)的觀點挖掘非結構化文檔:
非結構化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對比較多一些,大部分研究都是建立在詞彙袋(bag of words)或稱向量表示法(vector representation)的基礎上,這種方法將單個的詞彙看成文檔集合中的屬性,只從統計的角度將詞彙孤立地看待而忽略該詞彙出現的位置和上下文環境。屬性可以是布爾型,根據詞彙是否在文檔中出現而定,也可以有頻度,即該詞彙在文檔中的出現頻率。這種方法可以擴展為選擇終結符、標點符號、不常用詞彙的屬性作為考察集合。詞彙袋方法的一個弊端是自由文本中的數據豐富,詞彙量非常大,處理起來很困難,為解決這個問題人們做了相應的研究,採取了不同技術,如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個比較有意義的方法是潛在語義索引(Latent Semantic Indexing),它通過分析不同文檔中相同主題的共享詞彙,找到他們共同的根,用這個公共的根代替所有詞彙,以此來減少維空間。例如: 「informing」、「information」、「informer」、「informed」可以用他們的根「inform」來表示,這樣可以減少屬性集合的規模。
其他的屬性表示法還有詞彙在文檔中的出現位置、層次關系、使用短語、使用術語、命名實體等,目前還沒有研究表明一種表示法明顯優於另一種。
用資源查找(Information Retrival)的觀點挖掘半結構化文檔:
與非結構化數據相比,Web上的半結構化文檔挖掘指在加入了HTML、超連接等附加結構的信息上進行挖掘,其應用包括超連接文本的分類、聚類、發現文檔之間的關系、提出半結構化文檔中的模式和規則等。
3.1.2從資料庫(Database)的觀點挖掘非結構化文檔:
資料庫技術應用於Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點建構和重構。
從資料庫的觀點進行Web內容挖掘主要是試圖建立Web站點的數據模型並加以集成,以支持復雜查詢,而不止是簡單的基於關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數據倉庫或Web知識庫或虛擬資料庫來實現。相關研究主要是基於半結構化數據進行的。
資料庫觀點主要利用OEM(Object Exchange Model)模型將半結構化數據表示成標識圖。OEM中的每個對象都有對象標識(OID)和值,值可以是原子類型,如整型、字元串型、gif、html 等,也可以是一個復合類型,以對象引用集合的形式表示。由於Web數據量非常龐大,從應用的角度考慮,很多研究只處理辦結構化數據的一個常用自集。一些有意義的應用是建立多層資料庫(MLDB),每一層是它下面層次的概化,這樣就可以進行一些特殊的查詢和信息處理。對於在半結構化數據上的查詢語言研究也得到了人們的重視並做了專題研究。
由於在資料庫觀點下數據的表示方法比較特殊,其中包含了關系層次和圖形化的數據,所以大部分建立在扁平數據集合之上的數據挖掘方法不能直接使用,目前已經有人針對多層資料庫挖掘演算法進行研究。
3.2、Web結構挖掘:
Web結構挖掘的對象是Web本身的超連接,即對Web文檔的結構進行挖掘。對於給定的Web文檔集合,應該能夠通過演算法發現他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更准確。
Web結構挖掘在一定程度上得益於社會網路和引用分析的研究。把網頁之間的關系分為incoming連接和 outgoing連接,運用引用分析方法找到同一網站內部以及不同網站之間的連接關系。在Web結構挖掘領域最著名的演算法是HITS演算法和 PageRank演算法。他們的共同點是使用一定方法計算Web頁面之間超連接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就採用了該類演算法。
此外,Web結構挖掘另一個嘗試是在Web數據倉庫環境下的挖掘,包括通過檢查同一台伺服器上的本地連接衡量 Web結構挖掘Web站點的完全性,在不同的Web數據倉庫中檢查副本以幫助定位鏡像站點,通過發現針對某一特定領域超連接的層次屬性去探索信息流動如何影響Web站點的設計。
3.3、Web用法挖掘(Web usage Mining):
即Web使用記錄挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日誌記錄,來發現用戶訪問 Web頁面的模式,通過分析日誌記錄中的規律,可以識別用戶的忠實度、喜好、滿意度,可以發現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了伺服器的日誌記錄外還包括代理伺服器日誌、瀏覽器端日誌、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、滑鼠點擊流等一切用戶與站點之間可能的交互記錄。可見Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富。根據對數據源的不同處理方法,Web 用法挖掘可以分為兩類,一類是將Web使用記錄的數據轉換並傳遞進傳統的關系表裡,再使用數據挖掘演算法對關系表中的數據進行常規挖掘;另一類是將Web 使用記錄的數據直接預處理再進行挖掘。Web 用法挖掘中的一個有趣的問題是在多個用戶使用同一個代理伺服器的環境下如何標識某個用戶,如何識別屬於該用戶的會話和使用記錄,這個問題看起來不大,但卻在很大程度上影響著挖掘質量,所以有人專門在這方面進行了研究。通常來講,經典的數據挖掘演算法都可以直接用到Web 用法挖掘上來,但為了提高挖掘質量,研究人員在擴展演算法上進行了努力,包括復合關聯規則演算法、改進的序列發現演算法等。
在[4]中,根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的伺服器數量等將Web 用法挖掘分為五類:
●個性挖掘:針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣、個人喜好,目的是在電子商務環境下為該用戶提供與眾不同的個性化服務。
●系統改進:Web服務(資料庫、網路等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標,Web 用法挖掘可以通過用戶的擁塞記錄發現站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網路傳輸策略、流量負載平衡機制和數據的分布策略。此外,可以通過分析網路的非法入侵數據找到系統弱點,提高站點安全性,這在電子商務環境下尤為重要。
●站點修改:站點的結構和內容是吸引用戶的關鍵。Web 用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點設計者提供改進的依,比如頁面連接情況應如何組織、那些頁面應能夠直接訪問等。
●智能商務:用戶怎樣使用Web站點的信息無疑是電子商務銷售商關心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個步驟,Web用法挖掘可以通過分析用戶點擊流等Web日誌信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略。
●Web特徵描述:這類研究跟關注這樣通過用戶對站點的訪問情況統計各個用戶在頁面上的交互情況,對用戶訪問情況進行特徵描述。
4.結束語
盡管Web挖掘的形式和研究方向層出不窮,但我認為隨著電子商務的興起和迅猛發展,未來Web挖掘的一個重要應用方向將是電子商務系統。而與電子商務關系最為密切的是用法挖掘(Usage Mining),也就是說在這個領域將會持續得到更多的重視。另外,在搜索引擎的研究方面,結構挖掘的研究已經相對成熟,基於文本的內容挖掘也已經有許多研究,下一步將會有更多的研究者把多媒體挖掘最為研究方向。