論數(shù)據(jù)挖掘與電子商務的契合:電子商務數(shù)據(jù)挖掘
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]指出以6個論題為基礎的數(shù)據(jù)挖掘可以有效地幫助企業(yè)優(yōu)化決策管理、客戶關系管理、協(xié)同商務管理、營銷模式管理、網(wǎng)站維護管理和風險控制管理、確認目標市場,以獲得更大的競爭優(yōu)勢。其次通過對電子商務環(huán)境下Web挖掘技術的論述,具體分析Web內容挖掘、Web結構挖掘、Web訪問挖掘對于電子商務的作用,并對具體技術進行分析與評價。最后介紹國內外電子商務數(shù)據(jù)挖掘的主要研究內容。
[關鍵詞]數(shù)據(jù)挖掘 電子商務 Web挖掘
[分類號]F713 TP393
1 引 言
電子商務最早于20世紀60年代初在美國等國家興起,但直到20世紀90年代隨著互聯(lián)網(wǎng)的高速發(fā)展,以互聯(lián)網(wǎng)為平臺和依托,電子商務才真正意義上發(fā)展起來,正在或終將從根本上改變社會經(jīng)濟的運行模式、商務活動的運作方式以及人們的消費模式。它以電子交易為手段,借助計算機和網(wǎng)絡等技術快速而有效地完成商品和服務的買賣,實現(xiàn)商務活動的數(shù)字化、網(wǎng)絡化、自動化、智能化、無紙化和全球化,縮短商品流通時間、強化供需雙方聯(lián)系、減少費用、拓展市場和提高服務質量,達到樹立企業(yè)形象、增強企業(yè)競爭力和提高經(jīng)濟效益的目的。據(jù)美國有關機構預測,Internet上的電子貿易額在2010年前后會持續(xù)猛增,最后相對穩(wěn)定在10000億美元左右。
然而,電子商務的健康、有序和迅速發(fā)展卻存在著一系列十分復雜而又亟待解決的問題。除了要明確我國電子商務的發(fā)展戰(zhàn)略和運行環(huán)境、政府在電子商務中的作用與職能、管理模式、可信賴機構的作用、對傳統(tǒng)企業(yè)管理模式的變革、良好的信息和安全基礎設施之外,還要重點解決與發(fā)展與電子商務有關的科學和技術及其應用問題,例如電子商務環(huán)境下的數(shù)據(jù)挖掘。本文即是對電子商務與數(shù)據(jù)挖掘的契合方式、相關技術及其應用、主要研究內容的系統(tǒng)論述。
2 數(shù)據(jù)挖掘與電子商務契合方式
數(shù)據(jù)挖掘起源于20世紀90年代中期,推動其誕生、發(fā)展的眾多原因中,對商業(yè)數(shù)據(jù)背后潛在知識的迫切需求和人類分析信息的有限能力之間日益增加的矛盾是其根本動因。利用數(shù)據(jù)挖掘研究電子商務產生的不確定性海量數(shù)據(jù)中信息的分布規(guī)律,挖掘其中隱含的關系、模式和趨勢,進而發(fā)現(xiàn)具有規(guī)律性的知識,可以幫助企業(yè)優(yōu)化企業(yè)決策管理、客戶關系管理、協(xié)同商務管理、營銷模式管理、網(wǎng)站維護管理和風險控制管理,確認目標市場,獲得更大的競爭優(yōu)勢。
要使上述數(shù)據(jù)挖掘的效果真正體現(xiàn)出來,理論界和實務界認為迫切需要研究和解決的問題有:①什么樣的商務站點可以贏得更多用戶的青睞?賣方如何根據(jù)用戶的嗜好改進自己的商務站點,以吸引更多的潛在買方光臨?②賣方如何有效地利用商務站點展開宣傳攻勢?③賣方如何充分利用用戶瀏覽產生的信息,更好地為潛在買方提供個性化服務?④賣方如何根據(jù)自己掌握的有關信息預測客戶需求趨勢和潛在客戶群體?⑤用戶如何在浩如沙海的虛擬市場中找到自己需要的商品?⑥如何才能提高客戶的滿意程度?如何才能知道哪些客戶是公司的主要利潤來源?⑦如何防止或減少電子支付欺詐,以充分保障銀行和買賣雙方的利益不受損失?⑧競爭對手和自己網(wǎng)絡營銷上存在什么樣的區(qū)別?
本文從數(shù)據(jù)挖掘的角度,將與電子商務的契合方式抽象為如下論題:①論題1:Web頁面或資源聚分類研究;②論題2:客戶群聚分類研究;③論題3:頻繁訪問路徑挖掘研究;④論題4:交易關聯(lián)性挖掘研究;⑤論題5:異?蛻襞c異常交易檢測研究;⑥論題6:互聯(lián)網(wǎng)下供應鏈關系挖掘研究。下文將對這6個論題所涉及的主要技術及其應用、主要研究內容進行闡述。
3 電子商務環(huán)境下Web數(shù)據(jù)挖掘的主要技術評述
3.1 技術概述
電子商務產生的數(shù)據(jù)具備異構、不確定性、無結構或半結構、動態(tài)性和海量性等特點,復雜程度已遠遠超出了人類目前已有的分析能力。基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘有許多不同之處。上文所述論題的Web數(shù)據(jù)挖掘主要包括三種數(shù)據(jù)挖掘任務:
3.1.1 對Web內容的挖掘 互聯(lián)網(wǎng)電子商務數(shù)據(jù)呈指數(shù)形式飛速增長,然而當用戶(無論買點、賣方或任何商業(yè)關聯(lián)方)面對整個Internet的海量數(shù)據(jù)時,卻感覺很難找到對自己有用的商業(yè)數(shù)據(jù)。例如:當買方在互聯(lián)網(wǎng)尋找適合自己的商品和服務、比較商品價格和交易條件時,需要盡可能搜集此商品的相關Web頁面,即以商品作為Web頁面聚類或者分類的依據(jù),以此提高電子商務交易過程尤其是前期交易過程的效率?偟膩碚f為方便客戶,應該為他們提供一步到位的查詢解決方案,Web頁面的自動聚分類方法有助于壓縮搜索空間,加快檢索速度,提高查詢精度,幫助客戶快速找到相關信息。
3.1.2 對Web結構的挖掘 Web頁面是半結構化的,在Web頁面不僅有各種內容信息,而且存在特定的結構標記,其中最重要的標記就是超鏈接。Web頁面所包含的知識不僅存在于各個頁面的內容中,也存在于頁面之間的相互鏈接中。
對于電子商務而言,一個重要的問題是要找到對某個商業(yè)主題可以當作核心信息源的一些網(wǎng)站和網(wǎng)頁。通過對Web電子商務進行數(shù)據(jù)挖掘時理解和利用超文本鏈接結構,可以此核心信息源為基礎,優(yōu)化供應鏈和虛擬企業(yè)產生和運作的效率,有助于網(wǎng)絡電子商務社區(qū)的發(fā)現(xiàn)和利用。
3.1.3 對Web訪問的挖掘 對Web訪問的挖掘是目前研究最深入的Web數(shù)據(jù)挖掘技術。在Internet電子商務中,電子時空下推拉互動的雙向交互信息被記錄在Web服務器的日志文件中。Web日志一般可分為訪問日志、代理日志和引用日志。
對于拓撲結構已知的特定商務站點,盡管用戶在不同時期可能有不同的瀏覽模式,但就長期而言用戶行為是有一定的規(guī)律及趨勢的。通過分析Web日志文件,可以發(fā)現(xiàn)其中蘊涵的相似客戶群體、相關Web重要頁面和有關客戶訪問模式。以頻繁訪問路徑和相關Web重要頁面為依據(jù)優(yōu)化商務站點結構,實現(xiàn)網(wǎng)站自適應;以客戶分類為依據(jù)為客戶提供個性化服務(如電子商品推薦系統(tǒng)),以挖掘銷售數(shù)據(jù)發(fā)現(xiàn)交易關聯(lián)性為依據(jù)提高營銷活動效率和強化廣告宣傳效應。這里部分理論是以市場營銷學的市場細分原理為基礎,基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
3.2 具體評述
隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)挖掘技術已開始運用到Web信息系統(tǒng)產生的海量數(shù)據(jù)上,在客戶關系管理、金融工程、信用管理、風險預測、保險等諸多領域均得到廣泛應用。
電子商務環(huán)境下Web數(shù)據(jù)挖掘技術既包括基于統(tǒng)計學的各類方法,也包括涉及機器學習、數(shù)據(jù)挖掘、人工智能等理論方法,這其中又以規(guī)則歸納、神經(jīng)網(wǎng)絡、案例學習、遺傳算法、粗糙集等智能方法最為常見。但需指出目前電子商務環(huán)境下Web數(shù)據(jù)挖掘算法的研究尚處于起步階段,無論在Web電子商務數(shù)據(jù) 特點的挖掘算法上,還是挖掘結果的經(jīng)濟學與管理學解釋和挖掘結果的有效應用方面,均尚未涉及或仍有很大研究余地。
3.2.1 Web內容挖掘 文本是存儲和交換信息的最自然的方式,文本挖掘具有非常高的商業(yè)前景。事實上研究表明即使在企業(yè)的電子商務信息中,也有80%的信息保存在文本中,如電子郵件、網(wǎng)頁以及報告等。
目前Web內容挖掘多數(shù)是基于文本挖掘算法的,和通常文本挖掘的功能和算法類似,適用于商務文本的挖掘算法還沒有較多的進展。但由于互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是HTML或XML格式的文件數(shù)據(jù)流,因此可利用文檔中的HTML或XML標記來提高Web內容挖掘的性能。
但Web內容的動態(tài)更新、存儲方式的特殊性、Web商務數(shù)據(jù)以及文本數(shù)據(jù)本身的特點使得Web內容挖掘在處理下面這些任務中遇到很大困難:①難于處理具有主觀、非精確、非確定的數(shù)據(jù)和檢索要求;②現(xiàn)有搜索引擎沒有歸納和演繹的能力;③軟決策,而不是布爾代數(shù)的決策方式;④網(wǎng)頁評價,難以按照對于查詢的相關性對網(wǎng)頁進行評價;⑤個性化,對于電子商務而言個性化的要求是非常重要的,必須根據(jù)每個用戶歷史訪問記錄等資料進行相關挖掘;⑥互聯(lián)網(wǎng)上的數(shù)據(jù)基本上都是HTML或者XML格式的文件數(shù)據(jù)流,但利用文檔中的HTML或XML標記來提高Web內容挖掘性能的研究目前尚少見。
3.2.2 Web結構挖掘 Web結構挖掘是從www上的組織結構和鏈接關系中推導知識,由于超文本文檔間的關聯(lián)關系使得www不僅可以揭示文檔中所包含的信息,同時也可以揭示文檔問的關聯(lián)關系所代表的信息。利用這些信息可對頁面進行排序,發(fā)現(xiàn)重要的頁面。Page-Rank法就是利用了文檔間鏈接信息來查找相關的Web頁,其基本思想是:一個頁面被多次引用,則這個頁面很可能是重要的;一個頁面盡管沒有被多次引用,但被一個重要頁面引用,該頁面也可能是很重要的。
此外,通過挖掘網(wǎng)站結構和頁面結構,也可以對同一商業(yè)網(wǎng)站內Web頁面進行分類和聚類。對Web頁內結構的分析,相對于普通文本結構分析,具備一些明顯不同的特征:通常沒有段落、句子等顯要區(qū)別、文本中文字屬性特征比較豐富、文本中標題性文字較多;因此主要的分類方法為基于特征的分類方法。而對于事先不知道其網(wǎng)絡架構的目標網(wǎng)站,則應當運用聚類方法,而主要的聚類方法為分裂分類法。
一些研究人員提出了一些模型化Web拓撲結構的算法,如HITS算法和上文所述PageRank算法等。HITS通過給鏈接結構增加內容信息,同時使用了外層過濾進行改進。這些算法主要用作計算每個網(wǎng)頁的質量和相關性,并應用到了Clover和Coogle等系統(tǒng)中。其他的一些應用包括發(fā)現(xiàn)Web上的電子商務社區(qū)等。Madria討論了Web結構挖掘在數(shù)據(jù)倉庫中的應用,包括度量同一服務器中局部鏈接的頻率,度量數(shù)據(jù)倉庫中Web文檔的重復,從而在特定鏈接的層次結構中發(fā)現(xiàn)信息流對站點設計的影響等。
3.2.3 Web使用挖掘 Web服務器上的訪問日志數(shù)據(jù)是Web使用挖掘的最重要的數(shù)據(jù)源,它明確地記錄了站點訪問者的瀏覽行為信息,但須指出其是不完整的數(shù)據(jù),如緩存頁的訪問就不被記錄在日志中,目前尚無有效的算法處理此數(shù)據(jù)不完整性;其次可通過使用遠程主體或對現(xiàn)有瀏覽器代碼的修改來實現(xiàn)客戶端數(shù)據(jù)的收集;第三,代理日志,即Proxy數(shù)據(jù)作為客戶端瀏覽器和Web服務器間的中間層緩存,采用Proxy跟蹤可揭示從多個客戶到多個服務器的HTTP請求,可用作刻畫共享一個Proxy服務器的一組商業(yè)客戶瀏覽行為的數(shù)據(jù)源。
常見的基于Web使用挖掘的客戶聚分類算法包括基于模糊理論的客戶群體聚類算法、K-paths聚類算法、客戶群體聚類的hamming聚類算法等;此外商務站點的結構類似有向圖,用戶的訪問行為構成其訪問子圖,研究該有向子圖有利于發(fā)現(xiàn)用戶興趣所在。而對基于Web使用挖掘而言的網(wǎng)頁聚分類,其挖掘數(shù)據(jù)的依據(jù)是Web的使用記錄而不是Web網(wǎng)頁的內容信息,其數(shù)據(jù)范圍一般局限在一個或少數(shù)網(wǎng)站,這主要是由于很難追蹤用戶完整的上網(wǎng)訪問記錄;值得注意的是挖掘過程和Web內容挖掘一樣常常需要一些商業(yè)背景或領域知識。
Web使用挖掘的實例包括兩類:學習用戶日志文件和用戶導航模式。商業(yè)信息的提供者希望通過改進站點的設計和了解用戶的興趣和偏好,提供給用戶適合的信息。挖掘出的信息可以應用到網(wǎng)頁個性化、站點修改、商業(yè)智能、信息檢索等領域中。
Perkowitz通過記錄用戶訪問站點的記錄改善站點的設計,幫助用戶更快地瀏覽商業(yè)站點。路徑遍歷模式挖掘則是另一種用戶導航模式,在分布環(huán)境下當用戶尋找感興趣的信息時,可以通過超鏈地址從一個對象遍歷到另一個對象;很明顯理解這種環(huán)境下的用戶訪問模式不僅能提高系統(tǒng)的設計水平,還能促進市場決策判斷(比如在適當?shù)牡攸c放一個廣告)。
4 目前國內外主要研究內容
4.1 Web頁面聚分類應用研究
頁面聚分類挖掘結果在電子商務各環(huán)節(jié)的應用問題;以Web內容挖掘為主結合Web結構挖掘和Web使用挖掘的多智能集成算法的Web頁面聚分類模型的研究;如何改進文本聚分類挖掘算法以適合電子商務Web頁面聚分類。
4.2 客戶群聚分類應用研究
客戶聚分類在電子商務各環(huán)節(jié)的應用問題,研究對營銷機制的影響;以Web訪問挖掘為主的多智能集成算法的聚分類模型;電子商務推薦系統(tǒng)的研制與開發(fā)。
4.3 客戶頻繁訪問路徑挖掘應用研究
以客戶頻繁訪問路徑挖掘結果為基礎分析用戶訪問站點的規(guī)律、改進網(wǎng)站的組織結構及其性能,實現(xiàn)網(wǎng)站自適應;客戶頻繁訪問路徑挖掘算法。
4.4 交易關聯(lián)性挖掘應用研究
以交易關聯(lián)性挖掘結果為基礎研究對企業(yè)決策管理、協(xié)同商務管理、政府監(jiān)管等方面的應用問題,研究影響識別交易關聯(lián)性的關鍵或主要數(shù)據(jù)特征;基于多智能算法的交易關聯(lián)性挖掘模型。
4.5 異?蛻襞c異常交易檢測應用研究
異常監(jiān)測在電子商務中的基本應用框架,異常交易或者電子欺詐所具備的數(shù)據(jù)特征,異常交易或電子欺詐的識別算法。
4.6 互聯(lián)網(wǎng)下供應鏈關系挖掘研究
互聯(lián)網(wǎng)下供應鏈關系挖掘的研究范疇,電子供應鏈和虛擬企業(yè)形成效率等的關系,電子供應鏈關系挖掘的基本模型、算法和應用,如何解釋和應用電子供應鏈挖掘結果以有效地優(yōu)化電子商務供應鏈。
4.7 電子商務數(shù)據(jù)挖掘的解釋問題
電子商務數(shù)據(jù)挖掘涉及管理學、經(jīng)濟學、計算機科學、智能科學、數(shù)學等多領域、跨學科的理論知識,因此需研究Web數(shù)據(jù)挖掘結果的管理理論解釋問題和經(jīng)濟理論解釋問題中模型的建立機制、步驟和對挖掘結果和解釋理論本身的互動影響;主要涉及管理學和經(jīng)濟學理論的選擇;解釋的立場問題;挖掘所獲得新知識對解釋理論本身的修正問題。
4.8 商務數(shù)據(jù)挖掘過程改進
商務數(shù)據(jù)挖掘須啟動過程改進,當前國內外無成熟的商務數(shù)據(jù)挖掘的過程研究。研究商務數(shù)據(jù)挖掘或商務智能項目實施過程,定義企業(yè)在該領域的標準過程,研究如何通過企業(yè)過程的改進不斷提高ERP等商業(yè)數(shù)據(jù)系統(tǒng)的應用價值。
4.9 電子商務數(shù)據(jù)集特征識別
必須在Web挖掘算法的挖掘前、挖掘中、挖掘后各階段充分考慮電子商務數(shù)據(jù)集所獨有的、區(qū)別于一般數(shù)據(jù)集的特征;根據(jù)識別出的商務數(shù)據(jù)特征設計新的數(shù)據(jù)挖掘算法或對原數(shù)據(jù)挖掘算法進行改進和優(yōu)化,即特征結合問題。
相關熱詞搜索:契合 數(shù)據(jù)挖掘 電子商務 論數(shù)據(jù)挖掘與電子商務的契合 數(shù)據(jù)挖掘在電子商務中的應用 數(shù)據(jù)挖掘與電子商務
熱點文章閱讀