個(gè)性化推薦模型 [一種基于智能過濾的Web個(gè)性化推薦模型]
發(fā)布時(shí)間:2020-03-10 來源: 幽默笑話 點(diǎn)擊:
[摘要]Web個(gè)性化研究的關(guān)鍵技術(shù)是推薦系統(tǒng),其作用是根據(jù)用戶模型推薦個(gè)性化內(nèi)容,當(dāng)前推薦技術(shù)的研究主要包括四種模式:基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾和混合過濾模式。前三種工作模式采用的是傳統(tǒng)技術(shù)和方法,根據(jù)當(dāng)前推薦系統(tǒng)研究的重點(diǎn)和熱點(diǎn),提出一種Web個(gè)性化應(yīng)用的智能過濾推薦模式。智能過濾推薦模式組合采用以上三種工作模式的優(yōu)點(diǎn)、避免前三種單一模式的缺點(diǎn)。該方法的突出特點(diǎn)是根據(jù)離線學(xué)習(xí)模型提取的用戶偏好特征,實(shí)現(xiàn)在線智能推薦。
[關(guān)鍵詞]Web個(gè)性化推薦系統(tǒng) Web挖掘 基于規(guī)則過濾 基于內(nèi)容過濾 協(xié)作過濾
[分類號(hào)]G350 TP311
1 引言
Web個(gè)性化的用途主要是為用戶提供獨(dú)立的、特定個(gè)人偏好的、方便快捷的和滿足用戶需求的服務(wù)。對(duì)于不同的網(wǎng)站來說,實(shí)現(xiàn)個(gè)性化的目的具有其自身發(fā)展的需要。例如,商業(yè)網(wǎng)站的個(gè)性化是通過提供的便捷服務(wù)方式提升顧客忠誠度和吸引更多的客戶,從而實(shí)現(xiàn)其銷售業(yè)績(jī)和商業(yè)利潤(rùn)最大化的需要。在公共服務(wù)領(lǐng)域,網(wǎng)站為了提高其服務(wù)質(zhì)量,提升用戶滿意程度,根據(jù)用戶關(guān)注的重點(diǎn)和信息需求,為其定制特定的個(gè)性化服務(wù)。專門研究Web個(gè)性化理論和方法的國(guó)際會(huì)議1TWP組委會(huì)主席BamshadMobasher教授從20世紀(jì)90年代就開始Web個(gè)性化的研究,他認(rèn)為:“在Web網(wǎng)站中,個(gè)性化意味著動(dòng)態(tài)內(nèi)容的發(fā)送,例如文本元素、鏈接、廣告和產(chǎn)品推薦等,這些內(nèi)容專門為特定用戶或者一部分用戶的需要及興趣定制”。他把Web個(gè)性化過程看作是一個(gè)包含數(shù)據(jù)挖掘循環(huán)所有階段的一個(gè)典型應(yīng)用。這些階段包括數(shù)據(jù)收集、預(yù)處理模式發(fā)現(xiàn)、性能評(píng)價(jià)和在用戶和Web網(wǎng)站之間應(yīng)用實(shí)時(shí)發(fā)現(xiàn)的知識(shí)。
個(gè)性化的關(guān)鍵技術(shù)是推薦系統(tǒng),其作用是根據(jù)用戶模型推薦個(gè)性化內(nèi)容,主要包括四種工作模式:基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾和混合過濾模式。本文重點(diǎn)介紹智能推薦方法和技術(shù),并提出一種Web個(gè)性化應(yīng)用智能混合過濾推薦模型。
2 Web挖掘與個(gè)性化推薦
個(gè)性化推薦是Web挖掘結(jié)果呈現(xiàn)給用戶的應(yīng)用,其依據(jù)原理是數(shù)據(jù)挖掘理論基礎(chǔ)。許多學(xué)者認(rèn)為,Etzioni是第一個(gè)提出Web挖掘(Web mining)技術(shù)的人,他認(rèn)為,Web挖掘技術(shù)可分為三種類型:Web內(nèi)容挖掘(Web content mining)、Web結(jié)構(gòu)挖掘(Webstructure mining)和Web使用挖掘(Web usage mining)。Srivastava等人對(duì)Web使用挖掘的定義是:Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù),為了更好地理解和服務(wù)基于Web應(yīng)用的需要,發(fā)現(xiàn)Web數(shù)據(jù)的使用模式。個(gè)性化推薦系統(tǒng)通常對(duì)日志數(shù)據(jù)采用Web使用挖掘。
Web挖掘使用的數(shù)據(jù)可能來自Web服務(wù)器訪問日志、代理服務(wù)器日志、引用頁日志、瀏覽器日志、錯(cuò)誤日志、用戶資料、注冊(cè)數(shù)據(jù)、用戶會(huì)話、用戶交易、cookies、用戶查詢或者是用戶書簽數(shù)據(jù)。通過分析這些文件和文檔,可以獲得用戶感興趣的使用模式和信息。
目前常見的Web日志格式主要有兩類:①Apache的NCSA日志格式,分為四類:NCSA普通日志格式(CLF)、NCSA擴(kuò)展日志格式(ECLF)、錯(cuò)誤日志格式和定制日志格式。②IIs的W3C日志格式,共分為8類:W3C擴(kuò)展日志格式、集中記錄的日志格式、NCSA普通日志格式、IIS日志格式、ODBC記錄的日志格式、集中記錄的二進(jìn)制日志格式、錯(cuò)誤日志格式和定制日志格式。無論是Apache還是IIS的日志格式,常用于信息分析的是擴(kuò)展日志格式和定制日志格式。通常情況下,系統(tǒng)自動(dòng)記錄的日志有錯(cuò)誤日志和訪問日志,記錄的文件名分別為error.1og和access.1og,除了錯(cuò)誤日志以外的日志均稱為訪問日志。Apache 2.2版的擴(kuò)展日志文件格式定義及示例如表1所示:
3 推薦技術(shù)
通常,個(gè)性化推薦系統(tǒng)分為基于規(guī)則過濾、基于內(nèi)容過濾、基于協(xié)作過濾的方法以及這三種方法混合的具有智能性的推薦方法;谝(guī)則過濾方法的特點(diǎn)在于采用關(guān)聯(lián)規(guī)則、回歸算法,找到用戶對(duì)相關(guān)聯(lián)對(duì)象之間的興趣度、發(fā)現(xiàn)用戶偏好,預(yù)測(cè)用戶未來行為;趦(nèi)容的過濾推薦技術(shù)特點(diǎn)是,根據(jù)用戶過去選擇對(duì)象的特點(diǎn),從對(duì)象描述、終端數(shù)據(jù)庫里的對(duì)象屬性關(guān)聯(lián)抽取其特征,系統(tǒng)為其推薦相似的對(duì)象;趦(nèi)容的過濾系統(tǒng)最大的缺點(diǎn)是用戶模型的建立過度依賴于用戶以前選擇和點(diǎn)擊的具體對(duì)象。協(xié)作過濾推薦系統(tǒng)尋找與目標(biāo)顧客歷史吻合的顧客群組(稱為近鄰),利用了用戶的相似性進(jìn)行推薦。這些方法的基本模型如圖1所示:
通常情況下,系統(tǒng)采用單一的推薦模型,例如,基于規(guī)則過濾的推薦系統(tǒng),在離線學(xué)習(xí)階段、數(shù)據(jù)預(yù)處理階段需要做的工作是:應(yīng)用程序在系統(tǒng)空閑時(shí)間段完成原始日志數(shù)據(jù)從日志文件或者日志數(shù)據(jù)庫抽取,并進(jìn)行清洗、轉(zhuǎn)換、加載轉(zhuǎn)換工作,清洗后并規(guī)范化的日志加載到日志倉庫以備數(shù)據(jù)挖掘算法使用。在生成模型階段,根據(jù)基于規(guī)則過濾采用的算法,比如關(guān)聯(lián)規(guī)則使用的Apriori經(jīng)典算法進(jìn)行頻繁模式分析,生成用戶模型,根據(jù)挖掘算法計(jì)算生成用戶特征組成的規(guī)則模型庫。在在線推薦階段,Web個(gè)性化推薦系統(tǒng)提取出當(dāng)前用戶的特征,查找規(guī)則模型庫對(duì)應(yīng)的匹配規(guī)則,根據(jù)計(jì)算結(jié)果檢索當(dāng)前可推薦的對(duì)象,最后以可視化的方法呈現(xiàn)給Web個(gè)性化用戶。
當(dāng)前,個(gè)性化技術(shù)研究的熱點(diǎn)是基于協(xié)作過濾推薦,該系統(tǒng)面臨兩個(gè)主要挑戰(zhàn):可擴(kuò)展性和確保對(duì)用戶推薦的質(zhì)量?蓴U(kuò)展性是指?jìng)(gè)性化系統(tǒng)在用戶數(shù)量增加的情況下,推薦系統(tǒng)能夠正常工作而不影響個(gè)性化系統(tǒng)整體性能。保證推薦質(zhì)量是贏得顧客信任的基本要素,缺乏用戶信任的個(gè)性化應(yīng)用注定失敗。
4 智能混合過濾推薦
針對(duì)單一的基于內(nèi)容過濾或者協(xié)作過濾推薦系統(tǒng)存在的缺點(diǎn),當(dāng)前研究的重點(diǎn)是采用混合兩種或以上的推薦算法,目的是提高推薦的效率和精度;同時(shí),已經(jīng)有相關(guān)的理論研究。例如,Burke提出的方法是混合基于內(nèi)容和協(xié)作過濾技術(shù),旨在提高推薦的質(zhì)量隨;Ardissono等人采用多種異構(gòu)推薦技術(shù)的方法,通過收集多種用戶偏好的信息實(shí)現(xiàn);Mobasher等人提出一種框架,把在線用戶訪問Web頁面的會(huì)話活動(dòng)過程與在線數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘任務(wù)分開處理,采用基于聚類的技術(shù)把Web站點(diǎn)使用和內(nèi)容模型采用統(tǒng)一的表示方法,用于實(shí)時(shí)的個(gè)性化操作;這種方法的優(yōu)點(diǎn)在于Web站點(diǎn)的使用和內(nèi)容特點(diǎn)集成到Web挖掘框架里,為推薦引擎提供統(tǒng)一的訪問方式,從而提高了個(gè)性化效率;Rosenthal等人提出的研究旨在提高推薦系統(tǒng)在線預(yù)測(cè)精度。
筆者經(jīng)分析認(rèn)為,基于規(guī)則過濾和基于協(xié)作過濾技術(shù)的缺點(diǎn)是:通常需要離線學(xué)習(xí)訓(xùn)練樣本生成關(guān)聯(lián)規(guī)則或者用戶組的分類,二者具有可擴(kuò)展性差和動(dòng)態(tài)變化緩慢的特點(diǎn),因此,不適于在線的迅速響應(yīng),尤其 不適合實(shí)時(shí)查詢的響應(yīng)。基于內(nèi)容過濾技術(shù)的優(yōu)點(diǎn)是響應(yīng)及時(shí),但其缺點(diǎn)是依賴于用戶的歷史操作記錄,如果用戶的興趣偏好變化或者歷史記錄缺失,推薦給用戶的結(jié)果將可能會(huì)產(chǎn)生嚴(yán)重的失真。
基于以上分析,本文結(jié)合以上三種推薦方法,提出一種Web個(gè)性化應(yīng)用智能混合推薦模型,其優(yōu)點(diǎn)是通過模型適配器智能性地、自動(dòng)為推薦系統(tǒng)選擇合適的挖掘模型,具有響應(yīng)速度快、推薦準(zhǔn)確性較高等特點(diǎn)(見圖2)。該模型的數(shù)據(jù)收集、預(yù)處理過程采用的方法與傳統(tǒng)的推薦類似,與原有系統(tǒng)兼容并且進(jìn)行功能擴(kuò)展。數(shù)據(jù)挖掘模型可以有多種,主要分為三種類型:基于關(guān)聯(lián)規(guī)則的挖掘類型、基于內(nèi)容的分類挖掘類型和基于協(xié)作的聚類挖掘類型。根據(jù)實(shí)際挖掘應(yīng)用環(huán)境需要和企業(yè)規(guī)模的不同,該模型可以實(shí)現(xiàn)某一種挖掘類型的幾種具體算法,也可以實(shí)現(xiàn)任意兩種或者三種挖掘類型的任意種算法,因此,該模型能夠使用于多種用途,具有較強(qiáng)的靈活性。此外,由于該模型可以實(shí)現(xiàn)某種挖掘類型的多種算法,因此,可以進(jìn)行精度比較,提高推薦的精度。
這種方法與圖1所示的個(gè)性化推薦系統(tǒng)模型相比較而言,除了具有單一的推薦功能外,具有以下幾個(gè)特點(diǎn):①混合采用的多種過濾推薦技術(shù),能夠根據(jù)系統(tǒng)應(yīng)用情況和抽取到的用戶特征自動(dòng)識(shí)別用戶需求,是一種智能型推薦系統(tǒng);②這種智能型推薦系統(tǒng)采用多種過濾推薦技術(shù),具體采用哪種過濾技術(shù)由模型適配器根據(jù)用戶特征和推薦內(nèi)容的不同而決定;③本系統(tǒng)能夠完成多種過濾技術(shù)的推薦。例如,一個(gè)商務(wù)網(wǎng)站的個(gè)性化注冊(cè)用戶完成交易之后,Web個(gè)性化推薦系統(tǒng)提取該用戶的訪問特征,并進(jìn)行分析,為用戶的個(gè)性化推薦做準(zhǔn)備。模型適配器分析該用戶當(dāng)期的購物內(nèi)容,使用關(guān)聯(lián)規(guī)則挖掘模型發(fā)現(xiàn)用戶的購物內(nèi)容并推薦與此相關(guān)的內(nèi)容,推薦可能關(guān)聯(lián)的商品。使用內(nèi)容過濾模型發(fā)現(xiàn)用戶當(dāng)前對(duì)哪些商品感興趣,從而推薦更多用戶可能會(huì)感興趣的商品;使用協(xié)作過濾模型找到與該用戶有相似購物內(nèi)容的用戶還買了哪些商品,根據(jù)用戶的相似性推薦當(dāng)前用戶還沒有發(fā)現(xiàn)是或者還沒有購買的商品。模型適配器根據(jù)挖掘結(jié)果,可以把推薦內(nèi)容呈現(xiàn)給用戶賬號(hào)頁面,或者是推送到用戶使用的電子郵箱。這些復(fù)雜的工作都由適配器自動(dòng)識(shí)別并操作完成。
歸納本文提出的智能混合推薦系統(tǒng)模型特點(diǎn)如下:①自動(dòng)適配功能,提供一種數(shù)據(jù)挖掘算法模型的接口,這種接口能夠自動(dòng)適配推薦技術(shù),實(shí)現(xiàn)在線推薦;②靈活性強(qiáng),可以根據(jù)實(shí)際需要加載、更換數(shù)據(jù)挖掘模型;③通用性強(qiáng),不但可以用于個(gè)性化推薦,還可以用于決策支持系統(tǒng)(Decision Supporting System,DSS)、專家系統(tǒng)(Expert System,Es)商業(yè)智能系統(tǒng)(Business In.telligence,BI)等。
5 結(jié)語
在未來幾年的個(gè)性化研究中,其關(guān)鍵技術(shù)依然是推薦系統(tǒng)。個(gè)性化推薦基于Web挖掘理論和技術(shù)而不斷發(fā)展,涉及到數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論。隨著Web技術(shù)和普適計(jì)算的發(fā)展,個(gè)性化推薦系統(tǒng)采用的挖掘技術(shù)越來越復(fù)雜,由單一技術(shù)向混合技術(shù)和智能型方向發(fā)展。
個(gè)性化推薦進(jìn)行數(shù)據(jù)挖掘需要的數(shù)據(jù)源越來越多樣化,綜合了日志數(shù)據(jù)、歷史交易記錄、用戶搜藏、用戶注冊(cè)信息、個(gè)人評(píng)價(jià)反饋信息等。當(dāng)前,關(guān)于Web日志格式的設(shè)計(jì)原則,還缺乏相關(guān)的理論研究,因此,可以考慮進(jìn)行Web日志格式設(shè)計(jì)的研究。一些研究者為了提高個(gè)性化推薦系統(tǒng)的精度,把研究重點(diǎn)放在提高推薦系統(tǒng)的算法優(yōu)化方面,但是,有針對(duì)性地定制收集用戶數(shù)據(jù)進(jìn)行用戶模型建模,對(duì)于個(gè)性化推薦系統(tǒng)精度的提高有著根本性的促進(jìn)作用。這些定制收集到的用戶數(shù)據(jù)能準(zhǔn)確地反映出用戶的偏好,并且,用戶模型建模收集到的數(shù)據(jù)越準(zhǔn)確,就越有利于推薦系統(tǒng)的精度提高。同時(shí),經(jīng)過定制收集到的數(shù)據(jù)還能夠有助于減輕推薦系統(tǒng)計(jì)算冗余數(shù)據(jù)的負(fù)載,從而提高個(gè)性化系統(tǒng)整體性能。
參考文獻(xiàn):
[1]Mobasher B.Data mining for Web personalization.[2010―12―11].http.//maya.cs.depaul.edu/mobasher/papers/awoT-mobas-her.pdf.
[2]Das R,Turkoglu I.Crewing meaningful data from web logs fnr im.proving the impressiveness 0f a website by using path analysis method.Expe~Systems with Applications.2009(36):6635―6644.
[3]Zhang F,Chang H.Research and development in web usage raining system―key issues and proposed solution8:A survey.[2010―12一11].http://ieeexplore.ieee org/xpls/abs―a11.jsp?tp=&amamber=1174531&tag=1.
[4]Srivastava J,Cooley R,Deshpande M,et a1.Web usage mining:Discovery and applications of usage patterns from web data.SigkddExplore,2000,1(12):12―23.
[5]Apache 10g files version 2.2.[2010―12―13].http://httpd.a-pache.0rg/docs/2.2/logs.html#other.
[6]Billsus D,Pazzani M.A personal news agent that talks,learns andexplains.[2010一12―11].http://wwwis.win.tue.n1/asum99/billsus.html.
[7]Han J,Kamber M.數(shù)據(jù)挖掘概念與技術(shù).范明,孟小峰,譯.北 京:機(jī)械工業(yè)出版社,2006.
[8]Burke R.Hybrid Web recommender systems//Brusilovsky P,Kob-sa A,Nejdl W.The Adaptive Web:Methods and Strategies 0fWeb Personalization,Lecture Notes in Computer Science.Berlin:Springer―Verlag,2007:377―408.
[9]Ardisson0 L,Gena c,Torasso P,et a1.User modeling and recom-mendation techniques for personalized eleetronic program guides//Personalized Digital Television.Targeting Programs to IndividualUsers.Amsterdam:Kluwer Academic Publishers.2004:3―26.
[10]Mobasher B,Dai Honghua,Luo Tao,et a1.Integrating Web usageand content mining for more effective personalization.[2010―12―11].http://www.省略/eontent/Tlhdxjkwmavpbpda/.
[11]ITWfr2009.[2010―12―16].http://www.dcs.warwick.ac.uk/~ssanand/itwp09/.[12]ITWP2010.[2010―12―16].http://lsl3-www.cs.uni―dort―mund.de/homepage/1TWP2010/index.shtHll.
相關(guān)熱詞搜索:個(gè)性化 過濾 模型 一種基于智能過濾的Web個(gè)性化推薦模型 個(gè)性化推薦模型 一種基于智能過濾的web
熱點(diǎn)文章閱讀