時(shí)間:2023-04-01 09:51:21
序論:好文章的創(chuàng)作是一個(gè)不斷探索和完善的過(guò)程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來(lái)更深刻的閱讀感受。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
參考文獻(xiàn):
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉(cāng)庫(kù),要根據(jù)實(shí)際情況而定,在易出現(xiàn)問(wèn)題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫(kù)。主要是用來(lái)把數(shù)據(jù)庫(kù)中的所有的存儲(chǔ)數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫(kù)雖然可以進(jìn)行大量的存儲(chǔ)數(shù)據(jù),同時(shí)也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒(méi)有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對(duì)手工方式進(jìn)行數(shù)據(jù)測(cè)試并建模。其次,在數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)選一數(shù)據(jù)集,作為對(duì)數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時(shí)變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對(duì)一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對(duì)數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對(duì)高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對(duì)數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測(cè)性的模型、數(shù)據(jù)的摘要等。隨后再?zèng)Q定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對(duì)當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過(guò)程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對(duì)數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過(guò)程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹(shù)還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時(shí),要注意幾個(gè)問(wèn)題,要充分利用結(jié)論對(duì)照其他的信息進(jìn)行校核,可對(duì)圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來(lái)決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無(wú)差錯(cuò),使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營(yíng)銷系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測(cè)性建模方法,也就是對(duì)歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測(cè)性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對(duì)象屬于連續(xù)型的變量,那么此類的推斷問(wèn)題可屬回歸問(wèn)題。根據(jù)歷史數(shù)據(jù)來(lái)進(jìn)行分析和檢測(cè),再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問(wèn)題得到解決。電力營(yíng)銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測(cè)出未來(lái)情況。把關(guān)聯(lián)規(guī)則成功引入電力營(yíng)銷分析,通過(guò)FP-Growth算法對(duì)電力營(yíng)銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場(chǎng)營(yíng)銷策略提供參謀和決策。對(duì)電力營(yíng)銷系統(tǒng)的應(yīng)用中,時(shí)間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測(cè)方法。這種方法的應(yīng)用中,對(duì)神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時(shí)間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營(yíng)銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時(shí)間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對(duì)電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對(duì)錯(cuò)誤模型的分析精度達(dá)到一定的精確度。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來(lái)作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過(guò)搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過(guò)Robot程序采集靜態(tài)的Web頁(yè)面,最后再獲取這些被訪問(wèn)站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的動(dòng)態(tài)信息,然后生成WWW資源庫(kù)索引;第四步,進(jìn)行信息特征匹配,通過(guò)提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫(kù)系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁(yè)所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問(wèn)題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過(guò)構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁(yè)面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書館資源進(jìn)行查找訪問(wèn)的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。
1、為開(kāi)發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過(guò)加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過(guò)Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問(wèn)題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過(guò)Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過(guò)瀏覽器訪問(wèn)數(shù)字圖書館后,可被記載下來(lái)的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問(wèn)記錄。其中用戶信息包括了用戶名,用戶訪問(wèn)IP地址,用戶的職業(yè)、年齡、愛(ài)好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問(wèn)IP地址通過(guò)程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫的,訪問(wèn)記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過(guò)分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫(kù),然后在通過(guò)數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過(guò)Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過(guò)路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問(wèn)的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來(lái)決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購(gòu)進(jìn)的文獻(xiàn)沒(méi)有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問(wèn)題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問(wèn)題提供了一種較好的方法。通過(guò)對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購(gòu)提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)
金融部門每天的業(yè)務(wù)都會(huì)產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫(kù)系統(tǒng)可以有效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。與此同時(shí),金融機(jī)構(gòu)的運(yùn)作必然存在金融風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理是每一個(gè)金融機(jī)構(gòu)的重要工作。利用數(shù)據(jù)挖掘技術(shù)不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機(jī)構(gòu)存在的風(fēng)險(xiǎn)。學(xué)習(xí)和應(yīng)用數(shù)扼挖掘技術(shù)對(duì)我國(guó)的金融機(jī)構(gòu)有重要意義。
一、數(shù)據(jù)挖掘概述
1.數(shù)據(jù)挖掘的定義對(duì)于數(shù)據(jù)挖掘,一種比較公認(rèn)的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)、這些知識(shí)是隱含的、事先未知的、潛在有用的信息,提取的知識(shí)表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個(gè)定義把數(shù)據(jù)挖掘的對(duì)象定義為數(shù)據(jù)庫(kù)。
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域也不斷拓廣。數(shù)據(jù)挖掘的對(duì)象已不再僅是數(shù)據(jù)庫(kù),也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉(cāng)庫(kù)。與此同時(shí),數(shù)據(jù)挖掘也有了越來(lái)越多不同的定義,但這些定義盡管表達(dá)方式不同,其本質(zhì)都是近似的,概括起來(lái)主要是從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。
從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識(shí)的過(guò)程。它是一門廣義的交叉學(xué)科,涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)、模式識(shí)別、知識(shí)庫(kù)系統(tǒng)、知識(shí)獲取、信息檢索、高性能計(jì)算和數(shù)據(jù)可視化等多學(xué)科領(lǐng)域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領(lǐng)域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。
從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術(shù)。它按照企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性并進(jìn)一步將其模型化,從而自動(dòng)地提取出用以輔助商業(yè)決策的相關(guān)商業(yè)模式。
2.數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)技術(shù)和人工智能技術(shù)發(fā)展的產(chǎn)物。從使用的技術(shù)角度,主要的數(shù)據(jù)挖掘方法包括:
2.1決策樹(shù)方法:利用樹(shù)形結(jié)構(gòu)來(lái)表示決策集合,這些決策集合通過(guò)對(duì)數(shù)據(jù)集的分類產(chǎn)生規(guī)則。國(guó)際上最有影響和最早的決策樹(shù)方法是ID3方法,后來(lái)又發(fā)展了其它的決策樹(shù)方法。
2.2規(guī)則歸納方法:通過(guò)統(tǒng)計(jì)方法歸納,提取有價(jià)值的if-then規(guī)則。規(guī)則歸納技術(shù)在數(shù)據(jù)挖掘中被廣泛使用,其中以關(guān)聯(lián)規(guī)則挖掘的研究開(kāi)展得較為積極和深入。
2.3神經(jīng)網(wǎng)絡(luò)方法:從結(jié)構(gòu)上模擬生物神經(jīng)網(wǎng)絡(luò),以模型和學(xué)習(xí)規(guī)則為基礎(chǔ),建立3種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。這種方法通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,可以完成分類、聚類和特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。
2.4遺傳算法:模擬生物進(jìn)化過(guò)程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成。為了應(yīng)用遺傳算法,需要將數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問(wèn)題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學(xué)家Pawlak在八十年代初提出的一種處理模糊和不精確性問(wèn)題的新型數(shù)學(xué)工具。它特別適合于數(shù)據(jù)簡(jiǎn)化,數(shù)據(jù)相關(guān)性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類等,近年來(lái)已被成功地應(yīng)用在數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究領(lǐng)域中。
2.6K2最鄰近技術(shù):這種技術(shù)通過(guò)K個(gè)最相近的歷史記錄的組合來(lái)辨別新的記錄。這種技術(shù)可以作為聚類和偏差分析等挖掘任務(wù)。
2.7可視化技術(shù):將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢(shì)等以直觀的圖形方式表示,決策者可以通過(guò)可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對(duì)數(shù)據(jù)的剖析更清楚。
二、數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于銀行和商業(yè)中,有以下的典型應(yīng)用:
1.對(duì)目標(biāo)市場(chǎng)(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲(chǔ)蓄和貨款償還行為的客戶分為一組。有效的聚類和協(xié)同過(guò)濾(collaborativefiltering)方法有助于識(shí)別客戶組,以及推動(dòng)目標(biāo)市場(chǎng)。
2..客戶價(jià)值分析。
在客戶價(jià)值分析之前一般先使用客戶分類,在實(shí)施分類之后根據(jù)“二八原則”,找出重點(diǎn)客戶,即對(duì)給銀行創(chuàng)造了80%價(jià)值的20%客戶實(shí)施最優(yōu)質(zhì)的服務(wù)。重點(diǎn)客戶的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉(zhuǎn)換過(guò)程、AI人工智能等數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)。通過(guò)分析客戶對(duì)金融產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來(lái)判別客戶的忠誠(chéng)度;通過(guò)對(duì)交易數(shù)據(jù)的詳細(xì)分析來(lái)鑒別哪些是銀行希望保持的客戶;通過(guò)挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對(duì)性的彌補(bǔ)。
3.客戶行為分析。
找到重點(diǎn)客戶之后,可對(duì)其進(jìn)行客戶行為分析,發(fā)現(xiàn)客戶的行為偏好,為客戶貼身定制特色服務(wù)。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來(lái)發(fā)現(xiàn)企業(yè)現(xiàn)有客戶的行為規(guī)律。同時(shí),通過(guò)對(duì)不同客戶群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶群體間的變化規(guī)律,并可通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清潔與集中過(guò)程,將客戶對(duì)市場(chǎng)的反饋?zhàn)詣?dòng)輸人到數(shù)據(jù)倉(cāng)庫(kù)中。通過(guò)對(duì)客戶的理解和客戶行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應(yīng)的市場(chǎng)策略。
4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計(jì)和構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)。例如,人們可能希望按月、按地區(qū)、按部門、以及按其他因素查看負(fù)債和收入的變化情況,同時(shí)希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計(jì)信息。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動(dòng)數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會(huì)在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。
5.貨款償還預(yù)測(cè)和客戶信用政策分析。有很多因素會(huì)對(duì)貨款償還效能和客戶信用等級(jí)計(jì)算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計(jì)算,有助于識(shí)別重要的因素,別除非相關(guān)因素。例如,與貨款償還風(fēng)險(xiǎn)相關(guān)的因素包括貨款率、資款期限、負(fù)債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。銀行可以據(jù)此調(diào)整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對(duì)低風(fēng)險(xiǎn)的申請(qǐng)。
6.業(yè)務(wù)關(guān)聯(lián)分析。通過(guò)關(guān)聯(lián)分析可找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng),銀行存儲(chǔ)了大量的客戶交易信息,可對(duì)客戶的收人水平、消費(fèi)習(xí)慣、購(gòu)買物種等指標(biāo)進(jìn)行挖掘分析,找出客戶的潛在需求;通過(guò)挖掘?qū)蛻粜畔?,銀行可以作為廠商和消費(fèi)者之間的中介,與廠商聯(lián)手,在掌握消費(fèi)者需求的基礎(chǔ)上,發(fā)展中間業(yè)務(wù),更好地為客戶服務(wù)。
7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點(diǎn)是要把多個(gè)數(shù)據(jù)庫(kù)的信息集成起來(lái),然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時(shí)間內(nèi),通過(guò)某一組人發(fā)生大量現(xiàn)金流量等,再運(yùn)用數(shù)據(jù)可視化工具、分類工具、聯(lián)接工具、孤立點(diǎn)分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進(jìn)一步的處理。
數(shù)據(jù)挖掘技術(shù)可以用來(lái)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中對(duì)象演變特征或?qū)ο笞兓厔?shì),這些信息對(duì)于決策或規(guī)劃是有用的,金融
行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員??梢酝诰蚬善苯灰讛?shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢(shì)數(shù)據(jù)。挖掘給企業(yè)帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。當(dāng)然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。
參考文獻(xiàn):
丁秋林,力士奇.客戶關(guān)系管理.第1版.北京:清華人學(xué)出版社,2002
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過(guò)程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過(guò)對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來(lái)的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過(guò)分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過(guò)程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹(shù)技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹(shù)算法基本理論
2.1 決策樹(shù)方法介紹
決策樹(shù)[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無(wú)序的,無(wú)規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹(shù)歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。建模過(guò)程中,即樹(shù)的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問(wèn)題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來(lái)形成分類器和預(yù)測(cè)模型。如圖1所示,為決策樹(shù)的示意圖。
決策樹(shù)一種類似流程圖的樹(shù)形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹(shù)上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹(shù)。決策樹(shù)最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹(shù)進(jìn)行修剪,此過(guò)程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹(shù)的過(guò)匹配,進(jìn)而保證生成決策樹(shù)的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒(méi)有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹(shù)算法,它是最早的決策樹(shù)算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來(lái)的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹(shù)算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。
C4.5通過(guò)兩個(gè)步驟來(lái)建立決策樹(shù):第一階段樹(shù)的生成,第二階段樹(shù)的剪枝。C4.5算法采用信息增益率來(lái)記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹(shù)。C4.5算法構(gòu)造決策樹(shù)的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹(shù)
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點(diǎn)樹(shù)root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹(shù)root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測(cè)試屬性列表Attributes中的屬性;
8)IF測(cè)試屬性是連續(xù)的Then;
9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測(cè)試屬性的信息增益比率;
20)添加子樹(shù)Generate Tree C4.5;
21)對(duì)已建立的決策樹(shù)計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問(wèn)題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹(shù)技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來(lái)源:清晰地定義挖掘?qū)ο?,明確挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過(guò)對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問(wèn)題擬定分析過(guò)程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問(wèn)題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過(guò)程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過(guò)程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來(lái)建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹(shù)技術(shù)進(jìn)行分類建模來(lái)解決相應(yīng)的問(wèn)題。
5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來(lái)確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語(yǔ)言來(lái)實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過(guò)得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開(kāi)展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
云計(jì)算是并行計(jì)算和分布計(jì)算以及網(wǎng)格計(jì)算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動(dòng)態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計(jì)算平臺(tái),在電子商務(wù)、商業(yè)金融、科研開(kāi)發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價(jià)等特點(diǎn),能針對(duì)不同的用戶的不同需求,動(dòng)態(tài)透明地提供其所需的虛擬化計(jì)算和資源儲(chǔ)存,并能及時(shí)動(dòng)態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價(jià)、通用的特點(diǎn),使得一般用戶實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來(lái)說(shuō),云計(jì)算的平臺(tái)已得到良好的發(fā)展,日益成熟,基于云計(jì)算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識(shí)發(fā)現(xiàn)領(lǐng)域的一個(gè)重要技術(shù),它是指一個(gè)從隨機(jī)的大量而不完整的模糊的實(shí)際數(shù)據(jù)中提取其中某些隱含著的具有潛在價(jià)值的實(shí)用知識(shí)與信息的過(guò)程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測(cè)分析等等,涉及到的高級(jí)技術(shù)領(lǐng)域有統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能等方面。
2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問(wèn)題和時(shí)代的挑戰(zhàn),同時(shí),也為數(shù)據(jù)挖掘提供了新的計(jì)算平臺(tái)和發(fā)展機(jī)遇。基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)平臺(tái)的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時(shí)代滯慢、效率較低、功能落后、成本高昂等問(wèn)題。云計(jì)算是一種商業(yè)計(jì)算模式,是網(wǎng)格計(jì)算與并行計(jì)算及分布式計(jì)算在一定程度上的商業(yè)實(shí)現(xiàn),其動(dòng)態(tài)、可伸縮的計(jì)算基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計(jì)算是一種在互聯(lián)網(wǎng)時(shí)代中應(yīng)運(yùn)而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動(dòng)態(tài)處理的特點(diǎn),在社會(huì)的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價(jià)值。將云計(jì)算應(yīng)用于數(shù)據(jù)挖掘平臺(tái)的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會(huì)中越來(lái)越海量的數(shù)據(jù)挖掘提供一個(gè)高效率的技術(shù)平臺(tái)。本文將結(jié)合云計(jì)算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對(duì)數(shù)據(jù)挖掘的平臺(tái)構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡(jiǎn)要的分析探討。摘要能力使得進(jìn)行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠(yuǎn)。同時(shí),云計(jì)算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計(jì)算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢(shì)。
2.1數(shù)據(jù)挖掘平臺(tái)構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫(kù)之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時(shí)代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會(huì)的數(shù)據(jù)處理問(wèn)題。而云計(jì)算的分布式存儲(chǔ)與計(jì)算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時(shí)代的云計(jì)算數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成。其包含了面向組件的設(shè)計(jì)理念和分層設(shè)計(jì)的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計(jì)算支撐平臺(tái)層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架各層意義
云計(jì)算支撐平臺(tái)層:顧名思義,該平臺(tái)層是云計(jì)算數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)處理平臺(tái),其主要具有的功能是對(duì)分布式文件存儲(chǔ)與數(shù)據(jù)庫(kù)提供資源存儲(chǔ),以及實(shí)行對(duì)數(shù)據(jù)的有關(guān)處理和計(jì)算功能。數(shù)據(jù)挖掘能力層:該平臺(tái)結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺(tái),并對(duì)數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺(tái)層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺(tái)層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫(kù),亦支持第三方的數(shù)據(jù)挖掘算法工具的進(jìn)入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對(duì)外提供數(shù)據(jù)挖掘操作的云服務(wù),同時(shí)也能提供基于結(jié)構(gòu)化查詢的語(yǔ)言語(yǔ)句訪問(wèn),提供相關(guān)的解析引擎,以便于自動(dòng)調(diào)用云服務(wù)。對(duì)外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡(jiǎn)單對(duì)象訪問(wèn)協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時(shí)候,云服務(wù)層的各個(gè)業(yè)務(wù)系統(tǒng)可以進(jìn)行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的關(guān)鍵技術(shù)探討
基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)構(gòu)架的形成,離不開(kāi)現(xiàn)代先進(jìn)的科技技術(shù),其中幾項(xiàng)關(guān)鍵的技術(shù)應(yīng)用將在這里進(jìn)行簡(jiǎn)要的闡述:
3.1云計(jì)算技術(shù)
3.1.1分布式儲(chǔ)存技術(shù)
通過(guò)采用分布式存儲(chǔ)的方式來(lái)存儲(chǔ)數(shù)據(jù),是云計(jì)算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟(jì)性的重要保證。用可靠的軟件來(lái)彌補(bǔ)硬件的不足,是分布式存儲(chǔ)技術(shù)提供廉價(jià)而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計(jì)算的環(huán)境下,數(shù)據(jù)挖掘能實(shí)現(xiàn)對(duì)大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運(yùn)行戰(zhàn)略。云計(jì)算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來(lái)源數(shù)據(jù)進(jìn)行IT資源匯合,動(dòng)態(tài)地實(shí)現(xiàn)對(duì)用戶的虛擬化資源的供給,從而以高效率、海量動(dòng)態(tài)的特點(diǎn)完成服務(wù)任務(wù)。
3.1.3并行云計(jì)算技術(shù)
并行云計(jì)算技術(shù)是一種對(duì)于高效執(zhí)行數(shù)據(jù)挖掘計(jì)算任務(wù)極其重要的技術(shù),并且它對(duì)云計(jì)算的某些技術(shù)細(xì)節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯(cuò)和系統(tǒng)容錯(cuò)以及數(shù)據(jù)分布等。該功能代替了用戶對(duì)這些細(xì)節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對(duì)不同類型的數(shù)據(jù)進(jìn)行匯集。它實(shí)現(xiàn)了對(duì)接入該云計(jì)算數(shù)據(jù)挖掘平臺(tái)的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問(wèn)題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對(duì)于基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái),為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計(jì)算平臺(tái),必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問(wèn)題,以保證安全、可靠的平臺(tái)的云服務(wù)。服務(wù)管理功能要實(shí)現(xiàn)統(tǒng)一的服務(wù)注冊(cè)與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地?cái)U(kuò)展平臺(tái)的服務(wù)能力。
(2)計(jì)算機(jī)網(wǎng)絡(luò)病毒傳播形式的多樣性。計(jì)算機(jī)網(wǎng)絡(luò)和網(wǎng)絡(luò)病毒相互之間存在著很緊密的聯(lián)系,網(wǎng)絡(luò)電子郵件、網(wǎng)絡(luò)系統(tǒng)漏洞以及不良網(wǎng)頁(yè)都是網(wǎng)絡(luò)病毒進(jìn)行傳播的重要途徑,進(jìn)而對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)造成蓄意破壞。計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)的傳播形式有很多種,網(wǎng)絡(luò)病毒在網(wǎng)絡(luò)系統(tǒng)漏洞中的傳播就是常見(jiàn)的一種病毒傳播方式,計(jì)算機(jī)網(wǎng)絡(luò)病毒程序通過(guò)對(duì)Internet遠(yuǎn)程主機(jī)系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達(dá)控制對(duì)方計(jì)算機(jī)的控制。同時(shí)也有一種病毒通過(guò)對(duì)文件夾的搜索掃描,進(jìn)行病毒復(fù)制,以到達(dá)入侵網(wǎng)絡(luò)系統(tǒng)的目的。
(3)計(jì)算機(jī)網(wǎng)絡(luò)病毒的針對(duì)性。在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展初期,計(jì)算機(jī)網(wǎng)絡(luò)病毒主要目標(biāo)就是干擾網(wǎng)絡(luò)技術(shù)人員的程序編寫,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,計(jì)算機(jī)網(wǎng)絡(luò)病毒的開(kāi)發(fā)技術(shù)和功能作用也發(fā)生了很多變化,如今,計(jì)算機(jī)網(wǎng)絡(luò)病毒的設(shè)計(jì)和開(kāi)發(fā)已經(jīng)開(kāi)始商業(yè)化,針對(duì)性地對(duì)計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)實(shí)施破壞,如通過(guò)盜用網(wǎng)銀賬號(hào)和密碼等方式以達(dá)到非法獲取利益的目的。
2數(shù)據(jù)挖掘技術(shù)簡(jiǎn)析
數(shù)據(jù)挖掘技術(shù)是通過(guò)對(duì)所處一定范圍之內(nèi)的所有數(shù)據(jù)進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)分類以及數(shù)據(jù)歸類,進(jìn)而來(lái)判斷是否存在某種潛在的關(guān)系和數(shù)據(jù)規(guī)律,主要環(huán)節(jié)有3個(gè),準(zhǔn)備數(shù)據(jù);尋找數(shù)據(jù)存在的規(guī)律;表現(xiàn)數(shù)據(jù)規(guī)律。數(shù)據(jù)挖掘模式設(shè)置好之后,技術(shù)系統(tǒng)中的挖掘引擎就會(huì)以數(shù)據(jù)庫(kù)中的要求為依據(jù),對(duì)準(zhǔn)備好的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)歸類,找出各個(gè)數(shù)據(jù)之間存在的關(guān)系和相應(yīng)的數(shù)據(jù)規(guī)律,以便成為之后數(shù)據(jù)分析的有利依據(jù),數(shù)據(jù)挖掘技術(shù)是比較全面的挖掘技術(shù)和數(shù)據(jù)應(yīng)用技術(shù),工作過(guò)程比較繁雜,工作操作步驟較多,其中存在很大部分的準(zhǔn)備環(huán)節(jié)和規(guī)劃工作,數(shù)據(jù)挖掘技術(shù)的重點(diǎn)工作是對(duì)數(shù)據(jù)的預(yù)處理階段,對(duì)數(shù)據(jù)的預(yù)處理階段是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),是后期進(jìn)行數(shù)據(jù)分析的必要條件。
3以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的計(jì)算機(jī)網(wǎng)絡(luò)病毒防御分析
3.1數(shù)據(jù)挖掘技術(shù)的構(gòu)成分析
數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用過(guò)程比較復(fù)雜,步驟繁多,為了便于日常操作應(yīng)用,掌握每個(gè)環(huán)節(jié)的基本特征,可以對(duì)預(yù)處理模塊、決策模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)挖掘模塊以及規(guī)則庫(kù)模塊進(jìn)行分模塊分析研究。
(1)數(shù)據(jù)預(yù)處理模塊分析。簡(jiǎn)化數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)挖掘和數(shù)據(jù)分析之間的處理操作可以通過(guò)數(shù)據(jù)預(yù)處理模塊來(lái)實(shí)現(xiàn),利用數(shù)據(jù)預(yù)處理模塊可以整體上提高數(shù)據(jù)挖掘效果,提高數(shù)據(jù)辨識(shí)度和準(zhǔn)確度。在完成數(shù)據(jù)收集后需要把數(shù)據(jù)導(dǎo)入到預(yù)處理模塊,實(shí)現(xiàn)數(shù)據(jù)的分析歸類和數(shù)據(jù)變換,通過(guò)這樣額方式把數(shù)據(jù)轉(zhuǎn)換成可以被系統(tǒng)識(shí)別和處理的數(shù)據(jù)內(nèi)容。以目標(biāo)IP地址、源IP地址、端口信息等這些據(jù)數(shù)據(jù)包當(dāng)中所包括的信息內(nèi)容為依據(jù),實(shí)施數(shù)據(jù)集合、數(shù)據(jù)歸納、數(shù)據(jù)處理等流程。
(2)決策模塊分析。在數(shù)據(jù)挖掘技術(shù)中的決策功能模塊中,通過(guò)對(duì)數(shù)據(jù)的挖掘從而對(duì)數(shù)據(jù)庫(kù)進(jìn)行構(gòu)建,然后對(duì)數(shù)據(jù)進(jìn)行匹配,同時(shí)數(shù)據(jù)庫(kù)還要和規(guī)則庫(kù)密切聯(lián)系起來(lái)。如果數(shù)據(jù)庫(kù)有與規(guī)則庫(kù)存在高度聯(lián)系的信息出現(xiàn),證明在決策模塊里有病毒特征存在,很可能會(huì)感染到計(jì)算機(jī)病毒。如果是結(jié)果數(shù)據(jù)庫(kù)的數(shù)據(jù)信息和規(guī)則庫(kù)的數(shù)據(jù)不能相互匹配,那也就是說(shuō)該數(shù)據(jù)包中存在有帶有新型特征病的毒帶,也就是出現(xiàn)了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導(dǎo)入到系統(tǒng)的規(guī)則庫(kù)當(dāng)中,規(guī)則庫(kù)的一種較新型的規(guī)則類別也就形成了。
(3)數(shù)據(jù)收集模塊分析。實(shí)現(xiàn)數(shù)據(jù)挖掘的基本要求是提供充分的數(shù)據(jù)信息,只有通過(guò)數(shù)據(jù)收集才能實(shí)現(xiàn)數(shù)據(jù)收集模塊的功能。數(shù)據(jù)收集模塊通過(guò)對(duì)計(jì)算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)包的抓取和收集來(lái)實(shí)現(xiàn)數(shù)據(jù)信息,數(shù)據(jù)信息被收集后就會(huì)具有一定的數(shù)據(jù)結(jié)構(gòu)和比較重要的功能信息。
(4)數(shù)據(jù)挖掘模塊分析。數(shù)據(jù)挖掘技術(shù)的一個(gè)最關(guān)鍵部分就是數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊中的事件庫(kù)和數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘模塊的關(guān)鍵部分。數(shù)據(jù)挖掘?qū)ο嚓P(guān)數(shù)據(jù)的收集構(gòu)成了事件庫(kù),通過(guò)對(duì)事件庫(kù)中數(shù)據(jù)的分類和數(shù)據(jù)整理,進(jìn)而可以獲取較為準(zhǔn)確的數(shù)據(jù)結(jié)構(gòu)。
(5)規(guī)則庫(kù)模塊分析。規(guī)則庫(kù)模塊是數(shù)據(jù)挖掘技術(shù)的一個(gè)重要組成部分,可以幫助優(yōu)化數(shù)據(jù)挖掘信息庫(kù),給系統(tǒng)提供需要的病毒分析數(shù)據(jù)。如果有網(wǎng)絡(luò)病毒在計(jì)算機(jī)系統(tǒng)中出現(xiàn),規(guī)則庫(kù)模塊就可以進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)識(shí)別,以及實(shí)現(xiàn)數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘的過(guò)程中,網(wǎng)絡(luò)病毒屬性會(huì)被挖掘過(guò)程中獲取的規(guī)則集調(diào)整和改變,并且把這個(gè)記錄繼續(xù)使用在數(shù)據(jù)挖掘中,這項(xiàng)記錄可以幫助計(jì)算機(jī)系統(tǒng)對(duì)一些潛在的網(wǎng)絡(luò)病毒進(jìn)行分析,進(jìn)而起到防御病毒的作用。
3.2以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)病毒防御系統(tǒng)
(1)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析。數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則就是指在同一類別的數(shù)據(jù)中有可以被發(fā)現(xiàn)的知識(shí)存在,通過(guò)對(duì)兩個(gè)或者超過(guò)兩個(gè)的變量進(jìn)行取值,如果發(fā)現(xiàn)數(shù)據(jù)具有一定規(guī)律的話說(shuō)明這些數(shù)據(jù)和數(shù)據(jù)之間存在著某種關(guān)聯(lián)性。因果關(guān)聯(lián)、及時(shí)序關(guān)聯(lián)以及簡(jiǎn)單關(guān)聯(lián)是存在數(shù)據(jù)挖掘技術(shù)中的幾種主要關(guān)聯(lián)關(guān)系。要找到數(shù)據(jù)庫(kù)中的關(guān)聯(lián)網(wǎng),就需要進(jìn)行關(guān)聯(lián)分析,然后結(jié)合數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,進(jìn)而得到數(shù)據(jù)和數(shù)據(jù)存在的關(guān)聯(lián)規(guī)則。
2基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)概述
基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)是當(dāng)代新開(kāi)發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計(jì)算機(jī)數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的過(guò)程,如果沒(méi)有取得預(yù)期的效果,計(jì)算機(jī)數(shù)據(jù)挖掘信息處理系統(tǒng)就會(huì)返回上一層重新工作,直到完成目標(biāo)任務(wù)為止,這種對(duì)目標(biāo)的細(xì)化過(guò)程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計(jì)算機(jī)挖掘技術(shù)在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無(wú)論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來(lái)。檔案的價(jià)值隨著其保存時(shí)間的不斷推移而增加,價(jià)值越高的檔案,被使用的頻率就越高,但是如果使用過(guò)于頻繁的話,就會(huì)縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時(shí)如果監(jiān)管不力就會(huì)導(dǎo)致機(jī)密泄露。由以上可見(jiàn),檔案的保存與使用儼然已互為對(duì)立面了。將計(jì)算機(jī)挖掘技術(shù)應(yīng)用到檔案管理中則對(duì)檔案資料的完整性毫無(wú)影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時(shí)間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗(yàn)進(jìn)行主觀鑒定,有時(shí)會(huì)存在有價(jià)值的檔案丟失的現(xiàn)象。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計(jì)算機(jī)系統(tǒng)分析檔案使用和保存的情況,促進(jìn)了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機(jī)密性,所以檔案的借閱并不是向全社會(huì)公開(kāi)的,而是有范圍限制的,但是由于檔案管理人員和借閱者對(duì)檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問(wèn)題,在借閱者提出申請(qǐng)之后,檔案管理人員會(huì)將檔案資料調(diào)出來(lái),有時(shí)調(diào)出來(lái)的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過(guò)程就嚴(yán)重浪費(fèi)了雙方的時(shí)間。應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以促進(jìn)檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強(qiáng)檔案信息的服務(wù)性。加密檔案信息會(huì)嚴(yán)重縮小它的適用范圍,受當(dāng)代信息化的影響,很多檔案信息自身會(huì)出現(xiàn)一些問(wèn)題,并且只能為一小部分人服務(wù)。將計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過(guò)研究發(fā)現(xiàn)未來(lái)使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。
4基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理中的實(shí)際應(yīng)用
4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進(jìn)行分類。傳統(tǒng)的分類方法既費(fèi)時(shí)又費(fèi)力,工作效率極低。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)中有一種決策樹(shù)算法,它可以在最短的時(shí)間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進(jìn)行分類和整理,大大提高了檔案分類工作的效率。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進(jìn)行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對(duì)檔案信息的需求來(lái)對(duì)檔案進(jìn)行分類,同時(shí)還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過(guò)這些針對(duì)性強(qiáng)的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時(shí)間,檔案數(shù)據(jù)的利用價(jià)值就能充分發(fā)揮出來(lái)。4.2在檔案收集管理中的應(yīng)用。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫(kù)內(nèi)部的數(shù)據(jù)信息描述來(lái)構(gòu)建一個(gè)相應(yīng)的數(shù)據(jù)模型,然后比較計(jì)算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測(cè)試樣本模型來(lái)對(duì)檔案信息進(jìn)行分類處理。計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫(kù)中的數(shù)據(jù),建立一個(gè)對(duì)已知數(shù)據(jù)有詳細(xì)描述的概念模型,并與測(cè)試樣本進(jìn)行對(duì)比,如果一個(gè)模型測(cè)試通過(guò),就證明這個(gè)模型可以應(yīng)用在檔案收集管理中。
5結(jié)語(yǔ)
綜上所述,在科技技術(shù)不斷進(jìn)步的時(shí)代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢(shì),它可以極大提高檔案信息管理的工作效率,促進(jìn)檔案管理的高效發(fā)展。除了在檔案信息存儲(chǔ)和利用上確保基本的信息查詢服務(wù)外,還需要應(yīng)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。
作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院
參考文獻(xiàn)
[1]高燕飛,陳俊杰.試析計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2012(4):44-46.
[2]曾雪峰.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.
[3]李國(guó)強(qiáng),曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
2、國(guó)內(nèi)外文獻(xiàn)綜述
挑選中國(guó)知網(wǎng)數(shù)據(jù)庫(kù),以“知識(shí)管理”為主題關(guān)鍵詞進(jìn)行精確檢索,共找到 31,324 篇文獻(xiàn),其中 2004 年至2014 年間共發(fā)表文獻(xiàn) 24,895 篇,近十年是知識(shí)管理領(lǐng)域研究的高峰期。以“高校知識(shí)管理”或“大學(xué)知識(shí)管理”為主題關(guān)鍵字進(jìn)行精確檢索,得到 248 篇相關(guān)文獻(xiàn),可發(fā)現(xiàn)針對(duì)高校的知識(shí)管理研究較少。針對(duì)結(jié)果進(jìn)行二次檢索,增加主題關(guān)鍵詞“數(shù)據(jù)挖掘”得到相關(guān)文獻(xiàn) 3 篇,表明對(duì)高校知識(shí)管理與數(shù)據(jù)挖掘技術(shù)結(jié)合的研究較少,所得文獻(xiàn)主要觀點(diǎn)包括:1.數(shù)據(jù)挖掘技術(shù)可用于高校知識(shí)發(fā)現(xiàn);2.數(shù)據(jù)挖掘?qū)χR(shí)管理體系建設(shè)有推動(dòng)作用;3. 高校知識(shí)管理成果可通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行評(píng)價(jià)。對(duì)國(guó)外學(xué)者的研究情況進(jìn)行分析,挑選 Web ofScience 數(shù)據(jù)庫(kù)。以“knowledge management”為主題關(guān)鍵字進(jìn)行檢索,共得到 62,474 篇文獻(xiàn),以“knowledgemanagement of college”為主題關(guān)鍵字檢索,得到 647篇文獻(xiàn),再結(jié)合關(guān)鍵詞“Data mining”,共得到文獻(xiàn) 5 篇。由此可見(jiàn),國(guó)外相關(guān)研究比國(guó)內(nèi)多出近一倍,并且研究的程度深、范圍廣。但關(guān)于高校知識(shí)管理與具體信息技術(shù)結(jié)合應(yīng)用的文獻(xiàn)仍較少,且發(fā)表日期多為 2010 年后。
3、知識(shí)管理與數(shù)據(jù)挖掘結(jié)合的軟件要求
知識(shí)管理與數(shù)據(jù)挖掘技術(shù)的結(jié)合運(yùn)用對(duì)高校相關(guān)設(shè)備提出了一定的要求,包括對(duì)服務(wù)器、客戶端計(jì)算機(jī)的硬件要求以及對(duì)知識(shí)管理平臺(tái)、數(shù)據(jù)挖掘工具的軟件要求,本文中將重點(diǎn)敘述軟件要求。
知識(shí)管理平臺(tái)要求
知識(shí)管理平臺(tái)是高校知識(shí)管理的實(shí)施基礎(chǔ),它為高校人員提供了可視化的操作界面,其應(yīng)實(shí)現(xiàn)的基本功能包括:1.數(shù)據(jù)接口;2.工具接口;3.數(shù)據(jù)挖掘(內(nèi)置或外接);4.知識(shí)倉(cāng)庫(kù);5.知識(shí)索引、推薦;6.信息檢索;7.組織內(nèi)交流;8. 管理評(píng)價(jià)。一個(gè)知識(shí)管理平臺(tái)應(yīng)分為:表現(xiàn)層、服務(wù)層、處理層、存儲(chǔ)層。表現(xiàn)層是面向用戶的可視化界面,用于人機(jī)交互,接受用戶的任務(wù);服務(wù)層對(duì)任務(wù)進(jìn)行調(diào)度、處理,直接執(zhí)行無(wú)需數(shù)據(jù)挖掘的任務(wù)并反饋至表現(xiàn)層,調(diào)度需要數(shù)據(jù)挖掘的任務(wù)至處理層;處理層負(fù)責(zé)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)等功能;存儲(chǔ)層包括校方數(shù)據(jù)庫(kù)及知識(shí)倉(cāng)庫(kù)。具體層次如圖 1 所示。根據(jù)高校組織的特征,知識(shí)管理平臺(tái)應(yīng)在實(shí)現(xiàn)基本功能的前提下具有以下特點(diǎn):1. 接口質(zhì)量高。高校集行政、科研、社會(huì)服務(wù)等任務(wù)于一體,需要處理海量數(shù)據(jù),應(yīng)提供接口以使用專業(yè)處理工具處理復(fù)雜任務(wù),保證數(shù)據(jù)處理的效率與深度;2. 內(nèi)置數(shù)據(jù)挖掘功能。高校所含數(shù)據(jù)種類多、范圍廣,對(duì)結(jié)構(gòu)簡(jiǎn)單、數(shù)據(jù)量小的數(shù)據(jù)可直接使用內(nèi)置數(shù)據(jù)挖掘功能處理,節(jié)省時(shí)間;3. 交流功能強(qiáng)。高校為知識(shí)密集型組織,其學(xué)科、職能間存在交叉,優(yōu)秀的交流功能保證了知識(shí)的共享及創(chuàng)新。4. 完善的激勵(lì)體系。激勵(lì)體系不僅體現(xiàn)在平臺(tái)的評(píng)價(jià)功能中,更體現(xiàn)在管理人員的管理中,通過(guò)提高人員的積極性促進(jìn)知識(shí)管理進(jìn)程的實(shí)施。
數(shù)據(jù)挖掘工具要求
高校所含知識(shí)從相關(guān)對(duì)象分類可分為兩類:1. 管理知識(shí),指高校各部門(教學(xué)、后勤部門等)用于高校管理的知識(shí);2. 科研知識(shí),指各學(xué)科的專業(yè)知識(shí)。前者主要與高校行政、管理人員相關(guān),后者則與高校學(xué)者、教授關(guān)系更大。針對(duì)不同的用戶,知識(shí)管理與數(shù)據(jù)挖掘的結(jié)合運(yùn)用對(duì)數(shù)據(jù)挖掘軟件提出了不同的要求。高校行政、管理人員所面對(duì)的數(shù)據(jù)多來(lái)自高校各類信息系統(tǒng)的記錄,如:校園卡消費(fèi)信息、機(jī)房上機(jī)信息,具有量大、范圍廣、結(jié)構(gòu)一致等特點(diǎn)。用于該類數(shù)據(jù)挖掘的挖掘工具可內(nèi)置于知識(shí)管理平臺(tái)中,便于數(shù)據(jù)存取,提高挖掘速度。常用功能為預(yù)測(cè)、分類、評(píng)價(jià)三項(xiàng),主要方法可選用回歸分析、趨勢(shì)外推、特征分類、層次分析、模糊綜合評(píng)價(jià)法等。結(jié)合使用者特點(diǎn),該類挖掘工具應(yīng)提供獨(dú)立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結(jié)果應(yīng)具有較強(qiáng)可視性,提供圖、表界面,以便用戶理解。高??蒲兄R(shí)主要來(lái)自于學(xué)者、教授的科學(xué)研究,包括:實(shí)驗(yàn)數(shù)據(jù)、主觀推測(cè)描述等,具有專業(yè)性強(qiáng)、層次深、結(jié)構(gòu)復(fù)雜等特點(diǎn)。針對(duì)挖掘要求較低的數(shù)據(jù),可使用知識(shí)管理平臺(tái)中的內(nèi)置挖掘工具,而針對(duì)挖掘要求高的數(shù)據(jù),可選用專業(yè)數(shù)據(jù)挖掘軟件,如:Intelligent Miner、QUEST 等,通過(guò)知識(shí)管理平臺(tái)的接口進(jìn)行對(duì)接。
4、知識(shí)管理與數(shù)據(jù)挖掘結(jié)合的具體策略
知識(shí)管理的基本職能可概括為外化、內(nèi)化、中介、認(rèn)知四大部分,其中前三項(xiàng)職能對(duì)信息技術(shù)的依賴較強(qiáng),可用數(shù)據(jù)挖掘技術(shù)進(jìn)行輔助。數(shù)據(jù)挖掘的過(guò)程分為條件匹配、選擇、激活、應(yīng)用四部分,即對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,選擇相關(guān)數(shù)據(jù)記錄,根據(jù)用戶要求選擇相應(yīng)技術(shù)進(jìn)行數(shù)據(jù)挖掘,得出并解釋數(shù)據(jù)挖掘結(jié)果,最終將這些記錄應(yīng)用于實(shí)踐中。兩者的具體結(jié)合策略如下:
輔助知識(shí)管理體系建設(shè)
知識(shí)管理本質(zhì)是一個(gè)周期性管理過(guò)程,在這一過(guò)程中實(shí)現(xiàn)組織知識(shí)共享、創(chuàng)新等,最終提升組織綜合實(shí)力,其中知識(shí)管理體系建設(shè)是實(shí)現(xiàn)知識(shí)管理的宏觀條件。知識(shí)管理體系建設(shè)是一個(gè)系統(tǒng)、全面的工程,包括組織結(jié)構(gòu)調(diào)整、確定激勵(lì)制度、知識(shí)管理文化培養(yǎng)、成效評(píng)估等任務(wù)。數(shù)據(jù)挖掘技術(shù),可以為知識(shí)管理體系建設(shè)提供依據(jù),保證相關(guān)決策的科學(xué)性。數(shù)據(jù)挖掘?qū)χR(shí)管理體系建設(shè)的幫助主要體現(xiàn)在以知識(shí)主管為主的知識(shí)管理部門對(duì)高校的管理、決策當(dāng)中。知識(shí)管理部門收集并預(yù)處理外校、本校知識(shí)管理體系建設(shè)的相關(guān)數(shù)據(jù),完成輔助決策的數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)。管理人員可根據(jù)要求,從數(shù)據(jù)倉(cāng)庫(kù)中選擇數(shù)據(jù),利用對(duì)應(yīng)模型完成挖掘,通過(guò)挖掘結(jié)果對(duì)決策做出幫助。以制定激勵(lì)制度為例,管理人員選擇與高校人員喜好相關(guān)的數(shù)據(jù),如至少包含“部門”、“喜好”、“性別”字段,利用關(guān)聯(lián)算法對(duì)其進(jìn)行計(jì)算,即可得出各部門工作人員的喜好,以此為據(jù)制定相應(yīng)激勵(lì)制度。
知識(shí)外化
知識(shí)外化是指組織從組織外部獲取與本組織相關(guān)的知識(shí)、發(fā)現(xiàn)歸集組織內(nèi)部存在的知識(shí)并進(jìn)行存儲(chǔ)以備用的過(guò)程。完成知識(shí)外化的關(guān)鍵即知識(shí)發(fā)現(xiàn),其較為常用的方法包括主觀歸納、隱性知識(shí)外顯等。目前學(xué)界中較為認(rèn)可、使用較普遍的方法即數(shù)據(jù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),指從數(shù)據(jù)集中識(shí)別出表明一定模式的、有效的、潛在的信息歸納為知識(shí)的過(guò)程。這是數(shù)據(jù)挖掘與知識(shí)管理結(jié)合應(yīng)用的最重要部分。同時(shí),數(shù)據(jù)挖掘技術(shù)只給定挖掘目標(biāo),不給出假設(shè)、前提,因此在使用數(shù)據(jù)挖掘的過(guò)程中可獲取一些計(jì)劃外的知識(shí),為知識(shí)管理提供一個(gè)可靠的知識(shí)源。此處存在兩個(gè)前提:第一,知識(shí)發(fā)現(xiàn)不能僅僅依靠信息技術(shù),更需要人員對(duì)挖掘結(jié)果進(jìn)行主觀歸納,解釋其語(yǔ)義以完成知識(shí)的推理;第二,挖掘?qū)ο笮柽M(jìn)行預(yù)處理,并轉(zhuǎn)化成邏輯數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)發(fā)現(xiàn)有多種可用方法:利用分類和聚類分析可提供知識(shí)索引和發(fā)現(xiàn)特殊情況下的離群值和孤立點(diǎn),知識(shí)索引可細(xì)化知識(shí)所屬領(lǐng)域和確定挖掘范圍,離群值和孤立點(diǎn)可為挖掘人員提供歸納的線索,若其存在一定規(guī)律則可得出模型、規(guī)則;使用模糊技術(shù)、統(tǒng)計(jì)方法可得出對(duì)高校決策的評(píng)測(cè)分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識(shí)發(fā)現(xiàn)中的主要特征,結(jié)合已有知識(shí)庫(kù)對(duì)不確定、不精準(zhǔn)的知識(shí)進(jìn)行細(xì)化;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大量數(shù)據(jù)集各字段中潛在的聯(lián)系。以關(guān)聯(lián)規(guī)則的使用為例,選擇 Apriori 算法,挖掘目的是發(fā)現(xiàn)學(xué)生學(xué)習(xí)情況中的潛在知識(shí)。首先從數(shù)據(jù)倉(cāng)庫(kù)中選出與學(xué)生課程成績(jī)相關(guān)的數(shù)據(jù)集,包括姓名、院系、性別、課程號(hào)、課程類別、成績(jī)等字段,進(jìn)行預(yù)處理,將字段中的取值轉(zhuǎn)化為邏輯值,代表不同語(yǔ)義,如:性別字段,男設(shè)值 1,女設(shè)值 2。操作人員設(shè)置最小支持度、置信度,通過(guò)數(shù)據(jù)挖掘工具進(jìn)行挖掘,得出關(guān)聯(lián)規(guī)則并進(jìn)行解釋。若結(jié)果顯示 XX 院系、男生、A 類別 => 成績(jī)優(yōu)秀構(gòu)成管理規(guī)則,則表示XX院系的男生對(duì)于A類別科目較感興趣,學(xué)習(xí)成績(jī)優(yōu)秀,可在歸納后存入知識(shí)倉(cāng)庫(kù)。
知識(shí)內(nèi)化、中介
知識(shí)內(nèi)化是發(fā)現(xiàn)特定人員知識(shí)需求,并為其提供相應(yīng)知識(shí)的過(guò)程,內(nèi)化的關(guān)鍵是對(duì)知識(shí)的聚類、對(duì)人員的興趣挖掘。知識(shí)中介是指組織中存在一定量無(wú)法編碼儲(chǔ)存的知識(shí),針對(duì)這些知識(shí),通過(guò)一定手段,將知識(shí)的需求者與知識(shí)來(lái)源進(jìn)行匹配,為兩者提供交流的途徑。數(shù)據(jù)挖掘在知識(shí)內(nèi)化、中介中所起的作用主要是對(duì)高校人員特征的挖掘。在利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識(shí)后,通過(guò)知識(shí)管理平臺(tái)進(jìn)行分類存儲(chǔ)、添加索引,作為備選。對(duì)高校人員數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行挖掘,可利用聚類分析、預(yù)測(cè)模型等,得出特定人員的特長(zhǎng)領(lǐng)域、興趣愛(ài)好,從而根據(jù)先前設(shè)置的知識(shí)索引為其提供信息。若定期對(duì)人員特征數(shù)據(jù)進(jìn)行挖掘,并根據(jù)結(jié)果為高校人員推送相關(guān)知識(shí)、信息,即可實(shí)現(xiàn)個(gè)性化推送,其推送內(nèi)容由人員特征數(shù)據(jù)決定。高校組織中擁有大量教授、學(xué)者,其所擁有的知識(shí)是一筆巨大財(cái)富,加強(qiáng)相關(guān)領(lǐng)域間人員的交流、溝通,可以促進(jìn)知識(shí)共享、創(chuàng)新,提升組織綜合實(shí)力,這正是知識(shí)管理中介職能的作用。通過(guò)上文中相同的挖掘方法,在對(duì)教授、學(xué)者特征進(jìn)行挖掘后,對(duì)他們的研究方向進(jìn)行聚類分析,由挖掘結(jié)果,為相關(guān)人員提供合適的建議、利用知識(shí)管理平臺(tái)為特征相似或同一聚類中的教授、學(xué)者提供交流的途徑,進(jìn)而促進(jìn)知識(shí)的共享。
數(shù)據(jù)挖掘技術(shù)推動(dòng)圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識(shí),是一種實(shí)體的知識(shí)倉(cāng)庫(kù)。對(duì)圖書館的有效管理有助于高校知識(shí)管理的實(shí)施。目前,已有不少圖書館專家將數(shù)據(jù)挖掘技術(shù)引入圖書館管理,提出了針對(duì)圖書館的數(shù)據(jù)挖掘應(yīng)用理論。圖書館數(shù)據(jù)挖掘?qū)ο笾饕ㄈ齻€(gè):1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過(guò)對(duì)三者挖掘結(jié)果的綜合,可為圖書館資源建設(shè)、讀者服務(wù)、個(gè)性化服務(wù)提供幫助。根據(jù)挖掘結(jié)果分析,可做到客觀、合理引入資源,做到讓數(shù)據(jù)說(shuō)話而不是讓管理人員說(shuō)話,減少了管理人員個(gè)體的主觀影響,使高校圖書館經(jīng)費(fèi)發(fā)揮最大效用;提升讀者服務(wù)質(zhì)量,在讀者進(jìn)行檢索時(shí)減少等待時(shí)間,改變以往被動(dòng)檢索的情況,通過(guò)用戶數(shù)據(jù)挖掘?yàn)橛脩籼峁┲鲃?dòng)的信息推送;提供個(gè)性化服務(wù),以挖掘結(jié)果為依據(jù),針對(duì)不同用戶提供不同服務(wù),比如不同的圖書館系統(tǒng)管理界面。
充分發(fā)揮管理職能
知識(shí)管理是一個(gè)系統(tǒng)工程,包含平臺(tái)開(kāi)發(fā)、體系構(gòu)建、文化培養(yǎng)等,其在實(shí)踐中設(shè)計(jì)大量的數(shù)據(jù)操作。數(shù)據(jù)挖掘技術(shù)可在知識(shí)管理的實(shí)踐過(guò)程中為各項(xiàng)信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識(shí)管理的周期時(shí)間。將高校知識(shí)管理與數(shù)據(jù)挖掘技術(shù)相結(jié)合可有效促進(jìn)知識(shí)管理具體操作中的工作效率。兩者的結(jié)合對(duì)高校人員管理具有積極作用,數(shù)據(jù)挖掘與知識(shí)管理在實(shí)踐中相互影響,提升操作人員素養(yǎng)。數(shù)據(jù)挖掘需要專業(yè)人員進(jìn)行操作,操作人員的綜合素養(yǎng)將決定挖掘成果的質(zhì)量。知識(shí)管理可有效促進(jìn)數(shù)據(jù)挖掘人員對(duì)知識(shí)的認(rèn)知,使操作人員對(duì)不同要求所對(duì)應(yīng)的挖掘技術(shù)、模型的選擇更為準(zhǔn)確,提升挖掘成果的質(zhì)量,使知識(shí)更加清晰、獨(dú)立、可接受。
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2012)12-0218-02
一、背景
“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”是國(guó)內(nèi)外高等院校一門重要的課程,是國(guó)家基礎(chǔ)教育較為重視的一門學(xué)科,受到不同專業(yè)學(xué)生的喜愛(ài)。其教學(xué)目標(biāo)是提高學(xué)生的數(shù)據(jù)分析水平和能力,除了教授學(xué)生數(shù)據(jù)分析的常見(jiàn)方法之外,還將引導(dǎo)學(xué)生如何對(duì)實(shí)際的問(wèn)題進(jìn)行建模,如何對(duì)模型進(jìn)行簡(jiǎn)化和求解。利用實(shí)例教學(xué)等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學(xué)生易于理解和接受。近年來(lái),數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來(lái)越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開(kāi)發(fā)、科學(xué)研究等方面都獲得了可喜的成果。運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對(duì)疾病的診斷、治療和醫(yī)學(xué)研究都是非常有價(jià)值的。因此,我們學(xué)院也把這門課程作為計(jì)算機(jī)專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計(jì)算機(jī)與醫(yī)學(xué)結(jié)合,使得學(xué)生的培養(yǎng)方案全面包括了計(jì)算機(jī)與醫(yī)學(xué)的知識(shí)點(diǎn)。由于該課程原本屬于研究生階段開(kāi)設(shè)的專業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進(jìn)等理論知識(shí),其中所涉及的內(nèi)容大多比較深,許多知識(shí)都超出了本科生的接受范圍,此外,教材對(duì)相關(guān)理論在實(shí)際應(yīng)用方面的說(shuō)明也比較少,不利于安排實(shí)驗(yàn)教學(xué)。因此要實(shí)現(xiàn)“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程的教學(xué)目標(biāo),必須在理論教學(xué)和實(shí)驗(yàn)教學(xué)環(huán)節(jié)綜合考慮學(xué)時(shí)多少、教學(xué)條件以及學(xué)生的接受情況等因素,靈活地加以選擇安排。
二、存在的問(wèn)題
主要包括以下幾方面:①課堂上以教師講、學(xué)生聽(tīng)的教學(xué)形式為主,學(xué)生學(xué)習(xí)處于被動(dòng)狀態(tài),他們的創(chuàng)造性因此被嚴(yán)重扼殺;②教師對(duì)專業(yè)課程體系和學(xué)生的知識(shí)體系不夠重視,對(duì)課程體系的講解不到位,造成學(xué)生在學(xué)習(xí)時(shí)課程之間聯(lián)系不上,知識(shí)銜接不好,對(duì)知識(shí)的運(yùn)用和融會(huì)貫通比較差;③實(shí)驗(yàn)與理論脫節(jié)?!皵?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程理論講授的算法與實(shí)驗(yàn)軟件中的算法有很大差距,使得學(xué)生難以理解。比如對(duì)于理論上講授的關(guān)聯(lián)規(guī)則算法,實(shí)驗(yàn)中使用SQL SERVER 2005中的商務(wù)智能工具做實(shí)驗(yàn),學(xué)生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學(xué)院校的學(xué)生對(duì)純粹計(jì)算機(jī)理論知識(shí)接受困難。由于該門課程是交叉學(xué)科,涉及計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等知識(shí),如果學(xué)生的其他學(xué)科學(xué)得不好,就會(huì)對(duì)該課程的學(xué)習(xí)產(chǎn)生障礙;⑤教師講授沒(méi)有把理論課程結(jié)合到實(shí)際應(yīng)用中。有很多學(xué)生不知道學(xué)習(xí)這門課的意義,老師沒(méi)有很好引導(dǎo)學(xué)生,激活他們的學(xué)習(xí)熱情。
三、目標(biāo)驅(qū)動(dòng)的教學(xué)框架
對(duì)于以上問(wèn)題,本文提出了一個(gè)新的教學(xué)體系,設(shè)計(jì)了一套基于目標(biāo)驅(qū)動(dòng)的教學(xué)框架,把教師與學(xué)生緊密聯(lián)系起來(lái),從教學(xué)大綱的設(shè)置,教材的選擇,理論教學(xué),實(shí)驗(yàn)教學(xué),課程設(shè)計(jì)及畢業(yè)論文,全面引導(dǎo)學(xué)生從初步了解到深入學(xué)習(xí)的過(guò)程。對(duì)于我們學(xué)校的實(shí)際情況,有兩個(gè)專業(yè)的學(xué)生要學(xué)習(xí)這門課程。一個(gè)是計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),一個(gè)是信息管理與信息系統(tǒng)專業(yè)。對(duì)于兩個(gè)不同的專業(yè),我們?cè)O(shè)置不同的教學(xué)大綱。比如對(duì)于計(jì)算機(jī)專業(yè)的學(xué)生,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘教學(xué)總時(shí)數(shù)為72學(xué)時(shí),其中理論為54學(xué)時(shí),實(shí)驗(yàn)為36學(xué)時(shí)。
1.理論教學(xué)。對(duì)于信息管理與信息系統(tǒng)專業(yè)的學(xué)生,我們可以設(shè)置如下的教學(xué)計(jì)劃,可分為三個(gè)主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),包括數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本概念和相關(guān)知識(shí)介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實(shí)際應(yīng)用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過(guò)該課程的學(xué)習(xí),要求學(xué)生掌握數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本概念,了解基本方法和應(yīng)用背景。掌握數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和建立,掌握數(shù)據(jù)挖掘的主要步驟和實(shí)現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實(shí)現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學(xué)時(shí)的安排,第一章緒論(6學(xué)時(shí));第二章數(shù)據(jù)倉(cāng)庫(kù)(4學(xué)時(shí));第三章數(shù)據(jù)預(yù)處理(8學(xué)時(shí));第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型(8學(xué)時(shí));第五章數(shù)據(jù)挖掘中常用算法(12學(xué)時(shí));第六章數(shù)據(jù)挖掘的工具及其應(yīng)用(8學(xué)時(shí));第七章數(shù)據(jù)挖掘應(yīng)用實(shí)例(8學(xué)時(shí))。
2.實(shí)驗(yàn)教學(xué)。本課程配合理論教學(xué),通過(guò)系統(tǒng)的實(shí)踐教學(xué)鍛煉,著重培養(yǎng)學(xué)生的獨(dú)立分析問(wèn)題和解決問(wèn)題的能力,熟練掌握數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和建立以及各類數(shù)據(jù)挖掘方法,使學(xué)生具有一定的數(shù)據(jù)分析和挖掘能力,能在認(rèn)識(shí)基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實(shí)際例子,寫出解決方案。學(xué)生應(yīng)在實(shí)驗(yàn)課前明確實(shí)驗(yàn)的目的和要求,然后針對(duì)相關(guān)問(wèn)題寫出解決方案。實(shí)驗(yàn)時(shí)對(duì)實(shí)際方案的運(yùn)行結(jié)果應(yīng)能進(jìn)行分析并提出改進(jìn)方法,最終寫出實(shí)驗(yàn)報(bào)告。通過(guò)實(shí)驗(yàn)教學(xué)應(yīng)達(dá)到以下基本要求:①理解數(shù)據(jù)倉(cāng)庫(kù)的工作機(jī)理及其構(gòu)建過(guò)程;②掌握典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)及其開(kāi)發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實(shí)際問(wèn)題。實(shí)驗(yàn)成績(jī)包括:實(shí)驗(yàn)教學(xué)過(guò)程成績(jī)、實(shí)驗(yàn)報(bào)告成績(jī),各占50%。實(shí)驗(yàn)過(guò)程表現(xiàn)成績(jī)包括:學(xué)習(xí)態(tài)度是否認(rèn)真、實(shí)驗(yàn)操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識(shí)等方面。實(shí)驗(yàn)報(bào)告成績(jī)包括:實(shí)驗(yàn)報(bào)告格式是否正確、原理是否論述清楚、實(shí)驗(yàn)結(jié)果分析討論是否符合邏輯,報(bào)告字跡是否清楚等方面。
3.課程設(shè)計(jì)。理論課和實(shí)驗(yàn)課接近結(jié)束時(shí),我們把最后三周作為本門課程的課程設(shè)計(jì)。課程設(shè)計(jì)的目的是讓學(xué)生進(jìn)一步深刻理解所學(xué)知識(shí)。由于本門課程很多算法不容易理解,如何讓學(xué)生把所學(xué)知識(shí)結(jié)合到醫(yī)學(xué)應(yīng)用中是課程設(shè)計(jì)的關(guān)鍵。比如我們對(duì)信息管理與信息系統(tǒng)專業(yè)的學(xué)生課程設(shè)計(jì),要求學(xué)生每人選擇一個(gè)老師給定的題目,課程設(shè)計(jì)有詳細(xì)的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學(xué)診斷中的應(yīng)用”要求學(xué)生能把本門課程相關(guān)的算法結(jié)合使用,最后給出詳細(xì)的分析。通過(guò)課程設(shè)計(jì),我們發(fā)現(xiàn),學(xué)生對(duì)本門課程更有興趣。
4.畢業(yè)論文。我們把課程一般開(kāi)設(shè)在大三的下學(xué)期,也就是說(shuō)學(xué)生學(xué)完這門課程后,就做了該門課的課程設(shè)計(jì),使得學(xué)生對(duì)數(shù)據(jù)挖掘相關(guān)知識(shí)有了比較深刻的認(rèn)識(shí)。這樣,我們可以引導(dǎo)學(xué)生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學(xué)生大學(xué)四年所學(xué)知識(shí),也對(duì)他們將來(lái)就業(yè)起到提前培訓(xùn)的作用。把理論結(jié)合實(shí)踐,老師對(duì)學(xué)生的引導(dǎo)也十分重要。
我們根據(jù)醫(yī)學(xué)院校的特征,提出了一套目標(biāo)驅(qū)動(dòng)的教學(xué)理念,從學(xué)生認(rèn)識(shí)這門課程到學(xué)生理論課的學(xué)習(xí),實(shí)驗(yàn)課的學(xué)習(xí),課程設(shè)計(jì)及畢業(yè)論文的完成,在老師的指導(dǎo)下,使用我們的考核體系,可提高學(xué)生對(duì)所學(xué)課程的興趣。