免费黄色应用_丝瓜视频黄色app_要灬要灬再深点受不了的视频_青青青线在线观看

分布式與并行數(shù)據(jù)挖掘的比較

分布式與并行數(shù)據(jù)挖掘的比較 百恒物聯(lián) 2018-07-18 2344

分布式與并行數(shù)據(jù)挖掘的比較


  云計算相關(guān)技術(shù)的飛速發(fā)展和高速寬帶網(wǎng)絡(luò)的廣泛使用,使得實際應(yīng)用中分布式數(shù)據(jù)挖掘的需求不斷增長。分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與分布式計算技術(shù)的有機結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn),它是物聯(lián)網(wǎng)要求的數(shù)據(jù)挖掘,是在網(wǎng)絡(luò)中挖掘出來的。通過與云計算技術(shù)相結(jié)合,可能會產(chǎn)生更多、更好、更新的數(shù)據(jù)挖掘方法和技術(shù)手段。


  分布式數(shù)據(jù)挖掘


  1、分布式數(shù)據(jù)挖掘的優(yōu)點


  考慮到商業(yè)競爭和法律約束等多方面的因素,在許多情況下,為了保證數(shù)據(jù)挖掘的安全性和容錯性,需要保護(hù)數(shù)據(jù)隱私,將所有數(shù)據(jù)集中在一起進(jìn)行分析往往是不可行的。分布式數(shù)據(jù)挖掘系統(tǒng)能將數(shù)據(jù)合理地劃分為若干個小模塊,并由數(shù)據(jù)挖掘系統(tǒng)并行處理,最后將各個局部的處理結(jié)果合成最終的輸出模式,這樣做可以充分利用分布式計算的能力和并行計算的效率,對相關(guān)的數(shù)據(jù)進(jìn)行分析與綜合,從而節(jié)省大量的時間和空間開銷。

  2、分布式數(shù)據(jù)挖掘面臨的問題


  ·算法方面:實現(xiàn)數(shù)據(jù)預(yù)處理中各種數(shù)據(jù)挖掘算法,以及多數(shù)據(jù)挖掘任務(wù)的調(diào)度算法。

  ·系統(tǒng)方面:能在對稱多處理機(Symmetrical Multi- Processing,SMP)、大規(guī)模并行處理機(Massively Parallel Processor,MPP)等具體的分布式平臺上實現(xiàn),考慮節(jié)點間負(fù)載平衡、減少同步與通信開銷、異構(gòu)數(shù)據(jù)集成等問題。

  3、分布式數(shù)據(jù)挖掘的系統(tǒng)分類


  按照不同的角度,分布式數(shù)據(jù)挖掘系統(tǒng)可以劃分為以下幾類。

  根據(jù)節(jié)點間數(shù)據(jù)分布情況是否同構(gòu),可分為同構(gòu)和異構(gòu)兩類。同構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的節(jié)點間數(shù)據(jù)的屬性空間相同,異構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的節(jié)點間數(shù)據(jù)具有不同的屬性空間。

  按照數(shù)據(jù)模式的生成方式,分布式數(shù)據(jù)挖掘系統(tǒng)可分為集中式、局部式和重分布式三類。

  ·在集中式分布式數(shù)據(jù)挖掘系統(tǒng)中,先把數(shù)據(jù)集中于中心點,再生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較高,但數(shù)據(jù)量較小的情況;

  ·在局部式分布式數(shù)據(jù)挖掘系統(tǒng)中,先在各節(jié)點處生成局部數(shù)據(jù)模式,然后將局部數(shù)據(jù)模式集中到中心節(jié)點生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較低,但效率較高的情形;

  ·在重分布式數(shù)據(jù)挖掘系統(tǒng)中,首先將所有數(shù)據(jù)在各個節(jié)點間重新分布,然后按照與局部式系統(tǒng)相同的方法生成數(shù)據(jù)模式。

  并行數(shù)據(jù)挖掘與分布式數(shù)據(jù)挖掘的比較


  并行數(shù)據(jù)挖掘系統(tǒng)與分布式數(shù)據(jù)挖掘系統(tǒng)都用網(wǎng)絡(luò)連接各個數(shù)據(jù)處理節(jié)點,網(wǎng)絡(luò)中的所有節(jié)點構(gòu)成一個邏輯上的統(tǒng)一整體,用戶可以對各個節(jié)點上的數(shù)據(jù)進(jìn)行透明存取。

  并行挖掘與分布式挖掘的不同點如下所述:


  1、應(yīng)用目標(biāo)不同

  并行數(shù)據(jù)挖掘中各個處理機節(jié)點并行完成數(shù)據(jù)挖掘任務(wù),以提高數(shù)據(jù)挖掘系統(tǒng)的整體性能;分布式數(shù)據(jù)挖掘?qū)崿F(xiàn)場地自治和數(shù)據(jù)的全局透明共享,而不要求利用網(wǎng)絡(luò)中的所有節(jié)點來提高系統(tǒng)的處理性能。

  2、實現(xiàn)方式不同

  并行數(shù)據(jù)挖掘中各節(jié)點間可以采用高速網(wǎng)絡(luò)連接,節(jié)點間的數(shù)據(jù)傳輸代價相對較低;分布式數(shù)據(jù)挖掘的各節(jié)點間一般采用局域網(wǎng)或廣域網(wǎng)相連,網(wǎng)絡(luò)帶寬較低,點到點的通信開銷較大。

  3、各節(jié)點的地位不同

  并行數(shù)據(jù)挖掘的各節(jié)點是非獨立的,在數(shù)據(jù)處理中只能發(fā)揮協(xié)同作用,而不能有局部應(yīng)用,適合算法內(nèi)并行;分布式數(shù)據(jù)挖掘系統(tǒng)的各節(jié)點除了能通過網(wǎng)絡(luò)協(xié)同完成全局事務(wù)外,每個節(jié)點都可以獨立運行自己的數(shù)據(jù)挖掘任務(wù),執(zhí)行局部應(yīng)用,具有高度的自治性,適合不同算法之間的并行。

  云計算通過廉價的PC服務(wù)器,可以管理大數(shù)據(jù)量與大集群,其關(guān)鍵技術(shù)在于能夠?qū)υ苾?nèi)的基礎(chǔ)設(shè)施進(jìn)行動態(tài)按需分配與管理。云計算的任務(wù)可以分割成多個進(jìn)程,在多臺服務(wù)器上并行計算,然后得到最終結(jié)果,其優(yōu)點是對大數(shù)據(jù)量的操作性能非常好。從用戶角度來看,并行計算是由單個用戶完成的,分布式計算是由多個用戶合作完成的,云計算是可以在沒有用戶參與指定計算節(jié)點的情況下,交給網(wǎng)絡(luò)另一端的云計算平臺的服務(wù)器節(jié)點自主完成計算的,這樣云計算就同時具備了并行計算與分布式計算的特征。
400-680-9298,0791-88117053
掃一掃關(guān)注百恒網(wǎng)絡(luò)微信公眾號
歡迎您的光顧,我們將竭誠為您服務(wù)×
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售前咨詢 售前咨詢
 
售后服務(wù) 售后服務(wù)
 
售后服務(wù) 售后服務(wù)
 
×