相關(guān)鏈接
大數(shù)據(jù)挖掘
由于我們公司專注工程智測的,所以我們經(jīng)常會遇到很多數(shù)據(jù),所以對這些大數(shù)據(jù)的處理,是一個智測公司必備的技能,我司能對數(shù)據(jù)采集、分析處理、各類可視化呈現(xiàn),有自己的特色。
數(shù)據(jù)挖掘是指在大量的數(shù)據(jù)中挖掘出信息,通過認真分析來揭示數(shù)據(jù)之間有意義的聯(lián)系、趨勢和模式。而數(shù)據(jù)挖掘技術(shù)就是指為了完成數(shù)據(jù)挖掘任務(wù)所需要的全部技術(shù)。金融、零售等企業(yè)已廣泛采用數(shù)據(jù)挖掘技術(shù),分析用戶的可信度和購物偏好等。大數(shù)據(jù)研究采用數(shù)據(jù)挖掘技術(shù),但是數(shù)據(jù)挖掘中的短期行為較多,多數(shù)是為某個具體問題研究應(yīng)用技術(shù),還無統(tǒng)一的理論。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)維度和規(guī)模增大時,所需資源呈現(xiàn)指數(shù)級增長,所以對PB級以上的大數(shù)據(jù)還需研究新的方法。
數(shù)據(jù)挖掘概述:
數(shù)據(jù)挖掘是近年來伴隨數(shù)據(jù)庫系統(tǒng)的大量建立和萬維網(wǎng)的廣泛應(yīng)用而發(fā)展起來的一門技術(shù)。數(shù)據(jù)挖掘是交叉性學(xué)科,它是數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)、統(tǒng)計學(xué)、人工智能、可視化分析、模式識別等多門學(xué)科的融合。
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含其內(nèi)的、人們實現(xiàn)所不知的,但又是有潛在價值的信息和知識的過程。幾點說明如下。
數(shù)據(jù)挖掘涉及數(shù)據(jù)融合、數(shù)據(jù)分析和決策支持等內(nèi)容。
數(shù)據(jù)源必須是真實的、大量的、含有噪聲的、用戶感興趣的數(shù)據(jù)。
發(fā)現(xiàn)的知識要可接受、可理解、可運用,并不要求發(fā)現(xiàn)放之四海而皆準的知識,僅支持特定的問題。
數(shù)據(jù)是知識的源泉,將概念、規(guī)則、模式、規(guī)律和約束等視為知識,這就好像從礦石中采礦或淘金一樣,從數(shù)據(jù)中獲取知識。
原始數(shù)據(jù)可以是結(jié)構(gòu)化數(shù)據(jù),如關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)等,也可以是非結(jié)構(gòu)化數(shù)據(jù),如文本、圖形和圖像等,還可以是半結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)頁等。
挖掘知識的方法可以是數(shù)學(xué)的方法,也可以是非數(shù)學(xué)的方法;可以是演繹的方法,也可以是歸納的方法。
挖掘的知識具有應(yīng)用的價值,可以用于信息管理、查詢優(yōu)化、決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。
數(shù)據(jù)挖掘是一門交叉學(xué)科,將人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。在需求推動下,不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計、可視化技術(shù)、并行計算等方面的知識融合后,形成新的研究熱點。
數(shù)據(jù)的挖掘首先是搜集數(shù)據(jù),數(shù)據(jù)越豐富越好,數(shù)據(jù)量越大越好,只有獲得足夠的高質(zhì)量的數(shù)據(jù),才能獲得確定的判斷,才能產(chǎn)生認知模型,這是量變到質(zhì)變的過程。由此產(chǎn)生經(jīng)驗,經(jīng)驗的積累就能產(chǎn)生有價值的判斷。認知模型是漸進發(fā)展的模型,當認識深入以后,將長生更加抽象的模型與許多猜想,通過猜想再擴展模型,從而達到深度學(xué)習(xí)和深度挖掘。
2. 數(shù)據(jù)挖掘分類
數(shù)據(jù)挖掘可以分為兩類:直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘。
(1)直接數(shù)據(jù)挖掘
直接數(shù)據(jù)挖掘的目標是利用可用的數(shù)據(jù)建立一個模型,利用這個模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中標的屬性,即列)進行描述。分類、估值、預(yù)測屬于直接數(shù)據(jù)挖掘。
(2)間接數(shù)據(jù)挖掘
間接數(shù)據(jù)挖掘目標中沒有選出某一具體的變量,用模型進行描述,而是在所有的變量中建立起某種關(guān)系。相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類、描述和可視化以及復(fù)雜數(shù)據(jù)類型挖掘。
3. 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)挖掘方法的集合,數(shù)據(jù)挖掘方法眾多。根據(jù)挖掘任務(wù)可將數(shù)據(jù)挖掘技術(shù)分為預(yù)測模型發(fā)現(xiàn)、聚類分析、分類與回歸、關(guān)聯(lián)分析、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)、離群點檢測等。根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web。根據(jù)挖掘方法可分為機器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。機器學(xué)習(xí)方法中,可細分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計方法中,可細分為回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別和非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細分為前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
數(shù)據(jù)挖掘應(yīng)用了來自其他一些領(lǐng)域的思想與算法,主要包括:
統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗。
人工智能、模式識別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。
最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索。
其他一些領(lǐng)域的技術(shù)也起到重要的支撐作用,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。高性能計算技術(shù)、并行計算技術(shù)、分布式技術(shù)也能幫助處理數(shù)據(jù),當數(shù)據(jù)不能集中到一起處理時更是至關(guān)重要。