什么是數(shù)據(jù)挖掘?數(shù)字挖掘的概念是什么?數(shù)據(jù)挖掘一般要經(jīng)歷哪些流程?下面是有關(guān)數(shù)字挖掘的介紹。
據(jù)了解,數(shù)據(jù)挖掘理論涉及到的面很廣,它實際上起源于多個學科,可以簡單的理解為從大量數(shù)據(jù)中提取或挖掘知識或者說是知識發(fā)現(xiàn)。
數(shù)據(jù)挖掘應(yīng)用了眾多領(lǐng)域的思想,包括來自統(tǒng)計學的抽樣、估計和假設(shè)檢驗;來自人工智能、模式識別和機器學習的搜索算法、建模技術(shù)和學習理論等。
數(shù)據(jù)挖掘一般經(jīng)歷以下幾個流程:
1. 解讀需求
絕大多數(shù)的數(shù)據(jù)挖掘工程都是針對具體領(lǐng)域的,因此數(shù)據(jù)挖掘工作人員不應(yīng)該沉浸在自己的世界里YY算法模型,而應(yīng)該多和具體領(lǐng)域的專家交流合作以正確的解讀出項目需求。這種合作應(yīng)當貫穿整個項目生命周期。
2. 搜集數(shù)據(jù)
在大型公司,數(shù)據(jù)搜集大都是從其他業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫提取。很多時候我們是對數(shù)據(jù)進行抽樣,在這種情況下必須理解數(shù)據(jù)的抽樣過程是如何影響取樣分布,以確保評估模型環(huán)節(jié)中用于訓練(train)和檢驗(test)模型的數(shù)據(jù)來自同一個分布。
3. 預(yù)處理數(shù)據(jù)
預(yù)處理數(shù)據(jù)可主要分為數(shù)據(jù)準備和數(shù)據(jù)歸約兩部分。其中前者包含了缺失值處理、異常值處理、歸一化、平整化、時間序列加權(quán)等;而后者主要包含維度歸約、值歸約、以及案例歸約。后面兩篇博文將分別講解數(shù)據(jù)準備和數(shù)據(jù)歸約。
4. 評估模型
確切來說,這一步就是在不同的模型之間做出選擇,找到最優(yōu)模型。很多人認為這一步是數(shù)據(jù)挖掘的全部,但顯然這是以偏概全的,甚至絕大多數(shù)情況下這一步耗費的時間和精力在整個流程里是最少的。
5. 解釋模型
數(shù)據(jù)挖掘模型在大多數(shù)情況下是用來輔助決策的,人們顯然不會根據(jù)"黑箱模型"來制定決策。如何針對具體環(huán)境對模型做出合理解釋也是一項非常重要的任務(wù)。
以上就是有關(guān)什么是數(shù)據(jù)挖掘?數(shù)字挖掘有哪些流程的介紹。