1. 什麼是數據建模
數據建模是一個用於定義和分析在組織的信息系統范圍內支持商業流程所需的數據要求的過程。簡單來說,數據建模是基於對業務數據的理解和數據分析的需要,將各類數據進行整合和關聯,使得數據可以最終以可視化的方式呈現,讓使用者能夠快速地、高效地獲取到數據中有價值的信息,從而做出准確有效的決策。
之所以數據建模會變得復雜且難度大,是因為在建模過程中會引入數學公式或模型,用於確定數據實體之間的關聯關系。不同的業務邏輯和商業需求需要選擇不同的數學公式或模型,而且,一個好的數據模型需要通過多次的測試和優化迭代來完成,這就使得數據建模的難度變得很高。但是,數據分析中的建模並沒有想像中的那麼高深莫測,人人都可以做出適合自己的模型。
數據建模總歸是為了分析數據從而解決商業問題。如下圖數據建模的流程圖,數據建模核心部分是變數處理和模型搭建。
變數處理
模型搭建
在建模之前,首先要決定選擇哪些變數進行建模,主要從業務邏輯和數據邏輯兩方面來考慮。業務邏輯需要了解數據來源的背景,通過了解業務知識來判斷哪些變數在業務上很有價值的,哪些變數是可以選擇的。數據邏輯則是從數據的完整性,集中度,是否與其他變數強相關等角度來考慮。
除了選擇變數,對於一些變數的重構也是需要在建模前進行。例如客戶的滿意度有「滿意」「不滿意」,可以將其重構成數字「0」和「1」,便於後續建模使用。除此以外,還有將變數單獨計算(取平均值)和組合計算(如A*B)也是常用的重構方法,例如,缺失值以數據取平均值的方式替換。
在模型搭建時,會經歷選擇演算法、設定參數、載入演算法、測試結果四個過程。在這個過程中,測試結果會引導調整之前設定的參數,載入演算法會對應調整之前選擇的演算法,而選擇演算法時會考慮到已定的變數,如果變數不滿足演算法要求,還需回到選擇/重構變數,直至得到最合適的模型。
在優化模型的過程中,模型的解釋能力和實用性會不斷地提升。在結果輸出之後,還需接收業務人員的反饋,看看模型是否解決了他們的問題,如果沒有,還需進一步修改和調整。
MicroStrategy在數據領域深挖企業需求,經過多年的研究和沉澱,結合眾多復雜的應用場景,不斷更新體驗,深入開發各種數據輔助功能,使客戶可以一站式鏈接各類型數據資源,完成數據導入和數據建模。在MicroStrategy 平台中,既支持傳統方式數據建模,即通過Project Schema 來進行建模,又支持自助式數據導入的建模方式。
2. 什麼是資料庫模型
資料庫模型 資料庫模型(Database Model)是描述客觀事物及其聯系的一種手段,這種描述包括數據內容的描述和各類型實體數據之間的描述,它是資料庫設計的基礎。常用的資料庫模型有三種:層次模型(Hierarchical Model)、網路模型(Network Model)、關系模型(Relational Mode)。
3. 資料庫建模,概念模型、邏輯模型、物理模型的區別和轉化
關於資料庫理論中概念模型、邏輯模型、物理模型之間的區別。隨機復習上網並復習,並在此記錄一下,資料庫建模是對現實世界進行分析、抽象、並從中找出內在聯系,進而確定資料庫的結構。
1、概念模型:就是從現實世界到信息世界的第一層抽象,確定領域實體屬性關系等,使用握燃E-R圖表示,E-R圖主要是由實體、屬性和聯系三個要素構成的。
2、邏輯模型:是將概念模型轉化為具體的數據模型的過程,即按照概念結構設計階段建立的基本E-R圖,按選定的管理系統軟體支持的數據模型(層次、網狀、關系、面向對象),轉換成相應的邏輯模型。這種轉換要符合關系數據模型的原則。目前最流行就是關系模型(也就是對應的關系資料庫)
E-R圖向關系模型的轉換是要解決如何將實體和實體間的聯系轉換為關系,並確定這些關系空皮純的屬性和碼。這種轉換一般按下面的原則進行:
(1)一個實體轉換為一個關系,實體的屬性就是關系的屬性,實體的碼就是關系的碼。
(2)一個聯系也轉換為一個關系,聯系斗咐的屬性及聯系所連接的實體的碼都轉換為關系的屬性,但是關系的碼會根據聯系的類型變化,如果是:
1:1聯系,兩端實體的碼都成為關系的候選碼。
1:n聯系,n端實體的碼成為關系的碼。
m:n聯系,兩端實體碼的組合成為關系的碼。
3、物理模型就是根據邏輯模型對應到具體的數據模型的機器實現。物理模型是對真實資料庫的描述。如關系資料庫中的一些對象為表、視圖、欄位、數據類型、長度、主鍵、外鍵、索引、約束、是否可為空、默認值。
---------------------------------------------------------------------
概念設計就是設計E-R圖啊,物理(邏輯)設計就是把你的E-R圖中的實體,屬性轉換成關系模式
1.概念設計;對用戶要求描述的現實世界(可能是一個工廠、一個商場或者一個學校等),通過對其中住處的分類、聚集和概括,建立抽象的概念數據模型。這個概念模型應反映現實世界各部門的信息結構、信息流動情況、信息間的互相制約關系以及各部門對信息儲存、查詢和加工的要求等。所建立的模型應避開資料庫在計算機上的具體實現細節,用一種抽象的形式表示出來。以擴充的實體—(E-R模型)聯系模型方法為例,第一步先明確現實世界各部門所含的各種實體及其屬性、實體間的聯系以及對信息的制約條件等,從而給出各部門內所用信息的局部描述(在資料庫中稱為用戶的局部視圖)。第二步再將前面得到的多個用戶的局部視圖集成為一個全局視圖,即用戶要描述的現實世界的概念數據模型。
2.邏輯設計;主要工作是將現實世界的概念數據模型設計成資料庫的一種邏輯模式,即適應於某種特定資料庫管理系統所支持的邏輯數據模式。與此同時,可能還需為各種數據處理應用領域產生相應的邏輯子模式。這一步設計的結果就是所謂「邏輯資料庫」。
3.物理設計;根據特定資料庫管理系統所提供的多種存儲結構和存取方法等依賴於具體計算機結構的各項物理設計措施,對具體的應用任務選定最合適的物理存儲結構(包括文件類型、索引結構和數據的存放次序與位邏輯等)、存取方法和存取路徑等。這一步設計的結果就是所謂「物理資料庫」。
4.三者關系:由上到下,先要概念設計,接著邏輯設計,再是物理設計,一級一級設計。