當前位置:首頁 » 數據倉庫 » hadoop資料庫表改名
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

hadoop資料庫表改名

發布時間: 2023-08-21 00:25:39

A. 有幾點關於hadoop的hive數據倉庫和hbase幾點疑惑,希望有高手可以幫忙解決一下,謝謝了!!!

首先感覺你有點亂。。。

你先明白數據倉庫的作用--存儲歷史數據-進而對數據進行分析,只提供查詢-不提供修改

1。Hive 的目標是做成數據倉庫,所以它提供了sql,提供了文件-表的映射關系,又由於Hive基於HDFS,所以不提供Update,因為HDFS本身就不支持。
2.HBase 是NoSQL資料庫-所以不要跟傳統混淆並談-NoSQL 提供的是另一種思路來滿足高性能的需求,而這些是傳統資料庫的短板,與傳統資料庫的理念不一樣
3.load data 這個可以自己去查。Hbase要使用自己的API
4.是的。
5.這句話不對。
6.映射就是結構對應-如文件每一行的第一個欄位-映射到Hive表的第一個欄位
類似Hibernate的語法解析。
Hive本身實現了一套語法結構也就是操作符。如掃描文件等,最終記本都會轉換成MapRece來運行

B. 如何使用Hadoop技術構建傳統數倉

基於企業級傳統數據倉庫應用的特點和要求,以及Hadoop技術的原理和特點,在使用Hadoop大數據平台實現傳統數倉應用的過程中,需要關注和解決的關鍵問題有很多,本文主要列舉在以下幾個核心問題和解決思路:模型和SQL支持、海量數據的存儲和高效計算、高並發查詢、事務支持。
1、模型和SQL支持
模型方面,原量收系統模型設計原則是基於中國郵政整體企業管理和業務管理的規則和流程,同時考慮到系統的擴展。為了便於理解,整個模型先按照數據倉庫典型方式劃分為介面貼源層、邏輯層和匯總層。介面貼源層按照介面來源各個系統進行劃分,系統模型和源系統模型基本保持一致;邏輯層和匯總層則按照主題域進行劃分。介面層模型與源業務系統基本一致,結構簡單,關聯度相對較低,大部分源業務系統使用Oracle資料庫。基礎層模型結構相對復雜,關聯度相對較高,系統使用Teradata資料庫,匯總層模型結構相對簡單,關聯度低,系統使用Teradata資料庫。
中國郵政大數據平台選用的底層產品全面支持Oracle數據表模型,支持大部分的Teradata模型。但在實踐過程中,從Teradata資料庫向Hadoop平台進行模型遷移時,還是有許多特殊語法需要進行修訂,下圖為Teradata語法與Hadoop平台語法的對比和轉換關系舉例:
表3-1 Teradata語法與Hadoop平台語法的對比和轉換關系舉例

SQL方面,系統的報表查詢和ETL加工採用了大量的復雜SQL。
中國郵政大數據平台選用的底層產品支持99%的ANSI SQL2003語法,也支持Oracle PL/SQL,包括完整的數據類型、流程式控制制、Package、游標、異常處理以及動態SQL執行,可以支持遷移大部分的語法和腳本。但在實踐過程中,從Teradata資料庫向Hadoop平台進行SQL遷移時,還是有許多特殊語法需要進行針對性改進,下表為Hadoop平台不支持的語法和問題舉例:
表3-2 Hadoop平台不支持的語法和問題舉例

上述問題需要在開發過程中進行針對性的產品更新或代碼更新
2、海量數據的存儲和高效計算
中國郵政大數據平台匯集了中國郵政各大業務系統的歷史業務數據,需要經過T+1的數據處理得到分析和計算結果進行展示。因此需要對海量數據進行存儲,並提供高效的數據計算。
中國郵政大數據平台的底層數據產品通過內存計算技術、高效索引、執行計劃優化和高度容錯的技術,能夠處理從TB的數據,並且在數據量級上都能提供比現有技術更快的性能。
底層平台基於Spark的分析引擎,從下往上包含三層架構,底層是分布式內存列式存儲,可建在內存或者SSD上,中間層是Spark計算引擎層,最上層包括一個完整的SQL99和PL/SQL編譯器、統計演算法庫和機器學習演算法庫。因此可以分析存儲在HDFS,HBase或者Holodesk分布式緩存中的數據,可以處理的數據量從GB到數十TB,即使數據源或者中間結果的大小遠大於內存,也可高效處理。
同時,採用跨內存/快閃記憶體等介質的分布式混合列式存儲,可用於緩存數據供Spark高速訪問。小內存+SSD+磁碟的新方案可以提供跟大內存+磁碟的傳統方案性能接近的互動式SQL分析能力。由於內存的價格是SSD的10倍,因此可以採用SSD來替代內存作為緩存,一方面可以增大分布式內存資料庫Holodesk存儲容量,另一方面可以降低成本,同時性能沒有明顯損失。
同時解決開源Spark在穩定性、可管理性和功能不夠豐富上的問題。平台對Spark進行了大量的改進,極大提高了Spark功能和性能的穩定性。能穩定的運行7*24小時,並能在TB級規模數據上高效進行各種穩定的統計分析。
3、高並發查詢
中國郵政大數據平台經過數據處理和匯總,為中國郵政各大業務板塊各及機構提供數據報表和數據查詢,用戶數超過5萬,並發數超過2千。因此需要解決高並查詢的性能和效率問題。
中國郵政大數據平台的底層數據產品支持使用大表交互等一系列復雜的SQL分析語法操作。同時支持多種索引,包括全局索引(Global Index)、局部索引(Local Index)、高維索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等;支持通過SQL進行復雜條件毫秒級高並發查詢。
主要通過使用索引來加快數據的查詢速度。包括三種索引:本地索引、全局索引、全文索引,支持索引的自動創建(在創建表時指定索引),也支持對已有表創建索引。索引的基本設計思想是對表中的需要經常作為查詢條件的列建立一個映射到主數據的索引。查詢時可以利用索引特性進行快速定位並返回查詢結果。實驗證明,通過使用索引,用戶查詢的響應速度可以達到原來的20~100倍。同時支持全局、局部、高維索引和高級過濾器,,滿足在線存儲和在線業務分析系統(OLAP)的低延時需求,實現高並發低延時的OLAP查詢。

C. Hadoop常見問題解答

Hadoop常見問題解答
(1)Hadoop適不適用於電子政務?為什麼?
電子政務是利用互聯網技術實現政府組織結構和工作流程的重組優化,建成一個精簡、高效、廉潔、公平的政府運作信息服務平台。因此電子政務肯定會產生相關的大量數據以及相應的計算需求,而這兩種需求涉及的數據和計算達到一定規模時傳統的系統架構將不能滿足,就需要藉助海量數據處理平台,例如Hadoop技術,因此可以利用Hadoop技術來構建電子政務雲平台。

總結一下,任何系統沒有絕對的適合和不適合,只有當需求出現時才可以決定,在一個非常小的電子政務系統上如果沒有打數據處理以及計算分析需求時就不需要hadoop這樣的技術,而實際上,商用的電子政務平台往往涉及到大規模的數據和大量的計算分析處理需求,因此就需要Hadoop這樣的技術來解決。(2)hadoop對於實時在線處理有優勢嗎?
直接使用hadoop進行實時處理時沒有優勢的,因為Hadoop主要解決的是海量批處理作業計算問題,但是可以使用基於Hadoop的分布式NOSQL系統HBase系統以及相關實時處理系統:
1. 基於Hadoop的HBase可以做到實時處理以及相關需求的實時計算,主要解決海量<key,value>相關查詢計算等需求。
2. 可以考慮Spark計算,Spark是基於共現內存RDD的系統,比Hadoop更快,時候迭代式計算,例如數據挖掘,機器學習演算法等。
3. 還有Storm,Storm是一個免費開源、分布式、高容錯的實時計算系統,Storm經常用於在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。
4. 考慮S4, S4是Yahoo!在2010年10月開源的一套通用、分布式、可擴展、部分容錯、具備可插拔功能的平台。這套平台主要是為了方便開發者開發處理流式數據(continuous unbounded streams of data)的應用。
你可以依據實際的需求來選擇合適的系統。
(3)Hadoop存儲海量數據沒有問題,但是如何能夠做到海量數據的實時檢索?
1,可以結合開源的搜索引擎Apache Lucene,Solr 或ElasticSearch
2,海量數據的實時檢索可以考慮HBase,建議可以使用hadoop將數據構建成以查詢key為鍵的數據集,然後將<key, value>集合寫入Hbase表中,Hbase會自動以key為鍵進行索引,在數十億甚至以上的級別下,查詢key的value響應時間也估計再10毫秒內。
如果檢索條件是多個組合的情況下,可以適當的設計多個hbase表格,這樣的檢索也是很快的,同時Hbase也是支持二級索引。在符合條件下查詢,Hbase也是支持MapRece的,如果對響應時間要求不高的情況下,可以考慮將hive和Hbase系統結合來使用。
如果數據量不是很大的情況下也可以考慮支持類似SQL的NOSLQ系統。
(4)能不能給點hadoop的學習方法以及學習規劃,hadoop系統有點龐大,感覺無從學起?
首先搞清楚什麼是hadoop以及hadoop可以用來做什麼?
然後,可以從最經典的詞頻統計程序開始,初步了解MapRece的基本思路和處理數據的方式。
接著,就可以正式學習hadoop的基本原理,包括HDFS和MapRece,先從整體,宏觀核心原理看,先別看源碼級別。
進一步,就可以深入HDFS和MapRece和模塊細節,這個時候可以結合源碼深入理解,以及實現機制。
最後就是需要實戰了,可以結合自己的項目或者相關需求來完成一些hadoop相關應用。
(5) 大的文件拆分成很多小的文件後,怎樣用Hadoop進行高效的處理這些小文件?以及怎樣讓各個節點盡可能的負載均衡?
1. 怎樣用Hadoop進行高效的處理這些小文件?
你這個問題提的很好,hadoop在處理大規模數據時是很高效的,但是處理大量的小文件時就會因為系統資源開銷過大而導致效率較低,針對這樣的問題,可以將小文件打包為大文件,例如使用SequcenFile文件格式,例如以文件簽名為key,文件內容本身為value寫成SequcenFile文件的一條記錄,這樣多個小文件就可以通過SequcenFile文件格式變為一個大文件,之前的每個小文件都會映射為SequcenFile文件的一條記錄。
2. 怎樣讓各個節點盡可能的負載均衡?
在hadoop集群中負載均衡是非常關鍵的,這種情況的導致往往是因為用戶的數據分布的並不均衡,而計算資源槽位數確實均衡分布在每個節點,這樣在作業運行時非本地任務會有大量的數據傳輸,從而導致集群負載不均衡,因此解決不均衡的要點就是將用戶的數據分布均衡,可以使用hadoop內置的balancer腳本命令。
對於因為資源調度導致的不均衡則需要考慮具體的調度演算法和作業分配機制。
(6)c/c++ 程序員如何入門Hadoop到深入了解,並在Linux伺服器上布置運用,有沒有方向性的指導?
針對C/C++用戶,Hadoop提供了hadoop streaming介面和pipes介面,hadoop streaming介面以標准輸入和標准輸出作為用戶程序和hadoop框架交互的中間件,pipes這是專門針對C/C++語言的介面,以socket作為同學中介。
從使用上建議從streaming入手,pipes相比streaming問題比較多,而且pipes調試不容易。
(7)現在企業中使用Hadoop版本主要是1.x還是2.x?
目前網路,騰訊,阿里為主的互聯網公司都是以hadoop 1.X為基準版本的,當然每個公司都會進行自定義的二次開發以滿足不同的集群需求。
2.X在網路內部還沒有正式使用,還是以1.X為主,不過網路針對1.X的問題開發了HCE系統(Hadoop C++ Expand系統)
補充,Hadoop2.x在其他公司應用的很多,比如京東
(8)以後想從事大數據方面工作,演算法要掌握到什麼程度,演算法佔主要部分嗎?
首先,如果要從事大數據相關領域的話,hadoop是作為工具來使用的,首先需要掌握使用方法。可以不用深入到hadoop源碼級別細節。
然後就是對演算法的理解,往往需要設計到數據挖掘演算法的分布式實現,而演算法本身你還是需要理解的,例如常用的k-means聚類等。
(9)現在spark,storm越來越火,谷歌也發布了Cloud Dataflow,是不是Hadoop以後主要應該學習hdfs和yarn,而且以後Hadoop程序員的主要做的就是把這些東西打包,只提供介面讓普通的程序員也能使用,就像Cloudera和Google一樣?
這位同學,你多慮了,hadoop和spark, strom是解決不同的問題,不存在哪個好那個壞,要學習Hadoop還是以主流的hadoop-1.X為版本,2.X最主要的就是多了yarn框架,很好理解的。
如果你是hadoop本身研發建議都看,如果你是hadoop應用相關研發,看主流的1.X就行,我的書《Hadoop核心技術》是以主流的1.X為版本講解的,有興趣可以看看。
(10)小白問一句,大數據處理都是伺服器上安裝相關軟體嗎,對程序有什麼影響呢,集群、大數據是屬於運維的工作內容還是攻城獅的呢?
傳統的程序只能運行在單機上,而大數據處理這往往使用分布式編程框架編寫,例如hadoop maprece,只能運行在hadoop集群平台上。
運維的責任:保證集群,機器的穩定性和可靠性
hadoop系統本身研發:提高Hadoop集群的性能,增加新功能。
大數據應用:把hadoop作為工具,去實現海量數據處理或者相關需求。
(11)學習hadoop該怎麼入手呢?應該做一些什麼樣的項目呢?
可以參考我上面的幾個回答,可以從最簡單詞頻統計程序入手,然後學習理解HDFS和MapRece的基本原理和核心機制,如果僅僅把Hadoop作為一個工具來使用的話這樣就可以了,最重要的就是實戰了,可以嘗試使用Hadoop處理一些數據,例如做日誌分析,數據統計,排序,倒排索引等典型應用。
(12)100個以上hadoop節點,一般怎麼開發,運維?任務很多的情況下任務資源怎麼分配,任務執行順序是定時腳本還是別的什麼方式控制?
1. 首先大數據的應用開發和hadoop集群的規模是沒有關系,你指的是集群的搭建和運維嗎,對於商用的hadoop系統來說涉及到很多東西,建議參考《hadoop核心技術》實戰篇 「第10章Hadoop集群搭建 」 章節。
2. 任務的分配是有hadoop的調度器的調度策略決定的,默認為FIFO調度,商業集群一般使用多隊列多用戶調度器,可以參考參考《hadoop核心技術》高級篇 「第9章Hadoop作業調度系統」 章節。
3. 任務的執行順序是有用戶控制的,你自然可以定時啟動,也可以手動啟動。
(13)基於Hadoop做開發,是否必須會使用Java,使用其他開發語言是否無法更好的融入整個Hadoop的開發體系?
基於Hadoop做開發可以使用任何語言,因為hadoop提高了streaming編程框架和pipes編程介面,streaming框架下用戶可以使用任何可以操作標准輸入輸出的計算機語言來開發hadoop應用。
(14)在rece階段老是卡在最後階段很長時間,在網上查的說是有可能是數據傾斜,我想問這個有啥解決方法嗎?
1,你這個就是數據傾斜啊 好多數據都集中在一個rece里 其他rece里分配的數據比較少 默認情況下決定哪些數據分配到哪個rece是由rece個數和partiiton分區決定的 默認是對key進行hash運算 一般情況下用mapreuce傾斜很少 除非你用的HIVE
2,rece分為3個子階段:shuffle、sort和rece,如果rece整個過程耗時較長,建議先看一下監控界面是卡在哪個階段,如果是卡在shuffle階段往往是網路阻塞問題,還有就是某rece數據量太大,也就是你所說的數據傾斜問題,這種問題往往因為某個key的value太多,解決方法是:第一,默認的partiiton可能不適合你的需求,你可以自定義partiiton;第二就是在map端截斷,盡量讓達到每個rece端的數據分布均勻。
(15)非大數據的項目能否用hadoop?
非大數據項目是否可以用Hadoop的關鍵問題在於是否有海量數據的存儲,計算,以及分析挖掘等需求,如果現有系統已經很好滿足當前需求那麼就沒有必要使用Hadoop,沒有必要使用並不意味這不能使用Hadoop,很多傳統系統能做的Hadoop也是可以做的,例如使用HDFS來代替LINUX NFS,使用MapRece來代替單伺服器的統計分析相關任務,使用Hbase代替Mysql等關系資料庫等,在數據量不大的情況下通常Hadoop集群肯定比傳統系統消耗更多的資源。
(16)hadoop maprece 和第三方資源管理調度系統如何集成?
Hadoop的調度器設計的一個原則就是可插拔式調度器框架,因此是很容易和第三方調度器集成的,例如公平調度器FairScheler和容量調度器CapacityScheler,並配置mapred-site.xml的maprece.jobtracker.taskscheler以及調度器本身的配置參數,例如公平調度器控制參數則需要編輯fair- scheler.xml進行配置,具體可以參考我的新書《Hadoop核心技術》實戰篇第十章節10.11的集群搭建實例中的10.10.9 配置第三方調度器,同時可以進一步深入學習第9章 Hadoop作業調度系統,在這一章中會詳細介紹各種第三方調度器以及使用配置方法。

D. 漫談工業大數據9:開源工業大數據軟體簡介(上)

今天真是一個美好的時代,有無數的開源系統可以為我們提供服務,現在有許多開發軟體可以用到工業大數據中,當然很多系統還不成熟,應用到工業中還需要小心,並且需要開發人員對其進行一定的優化和調整。下面就簡單介紹一些開源的大數據工具軟體,看看有哪些能夠應用到工業大數據領域。

下面這張圖是我根據網上流傳的一張開源大數據軟體分類圖整理的:

我們可以把開源大數據軟體分成幾類,有一些可以逐步應用到工業大數據領域,下面就一一介紹一下這些軟體。(以下系統介紹大都來源於網路)

1、數據存儲類

(1)關系資料庫MySQL

這個就不用太多介紹了吧,關系型資料庫領域應用最廣泛的開源軟體,目前屬於 Oracle 旗下產品。

(2)文件資料庫Hadoop

Hadoop是大數據時代的明星產品,它最大的成就在於實現了一個分布式文件系統(Hadoop Distributed FileSystem),簡稱HDFS。HDFS有高容錯性的特點,並且設計用來部署在低廉的硬體上,而且它提供高吞吐量來訪問應用程序的數據,適合那些有著超大數據集的應用程序。

Hadoop可以在工業大數據應用中用來作為底層的基礎資料庫,由於它採用了分布式部署的方式,如果是私有雲部署,適用於大型企業集團。如果是公有雲的話,可以用來存儲文檔、視頻、圖像等資料。

(3)列資料庫Hbase

HBase是一個分布式的、面向列的開源資料庫,HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關系資料庫,它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。

基於Hbase開發的OpenTSDB,可以存儲所有的時序(無須采樣)來構建一個分布式、可伸縮的時間序列資料庫。它支持秒級數據採集所有metrics,支持永久存儲,可以做容量規劃,並很容易的接入到現有的報警系統里。

這樣的話,它就可以替代在工業領域用得最多的實時資料庫。

(4)文檔資料庫MongoDB

MongoDB是一個介於關系資料庫和非關系資料庫之間的產品,是非關系資料庫當中功能最豐富,最像關系資料庫的。他支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較復雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關系資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。

MongoDB適合於存儲工業大數據中的各類文檔,包括各類圖紙、文檔等。

(5)圖資料庫Neo4j/OrientDB

圖資料庫不是存放圖片的,是基於圖的形式構建的數據系統。

Neo4j是一個高性能的,NOSQL圖形資料庫,它將結構化數據存儲在網路上而不是表中。它是一個嵌入式的、基於磁碟的、具備完全的事務特性的Java持久化引擎,但是它將結構化數據存儲在網路(從數學角度叫做圖)上而不是表中。Neo4j也可以被看作是一個高性能的圖引擎,該引擎具有成熟資料庫的所有特性。程序員工作在一個面向對象的、靈活的網路結構下而不是嚴格、靜態的表中——但是他們可以享受到具備完全的事務特性、 企業級 的資料庫的所有好處。

OrientDB是兼具文檔資料庫的靈活性和圖形資料庫管理 鏈接 能力的可深層次擴展的文檔-圖形資料庫管理系統。可選無模式、全模式或混合模式下。支持許多高級特性,諸如ACID事務、快速索引,原生和SQL查詢功能。可以JSON格式導入、導出文檔。若不執行昂貴的JOIN操作的話,如同關系資料庫可在幾毫秒內可檢索數以百記的鏈接文檔圖。

這些資料庫都可以用來存儲非結構化數據。

2、數據分析類

(1)批處理MapRece/Spark

MapRece是一種編程模型,用於大規模數據集(大於1TB)的並行運算。概念"Map(映射)"和"Rece(歸約)",是它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會分布式並行編程的情況下,將自己的程序運行在分布式系統上。 當前的軟體實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對,指定並發的Rece(歸約)函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。

Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分布數據集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。盡管創建 Spark 是為了支持分布式數據集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoop 文件系統中並行運行。

這些大數據的明星產品可以用來做工業大數據的處理。

(2)流處理Storm

Storm是一個開源的分布式實時計算系統,可以簡單、可靠的處理大量的數據流。Storm有很多使用場景:如實時分析,在線機器學習,持續計算,分布式RPC,ETL等等。Storm支持水平擴展,具有高容錯性,保證每個消息都會得到處理,而且處理速度很快(在一個小集群中,每個結點每秒可以處理數以百萬計的消息)。Storm的部署和運維都很便捷,而且更為重要的是可以使用任意編程語言來開發應用。

(3)圖處理Giraph

Giraph是什麼?Giraph是Apache基金會開源項目之一,被定義為迭代式圖處理系統。他架構在Hadoop之上,提供了圖處理介面,專門處理大數據的圖問題。

Giraph的存在很有必要,現在的大數據的圖問題又很多,例如表達人與人之間的關系的有社交網路,搜索引擎需要經常計算網頁與網頁之間的關系,而map-rece介面不太適合實現圖演算法。

Giraph主要用於分析用戶或者內容之間的聯系或重要性。

(4)並行計算MPI/OpenCL

OpenCL(全稱Open Computing Language,開放運算語言)是第一個面向 異構系統 通用目的並行編程的開放式、免費標准,也是一個統一的編程環境,便於軟體開發人員為高性能計算 伺服器 、桌面計算系統、手持設備編寫高效輕便的代碼,而且廣泛適用於多核心處理器(CPU)、圖形處理器(GPU)、Cell類型架構以及數字信號處理器(DSP)等其他並行處理器,在 游戲 、 娛樂 、科研、醫療等各種領域都有廣闊的發展前景。

(5)分析框架Hive

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapRece任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapRece統計,不必開發專門的MapRece應用,十分適合數據倉庫的統計分析。

(6)分析框架Pig

Apache Pig 是apache平台下的一個免費開源項目,Pig為大型數據集的處理提供了更高層次的抽象,很多時候數據的處理需要多個MapRece過程才能實現,使得數據處理過程與該模式匹配可能很困難。有了Pig就能夠使用更豐富的數據結構。[2]

Pig LatinPig Latin 是一個相對簡單的語言,一條語句 就是一個操作,與資料庫的表類似,可以在關系資料庫中找到它(其中,元組代錶行,並且每個元組都由欄位組成)。

Pig 擁有大量的數據類型,不僅支持包、元組和映射等高級概念,還支持簡單的數據類型,如 int、long、float、double、chararray 和 bytearray。並且,還有一套完整的比較運算符,包括使用正則表達式的豐富匹配模式。