24h購物| | PChome| 登入
2008-11-03 14:11:05| 人氣1,397| 回應0 | 上一篇 | 下一篇

Yahoo 的 豬-- Project:Pig

推薦 0 收藏 0 轉貼0 訂閱站台


這是一篇封存了一陣子的文章,在今天跟一家公司談了以後,對 cloud 又燃起了希望,最近會把這類的文章都整理一下,原來不止有 Internet company 可以玩 cloud ,這一塊走了三年…孤單的三個年頭!! <---- Chris 在抱怨了!!!

這一個 project 在 Yahoo project 裡的 Website :http://research.yahoo.com/node/90

話說 Yahoo 的 pig  是一個運行在Hadoop( Doug Cutting 在06年3月份加入了 Yahoo )上的並行處理架構,有了 Pig 使得普通的程序員具有了分析處理 Giga 級的數據處理的能力。

Pig目前還是apache的一個待發展中的項目,


Pig 主頁:http://incubator.apache.org/pig/


Pig wiki:http://wiki.apache.org/pig/


Yahoo Pig 有如下特點:
1
、專注於大量資料集分析(a solution that has been custom designed for a specific problem);
2
、運行在 Cluster 的計算平台架構上,Yahoo Pig 提供了抽象、簡化平行計算讓普通用戶使用;這些抽象自動把用戶請求 queries ,並翻譯成有效的並行計畫,然後在 physical Cluster 上執行這些計畫
3
、提供類似 SQL 的操作語法
4
、開放源代碼

以下採自 Pig 專案網站對 Pig 的說明:

The highest abstraction layer in Pig is a query language interface, whereby users express data analysis tasks as queries, in the style of SQL or Relational Algebra. Queries articulate data analysis tasks in terms of set-oriented transformations, e.g. apply a function to every record in a set, or group records according to some criterion and apply a function to each group. Set-oriented transformations are inherently amenable to parallel evaluation, because the processing logic for each record (or group of records) is self-contained, and the order in which outputs are produced is immaterial. The layers between the query interface and the raw cluster hardware are responsible for planning and executing efficient parallel evaluation strategies for queries. In designing these intermediate layers, we focus on re-use of derived data, joint evaluation of multiple (sub) queries, and intelligent data placement and replication strategies.

台長: 克理斯 在 Internet!
人氣(1,397) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 數位資訊(科技、網路、通訊、家電)

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文