24h購物| | PChome| 登入
2008-08-03 04:26:11| 人氣451| 回應0 | 上一篇 | 下一篇

Search Engine 用的 Crawler 開發里程碑紀錄!!!

推薦 0 收藏 0 轉貼0 訂閱站台

97 年 8 月 1 日 (西元 2008 年) , 測試完成一台主機可以產生 3000 個 Thread 的 Crawler 主機,並且可以做垂直挖擷資訊和分析向下及向外的網頁連結 , 經過測試瓶頸在於大量的網址的分析。

開發時程:10個工作日 + (每天加班 六小時+ 假日停休)

solve:網頁的網碼問題、單機程序問題、解決結構性的網頁資料分析
多執行序平行運算問題

bugs : Javascript 的部分會 lost 掉!
對於錯誤控制的部分太少

nex step :處理內容重覆性比對

但書:不在 公司的工作項中....

但,自己撥時間發展!!! GO.

台長: 克理斯 在 Internet!
人氣(451) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 不分類 | 個人分類: 工作 |
此分類下一篇:匯通天下 , 貨通天下 ~~
此分類上一篇:好累~ 但我知道目標

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文