說的簡單易懂一些,網絡爬蟲跟你使用的?離線閱讀?工具差不多。說離線,其實還是要跟網絡聯結,否則怎么抓東西下來?那么不同的地方在哪里?

1)網絡爬蟲高度可配置性。

2)網絡爬蟲可以解析抓到的網頁里的鏈接

3)網絡爬蟲有簡單的存儲配置

4)網絡爬蟲擁有智能的根據網頁更新分析功能

5)網絡爬蟲的效率相當的高

那么依據特征,其實也就是要求了,如何設計爬蟲呢?要注重哪些步驟呢?

1)url 的遍歷和紀錄

這點 larbin 做得非常的好,其實對于url的遍歷是很簡單的,例如:

cat [what you got]  tr \" \\n   gawk '{print $2}'   pcregrep ^http://

就可以得到一個所由的 url 列表

2)多進程 VS 多線程

各有優點了,現在一臺普通的PC 例如 booso.com 一天可以輕松爬下5個G的數據。大約20萬網頁。

3)時間更新控制

最傻的做法是沒有時間更新權重,一通的爬,回頭再一通的爬。

通常在下一次爬的的數據要跟上一次進行比較,假如連續5次都沒有變化,那么將爬這個網頁的時間間隔擴大1倍。

假如一個網頁在連續5次爬取的時候都有更新,那么將設置的爬取時間縮短為原來的1/2。

注重,效率是取勝的要害之一。

4)爬的深度是多少呢?

看情況了。假如你比較牛,有幾萬臺伺服器做網絡爬蟲,我勸您跳過這一點。

假如你同我一樣只有一臺伺服器做網絡爬蟲,那么這樣一個統計您應該知道:

網頁深度:網頁個數:網頁重要程度

0 : 1 : : 10

1 :20 : :8

2: :600: :5

3: :2000: :2

4 above: 6000: 一般無法計算

好了,爬到三級就差不多了,再深入一是數據量擴大了3/4倍,二是重要度確下降了許多,這叫做“種下的是龍種,收獲的是跳蚤。

5)爬蟲一般不之間爬對方的網頁,一般是通過一個Proxy出去,這個proxy有緩解壓力的功能,因為當對方的網頁沒有更新的時候,只要拿到 header 的 tag就可以了,沒有必要全部傳輸一次了,可以大大節約網絡帶寬。

apache webserver里面紀錄的 304 一般就是被cache的了。

6)請有空的時候照看一下robots.txt

7)存儲結構。

這個人人見智,google 用 gfs 系統,假如你有7/8臺伺服器,我勸你用NFS系統,要是你有70/80個伺服器的話我建議你用afs 系統,要是你只有一臺伺服器,那么隨便。

給一個代碼片斷,是我寫的新聞搜索引擎是如何進行數據存儲的:

NAME=`echo $URL  perl -p -e 's/([^\w\-\.\@])/$1 eq "\n" ? "\n":sprintf("%%%2.2x",ord($1))/eg'`mkdir -p $AUTHOR

newscrawl.pl$URL--user-agent="news.booso.com ( http://booso.com)"-outfile=$AUTHOR/$NAME


非凡是注重以下幾句:

1.通常在下一次爬的的數據要跟上一次進行比較,假如連續5次都沒有變化,那么將爬這個網頁的時間間隔擴大1倍,假如一個網頁在連續5次爬取的時候都有更新,那么將設置的爬取時間縮短為原來的1/2。

網頁更新頻度嚴重影響著搜索引擎蜘蛛程度對網站的爬行,爬取次數越多意味著網頁收錄幾率會越大、收錄數量越多,收錄是SEO最基礎的一個環節。

2.好了,爬到三級就差不多了,再深入一是數據量擴大了3/4倍,二是重要度確下降了許多,這叫做“種下的是龍種,收獲的是跳蚤。

盡量將網站保持在三級目錄內,深層次的網頁會給搜索引擎帶來很大的壓力,當然,我想Google有足夠的伺服器來承擔這些壓力,但從側面來說,3層目錄下的網頁被抓取及更新的頻度要低很多。前面,我說過,要想辦法使網站物理結構和邏輯結構吻合,這體現于URL的良好設計,現在你可以檢查下前臺生成的靜態網頁的實際目錄有幾層,考慮是否可以優化

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

  重庆,16日下午两点二十分左右,王菲抵重庆江北机场。演出方工作人员动用强力电筒和锁喉功阻挡等候在机场贵宾厅出口的摄影记者拍照,频频发生肢体接触。王菲从要客通道出来,安保立即阻止记者拍照。当日,王菲2012巡演重庆站,王菲抵达重庆,拒绝记者采访拍照,安保用手电筒和激光堵住记者镜头不让拍照,还推拉记者,动作粗暴。

  王菲当日穿着黑色羽绒服,头上顶了个绒球的豹纹毛线帽,戴着黑超,穿着雪地靴,拎裸色提包,一身的潮姐范儿。尽管主办方没请专业的安保公司人员,不过保安和工作人员依然如临大敌,媒体和粉丝都被拦在了围栏以外,只能远远眺望。到达后的王菲稍微站立了一下,然后迅速低头钻进了前来接她的车里,在一辆商务车开道下快速驶出。就算门口的十来位歌迷站在寒风中扯着嗓子高喊“王菲”的名字,但两辆车也没有停留一秒,绝尘而去。

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

鄒景平/總裁學苑專欄作家

 最近很多人談高等教育會不會在十年內改頭換面,文章中提到一些今年才出現的名詞,如史丹佛大學投資的Coursera,麻省理工跟哈佛大學合作的edX,史大的前人工智慧教授創辦的Udacity,他們都提供名校名師的免費線上教學課程,但是除了知道這個名稱之外,你對他們的瞭解有多少呢?

 你去過Coursera或Udacity的網站嗎?你選過一門課嗎?你學完它了嗎?你所體驗的層次不同,對他們的觀點自然不一樣!了解越深,才會對於他們是否會撼動教育體制,得出自己的主張和看法,而非人云亦云,跟著網路最報導和雜誌文章打轉。

 所以,我們要改變「訊息轉播器」的學習方式,不管是轉述給別人聽,或在演講中鏗鏘引用,神采飛揚,或是整理他人的文章,把它變成你的報導,或是努力消化訊息,在考試中得高分,即或你有一點心得,但都還浮淺,因為它們都不是你親身的體驗,無法讓你有深入獨特的感受與觀察。

 你能體驗出Coursera課程中的期末考對學生的壓力嗎?你能找出每天究竟要看幾個video,才是最有效、最合乎人性的學習方式嗎?你能看到自己對於每次測驗中,得不到滿分的自責和懊惱嗎?為何我們就不能輕鬆做測驗呢?像老外老師說的一樣,把它當成是練習呢?

 看別人所寫出來的體驗,那只是參考,最重要的是你自己要下海走一遭,得到自己的體驗,那樣才能把自己從「訊息轉播器」進化成為專家。你的知識才是由自己胸中流出,有持續成長的活力!

 我學書法,大部份是自己摸索,沒有老師提點,雖然速度慢,但有個好處,不必處處聽命老師,而不敢逾越雷池半步,我雖然慢,但很多是自己實驗後的發現或體悟,通過Youtube,我還可以觀察不同老師的運筆方法,增加自己的彈性,同時多臨好帖,我發現自己慢慢開竅了,對於書法作品的體悟,也越來越精到了。

 從一個名詞開始,你只是知道了,你採收別人知識的花朵,裝飾了自己的知識庫,但這朵花能有多久的生命力呢?這就是英國樸里茅斯大學Steve Wheeler教授所說的「插花式」的學習法,也是機械式學習。這是傳統教育所使用的模式。

 若你從實驗中不斷探索,不斷堅持親身體驗和瞭解,雖然速度慢,但卻會長成自己的知識樹,因為有生命力,才會隨著時間不斷壯大。這才是「生態式學習」,也是二十一世紀需要的新學習模式!(本文原載於總裁學苑)

 

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

第一章 訓練管理暨參賽準備

 

當星期五小週末的午後時,朋友們正在討論要去哪裡HAPPY,而我騎著100CC的機車,頂著秋老虎趕去學校聽那必須繳了報告才能畢業的專題講座,一路上幻想著這五十分鐘的車程與肯亞選手一樣用跑步的上學,越跑越快、油門也越加越快,而這才突然領悟到,原來肯亞可能不是我的天堂。

 

 

這次的講座的主題是:訓練管理暨參賽準備。是針對賽前、賽中、賽後做為演講內容裡的訓練管理分段流程,訓練管理包含了運動生理、運動心理與運動力學等等的所有項目總合管理,賽前選手的訓練不只有飲食營養的調整,更包含了賽前的模擬訓練,賽前模擬更分為生理適應、情境適應與心理調整,而生理適應裡,又有競賽當地的飲食文化適應,如歐洲國家都是冷食的生菜沙拉,在臺灣吃熱炒一百習慣的選手們,應當在台灣先食用生菜沙來做飲食的調整,讓腸胃習慣生冷之食物,以防止賽前發生腸胃不適應的狀態,而讓已經調整好即將比賽的身體狀況大打了折扣。但在我過去參加國際競賽經驗中所觀察到的卻是,日本選手從那如小叮噹的口袋中,拿出看似無限量的微波後就可食用的日本白米飯,韓國選手大剌剌地拿著一盒盒的泡菜笑嘻嘻,肯亞選手一邊歌唱一面攪拌著攜帶式小瓦斯爐上那沒有味道的烏伽黎。在一個強調選手應該十八般武藝樣樣精通與理所當然應該去適應的文化裡,培養出了超強的腸胃道、語言能力、影片剪輯、文字撰寫、運動科學知識的選手們,卻忘了「專心」這兩個字的最基本道理,而迷戀與錯誤期待在成為適應力達人的理論漩渦之中?

 

 

情境適應則更加為複雜,從選手平時的睡眠習慣、搭車前往場地所需要的時間、比賽時觀眾的喧嘩等等,都要在比賽前的訓練期課表裡加入模擬演練,並排定出比賽當天要使用的時間表,可避免慌亂中的焦慮感產生。這時,我腦裡跳脫了老師的演講,緩緩地浮現出倫敦奧運田徑馬拉松競賽道路上兩旁萬人鑽動的場景,在臺灣要做馬拉松模擬訓練,不僅僅要在跟倫敦相識的臺灣中城市道路上封路,更是要準備上萬位的臨時演員來當觀眾鼓譟,在一個狹義發展的時代裡,我馬上就打斷了自己這種的想法,以防過度的期待造成我無謂的情緒低落忘記了抄上課筆記。

 

 

 

在心理上的調整需要多方位的訪談,需要了解選手是否比賽與訓練太過於密集而導致競技疲勞與崩潰,而更要了解選手的擔憂與煩惱,並即時的回饋與解決,演講老師舉立了這次奧運中華隊國手的失戀實例,由本校老師介入輔導,最後在奧運場上心無罣礙的拿下好成績。又反思,選手的擔憂不只存在於競技場上,有更多的擔憂是來至於生活上,例如生活費與學費的來源、學校課程與作業的銜接、競賽後退出競技領域的轉銜計畫,這些與選手息息相關的生活事件,更與選手的心情世界脫離不了關係,但在這還在迷信過時的封閉式訓練朝代裡,這些事件也無法單靠著運動心理介入而有即刻解決之道,但在軍公教領退休年終吵著沸沸揚揚的討論板上,才不到兩個月的光景,奧運話題離開了留言版的討論區,而擔憂真的就有遠離選手們的心中了嗎?在強調「國手」應當有軍人的犧牲與公務員的清廉及教師的高道德下,卻還在領生活補助津貼的不對等要求這想法在我心中又成為了另一個擔憂了吧?

 


 "don1don"顧名思義為"動一動",希望能藉由此平台提倡國人運動風氣,及結交喜愛登山.鐵人三項.跑步.自行車的朋友;歡迎大家一起分享交流各種運動資訊及運動心得。

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

赫爾曼.薛勒(Hermann Scherer)/國際知名演說家及商業領域專家

 二十世紀九○年代,我與位於美國加州的「Management Design Group」合作,同時也為這家公司工作。這家公司負責籌辦專為經理人開設的課程,參加人數平均在二十人左右。課程總共十天,分成四個梯次舉行,比如在法國、英國、瑞典與美國,當時每人的課程費用都在八萬美元以上,旅費外加。我好奇地詢問,這些課程的目的究竟為何,答案非常簡短明確:「我們要提升學員們的困惑度。」我則回答,這個目標我只要七萬九千美元就可以辦到了。但我完全認同這個目標,因為有一點是絕對正確的—困惑有助於突破。

 為了探索這個秘密,值得我們在腦海裡依序分別踏上三條道路。第一條道路是中庸之道,這條路是這樣的:有一天,某種中等品質的巧克力已經走完它的產品生命週期,這表示銷售量變得不怎麼樣,離經濟上的死期已經不遠了,因此製造商趕緊改善產品。在專業術語中,這叫做再行銷,巧克力的口味變得更滑順,包裝也更具現代感,更便於掰開來吃,堅果也依據市場調查的結果,將顆粒加大。結果,這種經過拉皮、注射肉毒桿菌、重新包裝後的巧克力,經過了這番回春改造後,仍然又回到它原來的位置:中等,但總算挺住了。

 人類的反應也是如此,在職場上我們把這種情形叫做職涯管理,就算沒有刻意追求,我們依然不自覺地精益求精。在公司企業,是改變產品組合;在足球隊,就更加勤奮鍛鍊,並且在可能的條件下,在夏季買進一名新球員。我們持續對一切進行改進,並且一直做下去。

 想像一下,你從上往下俯瞰一個人、一個品牌或一家企業,你會看到一條時間軸,那是人生的歲月,包含著過去,或許也包含著未來。你看到了每年的進步、變化、成長等軌跡。如果過去幾年來,我們每年都成長百分之五,那麼可想而知,我們會認定明年也有百分之五的成長,是不是呢?哦,不只:你正在看一本很棒的書,深受激勵,因此預計讓成長率提高為百分之六、百分之七,甚至百分之八。恭喜你啦!不論事關你的營業總額、市占率、個人能力或自己的生活感受,每年都更加向前跨出一步,不論是個人、品牌或企業成長、擴張,這都是一種典型的發展,是個良好的營運模式,是正向又有誠意的,是營運如常,並沒什麼不好。營運如常,對於個人或企業來說,許多人都會很開心。但唯一的缺點是太無聊了!

 第二條道路,是一條雄心勃勃的道路,這表示在產品、生活表現再次走下坡之前,就開始精益求精。最好是在發展達到顛峰時就著手開始,改善所有事情,不讓表現的曲線下滑。你並沒有努力讓巧克力吃起來更滑順,而是加入慕斯內餡;不是施打肉毒桿菌,而是運動健身或去整型;而為了讓事業維持不墜,我們早早就參加許多經理人俱樂部與人脈網絡聚會,在這些場合裡,大家可以(不)勉強自己、(不)輕鬆地互相聊天、結識。這在專業術語裡稱為「標竿比較」,是企業會做的。

 假設在一場競賽中,你緊追著某個龍頭巨擘,你可以與它並駕齊驅,超越場上其他對手,那麼當你終於追過第二名對手時,你會排名第幾呢?沒錯,就是第二。接下來呢?你能以這種方式成為業界第一嗎?

 我們仿效由最成功的企業前天開發出來、為了可以在昨天領先群倫的「最佳方法」,希望自己明天也許可以成為業界第二、第三或第四;因為在這段時間裡,市場龍頭已經又領先好幾光年了。但這樣總還不賴,還有第二、第三或第四名,而且只要後頭還有連複製昨日的成功策略都辦不到的第五、第六與第七名,你就不會變成最後一名。問題是,客戶還是會向第一名購買,這不僅是商業守則,就連追逐卵子的精子、為了追求對象結婚的競爭或總統大選等也都適用。

 至於覺得這條充滿壯志的路途走來太辛苦的人,甚至會捨「最佳方法」而選眾所公認的「好方法」,只為了避免困惑與迷惘。換言之,這種人做的,就是大家做的,而他們所得到的,也就是一般人所得到的—普通的收入、普通的認可、普通的關注,但這樣是無法成為幸運兒的。

 第三條道路,是一條令人驚豔的道路,也就是突破之路。這條路需要莫大無比的勇氣與全然的困惑迷惘,因為踏上這條路,意味著過去的決定所創造的成功尚未到達顛峰時,就完全不顧理性,投入激烈的變革;在成功的道路走到一半時,追求突破的人就猛然闖進了灌木叢裡,想化不可能為可能。這需要有跟自己的過往切割的勇氣。

 在我與「Management Design Group」合作期間,我們認識了海蓮娜。她是瑞士來的培訓師,年輕又有熱忱,負責「溝通與領導」及「宏效簡報工作坊」,而她就跟許多培訓師一樣,最後並非敗在課程品質,而是敗在課程的銷售。她跟大多數的培訓師一樣,一年舉辦兩次這種人數限定為十六人、分三天在週末舉辦的課程。兩期的課程,每次十六名學員,每人的學費是兩千歐元,海蓮娜總共可以有六萬四千歐元的進帳,這已經夠讓海蓮娜跟其他幾名培訓師,在每年公布的受聘人員營業額排行表中,超越其他四千名培訓師了。

 而海蓮娜也胸懷大志,希望提供的宏效簡報課程能拉高她的營業所得。於是,我們便詢問她希望自己的顧問服務達到何種目的?她答稱,希望不只提供兩梯次的課,而是馬上增為四個,最好是五個宏效簡報課程,這樣營業額就可以成長百分百到百分之一五○。真是個野心勃勃的目標啊!(本文節錄自《幸運兒法則:為什麼有人一輩子都在尋找機會,有人卻每天利用機會?》,究竟,2012年10月31日出版 )

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()