這篇文章中,我們介紹了google,它是一個大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應用廣泛。Google的設計能夠高效地抓網頁并建立索引,它的查詢結果比其它現有系統都高明。這個原型的全文和超連接的數據庫至少包含24′000′000個網頁。我們可以從http://google.stanford.edu/ 下載。

設計搜索引擎是一項富有挑戰性的工作。搜索引擎為上億個網頁建立索引,其中包含大量迥然不同的詞匯。而且天天要回答成千上萬個查詢。在網絡中,盡管大型搜索引擎非常重要,但是學術界卻很少研究它。此外由于技術的快速發展和網頁的大量增加,現在建立一個搜索引擎和三年前完全不同。

本文具體介紹了我們的大型搜索引擎,據我們所知,在公開發表的論文中,這是第一篇描述地如此具體。除了把傳統數據搜索技術應用到如此大量級網頁中所碰到的問題,還有許多新的技術挑戰,包括應用超文本中的附加信息改進搜索結果。

本文將解決這個問題,描述如何運用超文本中的附加信息,建立一個大型實用系統。任何人都可以在網上隨意發布信息,如何有效地處理這些無組織的超文本集合,也是本文要關注的問題。

要害詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google

1 緒論

Web給信息檢索帶來了新的挑戰。Web上的信息量快速增長,同時不斷有毫無經驗的新用戶來體驗Web這門藝術。人們喜歡用超級鏈接來網上沖浪,通常都以象Yahoo這樣重要的網頁或搜索引擎開始。大家認為List(目錄)有效地包含了大家感愛好的主題,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題。基于要害詞的自動搜索引擎通常返回太多的低質量的匹配。使問題更遭的是,一些廣告為了贏得人們的關注想方設法誤導自動搜索引擎。我們建立了一個大型搜索引擎解決了現有系統中的很多問題。應用超文本結構,大大提高了查詢質量。我們的系統命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎不謀而合。

1.1網絡搜索引擎—升級換代(scaling up):

1994-2000 搜索引擎技術不得不快速升級(scale dramatically)跟上成倍增長的web數量。
1994年,第一個Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個網頁和Web的文件。
到1994年11月,頂級的搜索引擎聲稱可以檢索到2‘000′000(WebCrawler)至100‘000′000個網絡文件(來自 Search Engine Watch)。
可以預見到2000年,可檢索到的網頁將超過1‘000′000‘000。同時,搜索引擎的訪問量也會以驚人的速度增長。
在1997年的三四月份,World Wide Web Worm 平均天天收到1500個查詢。
在1997年11月,Altavista 聲稱它天天要處理大約20′000′000個查詢。隨著網絡用戶的增長.
到2000年,自動搜索引擎天天將處理上億個查詢。我們系統的設計目標要解決許多問題,包括質量和可升級性,引入升級搜索引擎技術(scaling search engine technology),把它升級到如此大量的數據上。

1.2 Google:

跟上Web的步伐(Scaling with the Web)建立一個能夠和當今web規模相適應的搜索引擎會面臨許多挑戰。抓網頁技術必須足夠快,才能跟上網頁變化的速度(keep them up to date)。存儲索引和文檔的空間必須足夠大。索引系統必須能夠有效地處理上千億的數據。處理查詢必須快,達到每秒能處理成百上千個查詢(hundreds to thousands per second.)。隨著Web的不斷增長,這些任務變得越來越艱巨。然而硬件的執行效率和成本也在快速增長,可以部分抵消這些困難。還有幾個值得注重的因素,如磁盤的尋道時間(disk seek time),操作系統的效率(operating system robustness)。在設計Google的過程中,我們既考慮了Web的增長速度,又考慮了技術的更新。Google的設計能夠很好的升級處理海量數據集。它能夠有效地利用存儲空間來存儲索引。優化的數據結構能夠快速有效地存取(參考4.2節)。進一步,我們希望,相對于所抓取的文本文件和HTML網頁的數量而言,存儲和建立索引的代價盡可能的小(參考附錄B)。對于象Google這樣的集中式系統,采取這些措施得到了令人滿足的系統可升級性(scaling properties)。

1. 3設計目標

1.3.1提高搜索質量我們的主要目標是提高Web搜索引擎的質量。
1994年,有人認為建立全搜索索引(a complete search index)可以使查找任何數據都變得輕易。根據Best of the Web 1994 — Navigators ,“最好的導航服務可以使在Web上搜索任何信息都很輕易(當時所有的數據都可以被登錄)”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經證實索引的完整性不是評價搜索質量的唯一標準。用戶感愛好的搜索結果往往湮沒在“垃圾結果Junk result”中。實際上,到1997年11月為止,四大商業搜索引擎中只有一個能夠找到它自己(搜索自己名字時返回的前十個結果中有它自己)。導致這一問題的主要原因是文檔的索引數目增加了好幾個數量級,但是用戶能夠看的文檔數卻沒有增加。用戶仍然只希望看前面幾十個搜索結果。因此,當集合增大時,我們就需要工具使結果精確(在返回的前幾十個結果中,有關文檔的數量)。由于是從成千上萬個有點相關的文檔中選出幾十個,實際上,相關的概念就是指最好的文檔。高精確非常重要,甚至以響應(系統能夠返回的有關文檔的總數)為代價。令人興奮的是利用超文本鏈接提供的信息有助于改進搜索和其它應用。尤其是鏈接結構和鏈接文本,為相關性的判定和高質量的過濾提供了大量的信息。Google既利用了鏈接結構又用到了anchor文本(見2.1和2.2 節)。

1.3.2搜索引擎的學術研究隨著時間的流逝,除了發展迅速,Web越來越商業化。

1993年,只有1.5%的Web服務是來自.com域名。到1997年,超過了60%。同時,搜索引擎從學術領域走進商業。到現在大多數搜索引擎被公司所有,很少技公開術細節。這就導致搜索引擎技術很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。Google的主要目標是推動學術領域在此方面的發展,和對它的了解。另一個設計目標是給大家一個實用的系統。應用對我們來說非常重要,因為現代網絡系統中存在大量的有用數據(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,天天有幾千萬個研究。然而,得到這些數據卻非常困難,主要因為它們沒有商業價值。我們最后的設計目標是建立一個體系結構能夠支持新的關于海量Web數據的研究。為了支持新研究,Google以壓縮的形式保存了實際所抓到的文檔。設計google的目標之一就是要建立一個環境使其他研究者能夠很快進入這個領域,處理海量Web數據,得到滿足的結果,而通過其它方法卻很難得到結果。系統在短時間內被建立起來,已經有幾篇論文用到了 Google建的數據庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環境,在這里研究者甚至學生都可以對我們的海量Web數據設計或做一些實驗。


EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

泡泡网CPU频道11月14日 Intel酷睿i7 2600K(网购最低价 980.0元)原生四核心,该处理器支持超线程技术,开启超线程技术下处理器可以最高8线程运行,该处理器主频默认高达3.40GHz,高频率暗示其拥有强劲的性能,一直是玩家追求的极品处理器。现在这款cpu报价为2040元。感兴趣的朋友不妨去购买啊!

极品处理器 Intel酷睿i7 2600K报2040

Intel酷睿i7 2600K

尽管Sandy Bridge被Intel称为新一代处理器,但其实它还是从Sandy Bridge目前的Core i7的核心架构上发展改进而来的。如果想了解Sandy Bridge新架构在各方面带来了哪些实际变化,最好的方法自然是和现有的Core i7进行比较,比如Core i7 800系列无论是核心数量、处理线程、三级缓存容量还是集成的内存控制器等这些关键规格皆与其相同。

极品处理器 Intel酷睿i7 2600K报2040

Intel酷睿i7 2600K

intel i7 2600K支持玩家手动调节倍频,从而在外频拉升困难的P67(网购最低价 398.0元)主板上,达到更高的工作主频。根据默认频率的i7 2600以轻松战胜i7 920这点来看,超频4GHz后的i7 2600K应该更加强大。

极品处理器 Intel酷睿i7 2600K报2040

Intel酷睿i7 2600K

酷睿i7 2600K采用32nm制程工艺,Sandy Bridge架构设计,LGA1155接口,四核心。处理器默认主频3.40GHz,外频100MHz,倍频34X,支持睿频加速2.0技术,在开启睿频的情况下主频最高可提升至3.80GHz。四颗核心共享8MB高速三级缓存,支持双通道DDR3内存,采用不锁倍频设计,TDP功率 95W。

 

极品处理器 Intel酷睿i7 2600K报2040 Intel(英特尔)酷睿 i7 2600K(盒) (参数 报价 点评)
基本参数
CPU适用类型 台式机
CPU名称 Intel Core i7 2600K 3.4GHz
核心类型 Sandy Bridge
接口类型 LGA 1155
CPU核心 四核心八线程
CPU针脚数目 1155Pin
制程工艺 32纳米
技术参数
CPU频率 3.400GHz
睿频加速频率 3.800
处理器缓存
一级指令缓存 128KB
一级数据缓存 64KB
二级缓存容量 1MB
三级缓存容量 8MB
物理参数
其他性能 集成图形控制器运行频率为850MHz, 在Turbo模式下高达1350MHz

更多

京东报价:2199元
新蛋报价:2179元
天猫报价:2048元

Intel(英特尔) 酷睿 i7 2600K(盒)  (酷睿i7系列 71款产品)
[参考价格] 2040元
[联系方式] 010-82696964
[联 系 人] 周女士
[联系地址] 中关村鼎好3227
[报价查询] CPU产品报价  Intel(英特尔)CPU产品报价
[泡泡评测]·超频至4.7GHz!i7-3770K挑战i7-3960X
          ·全球首曝!Intel 22nm IvyBridge真身
          ·高频内存坑爹?SNB平台不同频内存体验
          ·又到白菜价!内存频率对SNB影响有多大
          ·新U皇霸气外露!Intel SNB-E全球首曝■

 
参考报价:
  • ¥2040
(本文来源:泡泡网 ) 





EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

1) 外鏈建設的質量

誤區:外鏈的數量越多越好;

分析:外鏈應關注全局質理,在確保“質”的前提下,自然化累積“量”,在短期內,過多為網站增加質量不高的外鏈會招至搜索引擎的懷疑;

2) Google PR值

誤區:Google PR值決定排名

分析:PR值只是google對期收錄網頁的評分級別,不適用于其他搜索引擎,但具有參考價值。Google 對PR值在排名中的作用已經弱化。

3) W3C網頁標準

誤區:W3C標準的網頁會獲得搜索引擎排名優勢;

分析:用W3C標準來編寫的網頁與Table布局的網頁相比,網頁容量要小很多,提高了用戶體驗的速度。而實際上,搜索結果中我們發現了很多不符合標準的網頁也能獲得很好的排名。

4) 網站地址

誤區:每個站點都需要設計網站地圖

分析:網站地圖確實能幫助大中型網站提升收錄表現,但是對中小企業網站,非凡是網頁數少于50頁的網站,假如規劃合理的話,不一定需要網站地圖;

5) 要害詞部署

誤區:核心要害詞要部署到每個頁面中去;

分析:準確呈現每個頁的特有信息,這會增大更多的頁面量,從而增大給網站導入更多搜索流量的可能性。

6) 外鏈分配

誤區:所有外鏈全部指向網站首頁;

分析:首頁需要外鏈,但是有些類型的站點,如產品頁面、服務頁面更需要外鏈,把外鏈布置到能產生更多效應或收益的頁面。

7) URL靜態化

誤區:原來動態的URL都要做成偽靜態或輸出HTML靜態頁面;

分析:搜索引擎對動態頁面的索引已經有了很大進步,對于收錄效果不差的動態網站,不必非要做靜態化。

8) 網站安全

誤區:做SEO不需要考慮網站安全

分析:假如根目錄下的robots.txt被人篡改或者重要文件或目錄被刪除,或者網頁被人加入惡意代碼,對網站影響很大..

9) SEO VS 網站優化

誤區:網站優化就是SEO

分析:網站優化不等于SEO

網站優化是從數據存儲、頁面執行及用戶體驗三方面來做的。

SEO是針對搜索引擎做的優化。

10) 誰是高手?

誤區:按要害詞排名的位次高低決定SEO執行者的水平;

分析:從技術向策略轉變,是專業SEO人員必走之路。

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

SEO十個不能犯的錯誤

1) 一個flash站(全是flash)

2) 使用frameset

3) 過胖的網頁(建議在110K以下)

4) 錯誤地告訴搜索引擎語系(也就是本來是中文站,卻告訴搜索引擎是英文站)

5) 項目命名未考慮要害詞策略;

6) 可讀性差的導航設計(如用flash或js做導航);

7) 混亂的結構;

8) 過度使用ajax;

9) 強制登錄;

10) 避免作弊或讓搜索引擎誤會;

SEO十個一定要做到的事情

1) 暢通的扁平化的架構

2) 預留純文字導航列,確保索引完整;

3) 要害詞策略放入導覽列,命名與網站內部連結當中;

4) 每頁不重復的title tag

5) 規劃內容主題化區域;

6) 網站適當靜態化;

7) 路徑命名帶入要害詞;

8) 留下<H>卷標區域;

9) 內容撰寫要考慮要害詞;

10) 穩定的主機或虛擬主機;

注:參加搜索引擎營銷大會上的筆記,可能有遺漏。

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()

最近很多朋友在問我要害詞做上了搜索引擎的第一頁,但要想往上就比較難了,一直停在那里。我想很多做seo的朋友都碰到過這樣的問題。從沒有排名到有一定的這個階段很輕易實現,呵呵,為什么呢?我想很多朋友會這么問,因為這一步可以通過簡單的修改title什么的就可以實現了。這些都不算真正的你的競爭對手,你的真正的競爭對手實際上就是排在前面那幾個。你排到搜索引擎首頁的那一時刻你才算真正的seo開始。

當排搜索引擎的第一頁的時候你需要注重以下幾點:

一、深入分析你的競爭對手(也就是排在你前面的那幾個)。這很重要,知己知彼才能百戰不殆嘛。你得先摸清了競爭對手的底細才能想辦法超過他。你可以通過這些方面來分析你的競爭對手:網頁結構,要害詞排列,domain,link,內容等。你要了解是對手的網頁結構比較好,還是要害詞的排列及標記做得比較好,還是他的外鏈比你多,還是他的內容全是原創的或內容的更新周期比你做得合理。這樣你就可以針對這些方面一一擊破競爭對手。

二、堅持以前的工作,你能夠上搜索引擎首頁。我想你還是做過不少的seo方面的工作的,雖然都是些打基礎的工作,但實際上我告訴你。seo實際上并不是人們想象的那么遙不可及,做seo實際上就是做些你從那些文章中看到的那些基礎工作,還有就是加部分的經驗對現象的判定。所以,你能做到搜索引擎首頁來說明你以前的工作是正確的,應該堅持下去。很多朋友排名永遠都上不去的原因也在這里,所以你在沒有看到最近的勝利之前就必須繼續堅持。

三、再用軟文加油。可能很多朋友會認為軟文這東西,一般在架站初期用。假如你這么想那就錯了,軟文實際上是一個長期有效的東西,假如你能堅持寫,給你帶來的效益是長期可以看到了。在這個要害時候軟文也很重要,為什么呢。首先軟文既可以給你帶來大量的外部鏈接,也能給你帶來不少的流量。我一直認為,網站的流量在排名中起著舉足輕重的作用。所以這個時候我們必須得在正常流量之外,尋找另外的途徑獲得更多的流量(軟文)。當然軟文不是唯一另類獲取流量的方法,但是是很有效的方法。

四、不能太心急。最近要告訴大家的是,在這個時候不能太心急了。因為別人的站排在前面也是通過一段時間的積累實現的,所以千萬不要想要通過作弊的手法來超過競爭對手。你只要把本質工作做么,一段時間后,第一的位置肯定是你的。

EMBA的小眼睛 發表在 痞客邦 留言(0) 人氣()