第4部分(第2/4 頁)
索方法都足夠用,與網頁相匹配的網站單子短到完全可以很輕易地就掃描下來。但到1998年,Web一下子就多起來了,對搜尋引擎的強烈需求也在這時候出現,人們不單單希望它能與搜尋詞語在文字上完全匹配,而且要求同所有包含該詞語的網頁都能匹配。希爾弗斯坦說,它還必須能“辨別出哪些結果是好的,哪些結果是不那麼好的”。
谷歌公司之所以能夠提供搜尋服務,是因為它有可以進入Web網頁的“蜘蛛”,這是一種能夠透過系統進入Web的軟體,它將蒐集後的Web網頁立即進行檢索和分析,隨時準備好當有訪問者鍵入搜尋要求時進行匹配。(谷歌軟體之所以能有如此高的速度,乃是因為它並不是在收到搜尋請求之後才臨時到全世界的網站上去檢索的,而是在此前就早已檢查了這些網站的網頁,並將它們收集起來,儲存在谷歌的伺服器裡。)在“蜘蛛”軟體還是以相當簡單的形式編寫成的時候(谷歌的最初版本就是如此),它會給爬過的網站帶來很多問題。在有些情況下,如在頻寬不足的時候,谷歌“蜘蛛”的到訪會讓網路出現擁堵,使網站無法訪問。它還會將網站凍結,拒絕所有的到訪者。這讓谷歌受到網站所有者的厭惡,他們中的有些人還曾經給布林和佩奇發郵件或打電話,表達他們的憤怒和反感。
混亂狀態已經過去了,內建於谷歌“蜘蛛”中的程式碼有了改進,使它縮短了在每個網站停留的時間,進而降低了導致被訪系統崩潰的危險###。與此同時,網站的所有者也習慣了自動化軟體程式的來訪,理解了“蜘蛛”的訪問反過來也可以將他們的網站帶到搜尋引擎中,有助於吸引人前來造訪。
Web起初的設計者們一致同意,Web網站的所有者們能夠使用一段程式碼提示“蜘蛛”或任何其他型別的“機器人”軟體的來訪都是不受歡迎的。谷歌應該感到慶幸的是,在網站的所有者還未根據這一傾向阻止谷歌“蜘蛛”造訪之前,Web就已經壯大起來了。谷歌的搜尋結果的意義在於,它盡最大可能在網頁範圍內進行了廣泛的搜尋。這些搜尋結果為谷歌對相關內容進行排行提供了可靠的計算依據,同時將它認為最權威的網頁放在排行表的頂端。
為了評估任一具體網頁的權威###,谷歌的軟體必須在它所連結的所有網頁的資料庫中進行查詢,記下哪些網站同那個頁面有實質###的連結,然後做出推薦。這只不過是剛剛開始。對要做出推薦的網站必須仔細檢查,以便決定這個推薦是加以重視還是歸為一般甚或完全忽略。軟體再回到連結的資料庫,看看是誰推薦了哪些網站,那些網站是何時發現的,然後再去看看是誰推薦了那些網站……如此往復不已。這個過程是回溯###的、遞迴式迴圈的。檢查由誰指向誰可以看作一個無盡的過程,但是一連串的計算將萃取出Web網上的每一個網頁的相對權威###的精華,它是用從1到10的數字來表現的,表示某一網頁在其他網站的編輯看來其權威###如何,是否值得推薦給他人。谷歌將這個數字稱為網頁級別(PageRank,其中Page在形式上又是指拉里·佩奇(Larry Page),是他研發了最初的公式,但他的姓氏使得這個詞即使在其來源不為讀者所知時仍具有明確的意味)。PageRank不是第一個被用於Web結構分析的系統——康奈爾大學的電腦科學家喬恩·克萊伯格於20世紀90年代中期在IBM的阿爾馬登研究中心的工作一般都被認為是該領域的一個里程碑——但PageRank卻是第一個走出實驗室的研究成果。 。 想看書來
開放與封閉(5)
透過幾乎沒有窮盡的連結搜尋和互動參照,PageRank倚賴著從整個Web中找到的所有連結的資料庫,反對來,PageRank也要求谷歌的爬蟲能夠透過一個開放的生態系統自由地進行排列。谷歌可以利用連結中已經包含的判斷能力,而不必購買使用權,因為Web遵循開放###。甚至只要有少數具有較高階別的、被認為擁有高度權威###的網站所有者排斥谷歌的“蜘蛛”——或者要求按比例獲得谷歌因檢索他們的網站而得到的收益——那麼谷歌現有的執行能力也會終止。
20世紀90年代出現的將出版資訊放在Web上的開放模式並沒有立刻為圍牆花園這一封閉模式帶來滅頂之災。電子郵件和Web的新使用者並不急於走出他們的網際網路服務提供商仔細修整的園子以外去冒險。這對正在和意欲在專屬網路中開設商店的未來租戶進行談判的服務提供商產生了相當大的影響。在網上最受追捧的房地產無非是美國線上(AO
本章未完,點選下一頁繼續。