1. 程式人生 > >2012九月3號阿里巴巴筆試題目

2012九月3號阿里巴巴筆試題目


第一題、5億個不重複的商品的ID(每一個商品的ID是64位),現在有一個存放了10億個商品ID(商品的ID會有重複)的日誌檔案,請設計一種方法找出5億個商品中沒有出現在日誌檔案中的商品。假設所能使用的記憶體為2G。

2G的檔案只能存放2.5億的商品ID,因為5億商品大小為5*10^8*8B=4G。可以考慮將5億商品ID雜湊到四個檔案中A[4]。然後將10億個商品雜湊到另外四個檔案中B[4]。每次讀入一個A檔案讀入一個B檔案,將B檔案雜湊到A檔案中,A檔案中的值為0的鍵值就是沒有被日誌檔案包含的。但是日誌檔案分成四個之後,每一個的大小事2G無法一次性的讀入,可以一次讀一半或者分成8個檔案。以上為博主的思路,歡迎各位指正。


第二題、有一個片語的列表,list<string> wordlist={"a boy","hello word ","small cat",.......};有一個字串string  stringlist={“ a boy can catch small cats”}.

要求找出出現在stringlist中的wordlist的片語。比如a boy就出現了,但是small cat沒出現。只要有一個出現了就返回true,否則返回false

 bool Find(list<string>wordlist,string stringlist)
{
          int length=wordlist.length();
          int i;
          for(i=0;i<length;i++)
           {
                 if(stringlist.find(wordlist[i])!=stringlist.end()&&*(stringlist.find(wordlist[i])++)==' ')
                   {
                         return true;
}
}
return false;
}


第二問:如果wordlist中片語列表比較長,即個數比較多,而stringlist中字串比較短如何優化該演算法,使時間複雜度降低。並分析時間複雜度

將wordlist中的片語建立字典樹,字典樹中每一個分支代表一個片語。讀入stringlist中的第一個單詞,如果匹配則讀入下一個,知道與字典樹中的某一個分支完全匹配則返回true,否則讀入第二個單詞繼續匹配,重複上述步驟知道返回true或者讀完之後無匹配項返回false。時間複雜度是log26(num).其中num是wordlist中字元數總和。
以上僅代表博主個人思路,歡迎指正。