C語言中壓縮字符串的算法
在C應用中,經常需要將字符串壓縮成一個整數,即字符串散列。下面是小編為大家整理的C語言中壓縮字符串的算法,歡迎參考~
比如下面這些問題:
(1)搜索引擎會通過日誌文件把用户每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。請找出最熱門的10個檢索串。
(2)有一個1G大小的一個文件,裏面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。
(3)有10個文件,每個文件1G,每個文件的每一行存放的都是用户的query,每個文件的query都可能重複。要求你按照query的頻度排序。
(4)給定a、b兩個文件,各存放50億個url,每個url各佔64字節,內存限制是4G,讓你找出a、b文件共同的`url。
(5)一個文本文件,大約有一萬行,每行一個詞,要求統計出其中最頻繁出現的前10個詞。
這些問題都需要將字符串壓縮成一個整數,或者説是散列到某個整數 M 。然後再進行取餘操作,比如 M%16,就可以將該字符串放到編號為M%16的文件中,相同的字符串肯定是在同一個文件中。通過這種處理,就可以將一個大文件等價劃分成若干小文件,而對於小文件,就可以用常規的方法處理,內排序、hash_map等等。最後將這些小文件的處理結果綜合起來,就可以求得原問題的解。
下面介紹一些字符串壓縮的算法。
方法1:最簡單就是將所有字符加起來,代碼如下:
unsigned long HashString(const char *pString, unsigned long tableSize)
{
unsigned long hashValue = 0;
while(*pString)
hashValue += *pString++;
return hashValue % tableSize;
}
分析:如果字符串的長度有限,而散列表比較大的話,浪費比較大。例如,如果字符串最長為16字節,那麼用到的僅僅是散列表的前16*127=2032。假如散列表含2729項,那麼2032以後的項都用不到。
方法2:將上次計算出來的hash值左移5位(乘以32),再和當前關鍵字相加,能得到較好的均勻分佈的效果。
unsigned long HashString(const char *pString,unsigned long tableSize)
{
unsigned long hashValue = 0;
while (*pString)
hashValue = (hashValue << 5) + *pString++;
return hashValue % tableSize;
}
分析:這種方法需要遍歷整個字符串,如果字符串比較大,效率比較低。
方法3:利用哈夫曼算法,假設只有0-9這十個字符組成的字符串,我們藉助哈夫曼算法,直接來看實例:
#define Size 10
int freq[Size];
string code[Size];
string word;
struct Node
{
int id;
int freq;
Node *left;
Node *right;
Node(int freq_in):id(-1), freq(freq_in)
{
left = right = NULL;
}
};
struct NodeLess
{
bool operator()(const Node *a, const Node *b) const
{
return a->freq < b->freq;
}
};
void init()
{
for(int i = 0; i < Size; ++i)
freq[i] = 0;
for(int i = 0; i < (); ++i)
++freq[word[i]];
}
void dfs(Node *root, string res)
{
if(root->id >= 0)
code[root->id] = res;
else
{
if(NULL != root->left)
dfs(root->left, res+"0");
if(NULL != root->right)
dfs(root->right, res+"1");
}
}
void Nodes(Node *root)
{
if(NULL == root)
return ;
if(NULL == root->left && NULL == root->right)
root;
else
{
Nodes(root->left);
Nodes(root->right);
root;
}
}
void BuildTree()
{
priority_queue<Node*, vector
for(int i = 0; i < Size; ++i)
{
//0 == freq[i] 的情況未處理
Node *newNode = new Node(freq[i]);
newNode->id = i;
(newNode);
}
while(() > 1)
{
Node *left = ();
();
Node *right = ();
();
Node *newNode = new Node(left->freq + right->freq);
newNode->left = left;
newNode->right = right;
(newNode);
}
Node *root = ();
dfs(root, string(""));
Nodes(root);
}
-
C語言指針知識點
引導語:在信息工程中,指針是一個用來指示一個內存地址的計算機語言的變量或中央處理器(CPU)中的寄存器(Register)。以下是本站小編分享給大家的C語言指針知識點,歡迎閲讀!【考點1】指針變量指針變量是用來存儲地址的,而一般變量是存儲數值的。指針變量可指向任意一...
-
計算機等級考試二級C語言筆試精選習題
應屆畢業生考試網提供了計算機等級考試二級C語言筆試精選習題,幫助考生鍛鍊解題思路,加深理解知識點。更多資料訪問yjbys計算機等級考試網。1、C語言程序的基本單位是____A)程序行B)語句C)函數D)字符、C、12、C語言程序的三種基本結構是____A、順序結構,選擇結構,...
-
嵌入式C語言編程小知識
嵌入式系統是用來控制或者監視機器、裝置、工廠等大規模設備的系統。下面為大家整理了一些嵌入式C語言編程小知識,一起來看看吧!1.流水線被指令填滿時才能發揮最大效能即每時鐘週期完成一條指令的執行(僅指單週期指令)。如果程序發生跳轉,流水線會被清空,這將需要...
-
C語言插入排序算法及實例代碼
插入排序是排序算法的一種,下面小編為大家整理了C語言插入排序算法及實例代碼,希望能幫到大家!這裏以從小到大排序為例進行講解。基本思想及舉例説明插入排序的基本思想是,將元素逐個添加到已經排序好的數組中去,同時要求,插入的元素必須在正確的位置,這樣原來排序好...