字符串查找

最近需要改进一个字符串查找的算法。
我用了类似于KMP的算法。相比于一个一个比较。效率提高大概25倍

代码

#include <stdio.h>
#include <time.h>
const int maxNum = 1005;



char* genRandomString(int length)  
{  
    int flag, i;  
    char* string; 
    srand((unsigned) time(NULL ));  
    if ((string = (char*) malloc(length)) == NULL )  
    {  
        printf("Malloc failed!flag:14\n");  
        return NULL ;  
    }  
  
    for (i = 0; i < length - 1; i++)  
    {  
        flag = rand() % 3;  
        switch (flag)  
        {  
            case 0:  
                string[i] = 'A' + (rand() + length) % 26;  
                break;  
            case 1:  
                string[i] = 'a' + rand() % 26;  
                break;  
            case 2:  
                string[i] = '0' + (rand() + length) % 10;  
                break;  
            default:  
                string[i] = 'x';  
                break;  
        }  
    }  
    string[length - 1] = '\0';  
    return string;  
}

char* getString(char* src, int length)  
{  
    int flag, i;  
    char* string; 
    srand((unsigned) time(NULL ));  
    if ((string = (char*) malloc(length)) == NULL )  
    {  
        printf("Malloc failed!flag:14\n");  
        return NULL ;  
    }  
  
    int srcLen = strlen(src);
    int startNum =  rand() % (srcLen - length);
    
    memcpy(string , *(src + startNum) , length);
    string[length - 1] = '\0';  
    return string;  
}

int Sunday(char * sr, int srclen, char * ta, int targetlen)
{
    int shift[maxNum];
    int i = 0;
    char* src = sr;
    char* target = ta;
    // 默认值,移动m+1位
    for( i = 0; i < maxNum; i++) {
        shift[i] = targetlen + 1;
    }
    for( i = 0; i < targetlen; i++) {
        shift[target[i]] = targetlen - i;
    }

    // 模式串开始位置在主串的哪里
    int s = 0;
    // 模式串已经匹配到的位置
    int j;
    while(s <= srclen - targetlen) {
        j = 0;
        while(src[s + j] == target[j]) {
            j++;
            // 匹配成功
            if(j >= targetlen) {
                return s;
            }
        }
        s += shift[src[s + targetlen]];
    }
    return -1;
}

int atoi(char *s)
{
    int i = 0;
    int n = 0;
    for (i = 0; *s >= '0'&& *s <= '9' ; ++i)
    {
        n = 10 * n + (*s - '0');
    }
    return n;
}


int myMemmem(char * a, int alen, char * b, int blen)
{
    int i =0;
    int j =0;
    for ( i = 0; i <= (alen - blen); ++i)
    {
        for (j = 0; j < blen; ++ j)
        {
            if (a[i + j] != b[j])
            {
                break;
            }
        }
        if (j >= blen)
        {
            return i;
        }
    }
    return -1;
 }
/**
IN
at the thought of
though

OUT
7
**/
int main() {
    // 主串和模式串
    char* T;
    char* P;
    int a = 0;
    int b = 0;
    clock_t start;
    clock_t finish;
    double  duration;

    while(1) {
        // 获取一行
        printf("put T length\n");
        scanf("%d",&a);
        printf("put P length\n");
        scanf("%d",&b);
        
        T = genRandomString(a);
        P = genRandomString(b);
        // printf("--------------T = (%s)\n", T);
        // printf("--------------P = (%s)\n", P);
        start = clock(); 
        int res = Sunday(T, a-1, P, b-1);
        finish = clock(); 
        duration = (double)(finish - start) / CLOCKS_PER_SEC;  
        printf( "--Sunday time is %f seconds\n", duration );      
        if(res == -1) {
            printf("Sunday主串和模式串不匹配\n");
        } else {
            printf("Sunday模式串在主串的位置为:%d\n", res);
        }

        start = clock(); 
        res = myMemmem(T, a-1, P, b-1);
        finish = clock(); 
        duration = (double)(finish - start) / CLOCKS_PER_SEC;  
        printf( "--myMemmem time is %f seconds\n", duration ); 

        if(res == -1) {
            printf("myMemmem主串和模式串不匹配\n");
        } else {
            printf("myMemmem模式串在主串的位置为:%d\n", res);
        }
    free(T);
    free(P);
    }
    return 0;
}

后续
新的版本的memmem函数用的是高效率的算法,比KMP的快。

代码如下

/* Copyright (C) 1991-2013 Free Software Foundation, Inc.
   This file is part of the GNU C Library.
   The GNU C Library is free software; you can redistribute it and/or
   modify it under the terms of the GNU Lesser General Public
   License as published by the Free Software Foundation; either
   version 2.1 of the License, or (at your option) any later version.
   The GNU C Library is distributed in the hope that it will be useful,
   but WITHOUT ANY WARRANTY; without even the implied warranty of
   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
   Lesser General Public License for more details.
   You should have received a copy of the GNU Lesser General Public
   License along with the GNU C Library; if not, see
   <http://www.gnu.org/licenses/>.  */

/* This particular implementation was written by Eric Blake, 2008.  */

#ifndef _LIBC
# include <config.h>
#endif

/* Specification of memmem.  */
#include <string.h>

#ifndef _LIBC
# define __builtin_expect(expr, val)   (expr)
#endif

#define RETURN_TYPE void *
#define AVAILABLE(h, h_l, j, n_l) ((j) <= (h_l) - (n_l))
#include "str-two-way.h"

#undef memmem

/* Return the first occurrence of NEEDLE in HAYSTACK.  Return HAYSTACK
   if NEEDLE_LEN is 0, otherwise NULL if NEEDLE is not found in
   HAYSTACK.  */
void *
memmem (const void *haystack_start, size_t haystack_len,
    const void *needle_start, size_t needle_len)
{
  /* Abstract memory is considered to be an array of 'unsigned char' values,
     not an array of 'char' values.  See ISO C 99 section 6.2.6.1.  */
  const unsigned char *haystack = (const unsigned char *) haystack_start;
  const unsigned char *needle = (const unsigned char *) needle_start;

  if (needle_len == 0)
    /* The first occurrence of the empty string is deemed to occur at
       the beginning of the string.  */
    return (void *) haystack;

  /* Sanity check, otherwise the loop might search through the whole
     memory.  */
  if (__builtin_expect (haystack_len < needle_len, 0))
    return NULL;

  /* Use optimizations in memchr when possible, to reduce the search
     size of haystack using a linear algorithm with a smaller
     coefficient.  However, avoid memchr for long needles, since we
     can often achieve sublinear performance.  */
  if (needle_len < LONG_NEEDLE_THRESHOLD)
    {
      haystack = memchr (haystack, *needle, haystack_len);
      if (!haystack || __builtin_expect (needle_len == 1, 0))
    return (void *) haystack;
      haystack_len -= haystack - (const unsigned char *) haystack_start;
      if (haystack_len < needle_len)
    return NULL;
      return two_way_short_needle (haystack, haystack_len, needle, needle_len);
    }
  else
    return two_way_long_needle (haystack, haystack_len, needle, needle_len);
}
libc_hidden_def (memmem)

#undef LONG_NEEDLE_THRESHOLD

这个memmem函数用的是two_way_long_needle 的算法。已经是比较快的算法了。

最后编辑于
?著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351

推荐阅读更多精彩内容

  • 一.顺序查找 1.1 思路:这是最简单的算法,从头开始遍历每个元素,并将每个元素与查找元素比较,如果一致则返回。1...
    deffing阅读 1,191评论 0 1
  • Boyer-Moore字符串查找算法当可以在文本字符串中回退时,如果可以从左向右扫描模式字符串并将它和文本匹配,那...
    sleepyjoker阅读 383评论 0 0
  • 字符串查找通常有四种方式,暴力查找,KMP查找,BoyerMoore查找以及RabinKarp算法查找,查找最简单...
    FlyElephant阅读 2,796评论 0 0
  • 子字符串的一种基本操作就是子字符串查找:给定一段长度为N的文本和一个长度为M的模式字符串,在文本中找到一个和该模式...
    sleepyjoker阅读 1,508评论 0 0
  • 我是日记星球138号星宝宝小萱我正在参加日记星球第四期蜕变之旅,这是我的第33篇原创日记。 小时候最大的梦想就是有...
    譞言阅读 269评论 9 7