前向匹配算法(c#实现)

2021/7/1 14:51:15

本文主要是介绍前向匹配算法(c#实现),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1 前向最大匹配算法

实例: 以“我们经常有意见分歧”这一句为例,进行分词,流程如下:

 

 

  2 前向匹配算法的步骤
  1. 设定最大匹配的字符串长度N;
  2. 从index = word_len开始,选取N个字(符);

  3. 判断选取的字符串在语料库中是否存在,如果是,选中的字符分词成功,转到步骤(4),否则删除当前字符串中最后一个字符,循环步骤(3)直到分词成功。

  4. 指针移动sentence_length-word_len位,重复步骤(3);

注:其中,sentence_length表示整个待分词的句子长度,word_len位表示所有已经成功分词的字符串长度。

  3 算法实现
public static List<string> SplitSeq1(string senquence, List<string> corpus, int maxLength)
{
    var result = new List<string>();
    var alreadySplitWord = string.Empty;
    while (senquence.Length > 0)
    {
        var tempStr = senquence.Length >= maxLength ? senquence.Substring(0, maxLength) : senquence;
        
        // 逐个移除字符并匹配
        while (tempStr.Length > 0)
        {
            if (corpus.Contains(tempStr))
            {
                result.Add(tempStr);
                alreadySplitWord += tempStr;
                senquence = senquence.Remove(0, tempStr.Length);
                break;
            }
            tempStr = tempStr.Remove(tempStr.Length - 1, 1);
        }
    }

    return result;
}

public static string Print(List<string> words)
{
    var result = string.Empty;
    foreach (var item in words)
    {
        result += $"{item}|";
    }

    return result;
}

业务调用:

static void Main(string[] args)
{
    var corpus = new List<string>(){"我们", "经常", "有", "意见", "分歧"};
    var splitResult = SplitSeq1("我们经常有意见分歧", corpus, 5);
    var result = Print(splitResult);
    Console.WriteLine(result);
}

运行结果为:

 

 



这篇关于前向匹配算法(c#实现)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程