自然语言是指人类使用的语言,而自然语言处理(natural language processing)就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术(冯志伟《自然语言的计算机处理》)。但如何让计算机实现人们希望的语言处理功能,如何让计算机实现海量语言信息的自动处理和有效利用,这些一直是现在研究的热点问题,常见的如机器翻译、自动文摘等,由于中国的文字博大精深,实现的难度可想而知。
而分词可以说是自然语言处理里面的一个部分,其应用领域十分广泛,研究的意义也是很显著的,最常见如大家每天都在用的搜索引擎:搜索引擎将爬虫搜集到的网页分词,然后建立网页索引文件,当用户输入感兴趣的文本进行搜索时,搜索引擎会找出相应的关键词,用这些词代表用户的查询意图。这样用户输入的“词”就可以和网页组成的词进行匹配,然后显示出用户感兴趣的网页。
所以我也凭个人兴趣在最近的一个多月作了研究,在此想以这个系列作为我博文里面原创的一个代表吧,同时也是我个人博文全索引——两年.NET编程路全回顾的一部分,因为这里面零零总总囊括了C#,ASP.NET,AJAX,SQLServer,数据结构和算法、重构等诸多内容。
在此作个说明,本人在做的时候均采用了“Splitter”作为类名,是基于简洁的目的,而如果你参阅大量论文的话,你会发现“分词”都被译作“Word Segmentation”。
好了,废话已尽,系列索引如下:
1、基于.NET的分词软件设计与实现V1.0--总体思路及算法实现
2、基于.NET的分词软件设计与实现V2.0--性能问题说明及功能增强
3、基于.NET的分词软件设计与实现V3.0--对比测试及改变
4、 基于.NET的分词软件设计与实现V4.0--使用SortedList提高分词效率
5、基于.NET的分词软件设计与实现V5.0--使用Hashtable和HashSet<T>提高分词效率
6、基于.NET的分词软件设计与实现V6.0--使用数据库篇(涉及索引、聚集因子和存储过程)
出处:http://www.cnblogs.com/RockyMyx/
本文版权归作者和博客园共有,欢迎转载,但请在文章明显位置给出原文连接,否则保留追究法律责任的权利。