毕业设计做了一个垂直搜索系统,主要完成的模块包括网络垂直爬虫,网页去重,网页正文抽取,中文分词,消歧系统,索引模块,检索模块。
 
简单点的系统示意图如下:
 
上图中,主要重点研究的模块在中文分词及消歧模块上。这个是我毕业设计的核心内容。
网络爬虫:采用了多线程及简单DNS缓存机制,多线程采用的是读写锁,并未用到线程池。该爬虫为垂直爬虫主要是在本科说开发的通用爬虫上进行修改的。
网友去重及正文抽取算法都采用了高效的算法,主要目的是减少处理的时间。
中文分词系统经过多次修改,效果还不错,主要突出的重点是分成系统在跨领域的分词性能上的表现。
消歧系统:主要特出的是在消歧策略的研究上,从特征选择及聚类的算法的改进及组合设计方面着手。特征选择上的突出创新在于采用了基于机器学习算法挖掘文本潜在语义特征的研究上,该方法在特征选择上具有良好的前景,进进一步认真研究。聚类策略上,主要突出在于结合各聚类算法的优势及弊端,再根据特征空间的实际情况采用多阶段聚类。
标签抽取:采用了基于chunk的短语级标签抽取。
索引模块,及检索模块是我做的最差的两个模块,索引方面由于之前没有研究过索引建立的相关东西,现在这方面还很弱。
检索模块上,特别是在界面设计上不行,没学过PHP,简单搞了个PHP界面,很丑...
 
如果有哪位研究学者对我的毕设里面的某个模块或者某个研究感兴趣的,欢迎联系探讨,相互学习,联系方式见首页公告。
 
该系统的基本框架建立了,但仅为雏形,将继续完善下去。对垂直系统感兴趣的研究学者欢迎与我我联系^_^。
 
接下来我的研究重点还是在消歧上面。