Skip to content

panzg123/Simple_Search_Engine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

一个简单的面向新闻的搜索引擎原型

信息检索作业程序,小组成果:pzg & zjw & ltq & ljs

具体程序注解请参考:现代信息检索---搜索引擎大作业

  • sportNewsSpider为爬虫程序,爬取新闻文档
  • Index为建立倒排索引程序
  • SearchEngine为搜索程序,JSP,index.txt为倒排索引

数据


sportNewsSpider定向爬取的3-4体育新闻网站的10W篇体育新闻

倒排索引程序,Index


运行IndexCreator.java,将对data目录下的文档进行格式转换、切词、创建倒排索引、计算词项的tfidf值,并将倒排索引保存到data/index.txt,tfidf数据保存到data/tfidf_index.txt文本中。

格式说明

index.txt保存倒排索引,由于是文本保存,采用#&next等特殊字符来分割位,比如word1的索引信息如下:

word&#1.txt#13#14#15@times@totalwords#next#2.txt#13#14#15@times@totalwords&timesofdocs

其表示的信息是:word1出现在1.txt中的13、14、15行,一共出现了times次,1.txt中一共totalwords个单词;然后是word1在2.txt中的统计数据。

tfidf_index.txt保存tfidf信息,以此来后面的程序基于此来构建空间向量模型,也采用特殊字符来分割,比如:

文化大革命&572.txt@5.4638#next#&5003.txt@3.6990#next#

其表示的信息为:文化大革命出现再572号和5003号文档中,tfidf值分别是5.4和3.6。

文本检索程序,Search Engine

向量空间模型计算与查询文本的相似度,返回Top K

TODO

  • tornado+redis+mongo整套框架改造程序,提升用户体验和程序性能。

About

信息检索,简单搜索引擎原型程序

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors