首页 > 网站如何能像百度文库那样搜索到各种文件里面的内容,如何实现?

网站如何能像百度文库那样搜索到各种文件里面的内容,如何实现?

比如excel,word,TXT、里面的东西。需要用到什么技术?springmvc?ssh?
包括保存文件到数据库,然后重点是搜索到excel,word,TXT、里面的内容,如何实现?
主要是后端..
如图:


上传文件时,程序读取文件的文本内容后,把内容添加到 lucene 这样的全文搜索引擎里就行了。


很多搜索引擎,目前用过的是solr,把标题和内容当成是不同的field,但是我觉得内容应该是截取一部分的,应该不是全部的,不然那种上了G的文件搜索就很难做了。。。


有很多开源的搜索框架。包括楼上说的lucene,以及基于lucene开发的ElasticSearch等等
搜索引擎的关键是倒排索引。倒排索引的核心是关键字->文档的索引。

【热门文章】
【热门文章】