想爬取网上特定关键词的数据,然后,希望能较好进行语义分析,整理出对自己有用的结构化数据,请大家帮忙推荐满足提交的搜索引擎,谢谢!
你这不是搜索引擎吧?是网络爬虫?! 给你推荐个全文搜索吧,xunsearch,用着蛮好的,php开发的,带中文分词。具体你可以查询它们网站,我现在几十万的数据,搜索一般在0.5s以内。
貌似本站就是用的xunsearch!
http://www.somao123.com/
Nutch lucene的作者开发的
elasticsearch基于lucene
提供restful api, json数据, 推荐.
lucene挺知名的。
elasticsearch,你值得了解。
我是做Java的,前阵子研究过一点搜索引擎。开源的搜索引擎服务器你可以看下solr,基于Lucene。我还用过一个免费但是暂时不提供源码的产品叫做DbSight,也可以看看
我推荐sphinx或者coreseek,同时支持MMseg中文分词,支持Mysql等多种数据源,提供PHP等api调用接口,基于Ubuntu Server搭建简单,这是我使用过程中感觉方便的地方
用solr吧,solr 提供了多种语言API,可用的分词器比较多,如楼上说的 IKAnalyzer,庖丁,Mmseg4j等