首页 > 爬虫的数据库该怎么设计?

爬虫的数据库该怎么设计?

毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?
基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。
最后再做一套搜索系统。


毕设的项目。怎么设计都行。


数据库的设计跟你要爬的数据的结构和你的搜索引擎的设计有关。请再添加一些描述。


可以存成json,后面再慢慢处理


CREATE TABLE IF NOT EXISTS `Document` (
   `id`    INT AUTO_INCREMENT PRIMARY KEY,
   `url`   VARCHAR(1024) UNIQUE NOT NULL,
   `content` TEXT NOT NULL,
   `last_fetch_time` DATETIME
);
【热门文章】
【热门文章】