毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?
基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。
最后再做一套搜索系统。
毕设的项目。怎么设计都行。
数据库的设计跟你要爬的数据的结构和你的搜索引擎的设计有关。请再添加一些描述。
可以存成json,后面再慢慢处理
CREATE TABLE IF NOT EXISTS `Document` (
`id` INT AUTO_INCREMENT PRIMARY KEY,
`url` VARCHAR(1024) UNIQUE NOT NULL,
`content` TEXT NOT NULL,
`last_fetch_time` DATETIME
);