首页 > 我现在有一个大到不能装进内存的文本文件,我该如何高效地查找某字符串在这个文本中出现了多少次?

我现在有一个大到不能装进内存的文本文件,我该如何高效地查找某字符串在这个文本中出现了多少次?

假设文本和查询的字符串中都是小写英文字符,文本大约在10G左右,而且我要进行多次查询。由于内存原因AC自动机、后缀自动机、后缀数组、后缀树等数据结构都无法建立,有没有一种针对磁盘存取进行优化的字符串匹配数据结构?(类似于B树),或者说如何将上述数据结构进行优化以解决这个问题?


可以把该文本内容分成数个小文件然后一个一个读取吗?

【热门文章】
【热门文章】