首页 > 采集网上的软件名称,遇到语义识别困难

采集网上的软件名称,遇到语义识别困难

请教大家一个数据挖掘方面的问题(其实我也不知道是不是属于这个范畴) 我想写一个程序用来采集网上所有软件的名称 但是如何让程序准确识别一个名称呢? 比如 暴风影音 和 暴风影音春节版 还有 暴风影音2012 其实是同一个软件 应该采用"暴风影音"这个名字 如何让程序做出这样的判断/识别呢?

最好能提供相关技术的名字,或者书名,或者算法名称,方便我进一步搜索


机器学习,用bayes算法。
不过这需要大量的素材。

而且还要正确的分词,分词的词典也是比较麻烦的事情。

【热门文章】
【热门文章】