首页 > 如何使用正则表达式提取微博中的话题(hashtag)?

如何使用正则表达式提取微博中的话题(hashtag)?

最近在做社交网络数据挖掘,我想知道如何获取##中或者#后的内容,也就是相当于 twitter 中的 hashtag。
其中的格式就是成对出现的“#”符号或者由单个“#”开头然后以特殊符号结尾当中的内容,内容中允许出现西文和亚洲文字,一条正则需要能同时解决这两个问题。


(?<=\#)[\s\S]*?(?=\#)
【热门文章】
【热门文章】