2015-11-28 14:44:18 3514次浏览 1条回答 0 悬赏 10 金钱

现在有一个屏蔽词列表,大约几千个词。假设有一个繁忙的社区,发帖量巨大,要求每发一篇文章就要快速分析是否包含屏蔽词,请给出解决方案。
大神们,请给出你们的解决方案。

  • 回答于 2015-11-28 16:25 举报

    这个事情 如果要做的很到位 很不容易 应该能算一个专业的课题了 : 舆情监控

    最常见的 比如 : x你老m f(ck 等.... 随便变个花样 都很难搞

    简而言之

    如果只要求定位到关键词列表, 不用那么复杂 用php内置函数足矣

    如果要求严格 做C扩展吧 要涉及很多复杂的算法 不简单 之前看过一篇介绍相关算法的文章 : http://www.cnblogs.com/sumtec/archive/2008/02/01/1061742.html

    4 条回复
    回复于 2015-11-28 16:47 回复

    如果只是求定位到关键词列表,用php内置函数,能够处理非常频繁的几千个屏蔽词列表吗?

    回复于 2015-11-28 18:09 回复

    既然是繁忙的社区, 估计帖子大多几十字, 甚至几个字, 几百上千字的估计少数 几千字的可能更少... 我觉得完全没问题

    回复于 2015-11-28 18:12 回复

    我试了一下 长度1500的字符串 用stripos 循环查10000次, 每次循环查找三个长度为10的词 总的执行时间只有 0.37秒左右 用正则大概是0.44秒左右

    回复于 2015-11-28 19:45 回复

    恩,谢谢!我心里大概有底了。

    觉得很赞
您需要登录后才可以回答。登录 | 立即注册
word1018808441
CEO

word1018808441 重庆

注册时间:2015-03-24
最后登录:2018-07-04
在线时长:629小时49分
  • 粉丝49
  • 金钱7395
  • 威望40
  • 积分14085

热门问题