
或者有什么好的获取敏感词的方法,想了个爬取海量评论做语义初筛再标注,但感觉不太优雅,不知道 v 友们有没有更好的想法带来点启发
1 sEz3br0Ozxa989XX 2024-06-04 18:16:31 +08:00 |
2 freshgoose 2024-06-04 18:17:10 +08:00 github 上有人收集了很多 |
3 shiluanzzz 2024-06-04 18:19:31 +08:00 p 主没明确说敏感词是哪些 zz ?还是通用的 https://platform.openai.com/docs/guides/moderation/overview openai 的这个过滤的 api 可以试试? |
4 vivisidea 2024-06-04 18:22:41 +08:00 现在已经不流行用敏感词了,直接上 NLP 模型分类,bert 啥的 |
5 Lshl56B4vDqdixwK 2024-06-04 18:23:09 +08:00 国新办清查词单? |
6 qviqvi 2024-06-04 20:25:05 +08:00 最好国家出一个标准,不然不好处理 |
7 wangjh0802 2024-06-05 11:16:16 +08:00 @qviqvi 这东西还能有标准? 哈哈哈哈哈哈哈哈哈 |
10 azarasi 2024-06-05 15:26:26 +08:00 什么是敏感词本身就是敏感的 |
11 ray2023 2024-06-05 15:56:05 +08:00 https://github.com/cjh0613/tencent-sensitive-words, 之前有个项目用的这个, 但是还是需要自己去维护一下, 因为有些词并不符合自己的规则 |
12 Bumon OP @shiluanzzz 政治类的能很容易得到,但歧视类等比较容易模糊词意但又会有的就有点难获取到,谢谢你的链接 @Hayashikawa 这种算是第三方服务了,我这边有需求是自己维护一份来着 @freshgoose yesyes ,有在交友网找到一些公开的词库,在 v 发帖也是想看看有没有更丰富的源 @vivisidea 哥们说的这个也有在做,但就,还是需要维护一份词库 hhh @qviqvi 国家确实也有标准,但是标准只有分类没有内容,具体内容还得自己维护 @ray2023 谢谢老哥的分享 谢谢各位 v 友的分享! |