想制作聊天机器人,有哪些不错的语料库呢? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
aseec
V2EX    问与答

想制作聊天机器人,有哪些不错的语料库呢?

  •  
  •   aseec 2015-05-03 12:54:43 +08:00 15648 次点击
    这是一个创建于 3865 天前的主题,其中的信息可能已经有所发展或是发生改变。
    16 条回复    2019-06-30 11:58:54 +08:00
    imydou
        1
    imydou  
       2015-05-03 13:11:00 +08:00
    猜想 随机把提问转发给siri 小冰 获得回复
    jacob
        2
    jacob  
       2015-05-03 15:16:21 +08:00
    @imydou 你玩双簧呢?
    C0VN
        3
    C0VN  
       2015-05-03 16:47:52 +08:00
    三句话搞定

    好厉害!

    真的吗?

    然后呢?
    kidding
        4
    kidding  
       2015-05-03 20:22:05 +08:00
    @xavierskip example:(C++)
    <pre>
    #include <iostream>
    #include <string>
    #include <stdlib.h>
    #include <time.h>
    #define random(x) (rand()%x)

    using namespace std;

    int main()
    {
    string replies[8] = {"你真棒!","真的嘛?","然后呢~","真厉害啊...","大赞!","好棒!","听起来不错哦!","再讲点别的吧"},str;
    cout<<"你: ";
    getline(cin, str);
    while(str!="不聊了"){
    cout<<"AI: "<<replies[random(8)]<<endl;
    cout<<"你: ";
    getline(cin, str);
    srand((int)time(0));
    }
    cout<<"AI: "<<"拜拜~"<<endl;
    return 0;
    }
    </pre>
    ChiangDi
        5
    ChiangDi  
       2015-05-03 20:26:14 +08:00
    我上次弄了个,有点蠢,基于 http://www.tuling123.com/openapi

    http://v2ex.com/t/186295#reply1
    staticor
        6
    staticor  
       2015-05-03 20:37:58 +08:00
    aseec
        7
    aseec  
    OP
       2015-05-03 20:53:49 +08:00
    @ChiangDi @staticor 我想找到类似小黄鸡、微软小冰等的词库,好像v2ex上以前有人爬取过小黄鸡的全部词库
    elvba
        8
    elvba  
       2015-05-03 21:41:34 +08:00
    把词库弄权做出来的机器人太无聊了。
    听过白丝魔理沙没?
    vimutt
        9
    vimutt  
       2015-05-03 22:16:07 +08:00
    现阶段最实用的 还是雇两个闲人,假装聊天机器人,绝对高智商,不行还可以用b and g搜索大法 哈哈。
    aPsyduck
        10
    aPsyduck  
       2015-05-03 22:19:33 +08:00 via iPhone
    我有一个脑洞大开的想法,先自己随便说句,转给siri,再把siri回复的东西发给小冰,他们是不是会一直聊下去。。。。。。
    xenme
        11
    xenme  
       2015-05-03 22:29:11 +08:00 via iPhone
    @aPsyduck 然后Siri回复了一句:我不知道你在说什么,然后两个人开始循环
    zxhzxhz
        12
    zxhzxhz  
       2015-05-04 02:24:36 +08:00
    萌娘回路
    Moec Core
    Huadb
        13
    Huadb  
       2015-05-04 04:04:49 +08:00
    百度知道
    supman
        14
    supman  
       2015-05-04 05:09:21 +08:00 via iPad
    @xavierskip 多了。。两句话就行了


    关你什么事?
    关我什么事?
    xwzhong
        15
    xwzhong  
       2017-02-07 09:45:32 +08:00
    1. 电影,电视剧等字幕对话。至于哪些方面的数据能用,需要看你针对的方面,比如日常对话,可以多找找符合生活方面的影视作品。
    2. 百度贴吧、微博等社区平台去爬。爬虫技术要求较高,需要突破平台的反扒机制, sina 微博还需要模拟登陆,当然你也可以使用 sina 开放平台提供的 api ,但是有频率限制。最好是根据自己的需要前往指定的平台爬取数据,比如你计划专注于汽车领域的问题,可以去汽车之家这些特定的平台爬取。
    3. 写个程序,用两个机器人互相对话,比如:小冰、小黄鸡、图灵机器人等。能用性待调研。(我预测不太行,除了小冰的回答准确率高一点,其他的待商榷)
    4. 看看别人做 chatbot 的时候用的语料是什么,论文一般会有说 5. 最后一个虽然需要买,但个人认为最优质的语料: http://blog.sina.com.cn/s/blog_16d74e01f0102x0o6.html

    作者:诺言
    链接: https://www.zhihu.com/question/44764422/answer/137439552
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
    06HouLuGuo
        16
    06HouLuGuo  
       2019-06-30 11:58:54 +08:00
    #include<bits/stdc++.h>//主要是针对某网络社区小学生制作的
    using namespace std;
    int main(){
    string a,ans[53]={"我在的呢!","我讨厌你说脏话!","你好呀,很高兴见到你!","你好呀,很高兴见到你!","我在的呢!","你猜","才不好笑","不要笑了","你很讨厌哎!","笑什么?","你很讨厌哎!","你很讨厌哎!","你很讨厌哎!","再聊一会呗,为什么不聊了","你可以和我日常聊天","你好呀,很高兴见到你!","你好呀,很高兴见到你!","你好呀,很高兴见到你!","你好呀,很高兴见到你!","迷你就是这样!","我是小星机器人","应该很好吧!","我是 2005 年 4 月 1 日生的,你猜我多少岁!","我也是呢!","谢谢你的评价!","我可以给你讲笑话","这是第 2 代!","会回复的!","我是 2004 年 4 月 4 日 4:44 生的,你猜我多少岁!","0 是介于-1 和 1 之间的整数。是最小的自然数,也是有理数。0 既不是正数也不是负数,而是正数和负数的分界点。0 没有倒数,0 的相反数是 0,0 的绝对值是 0,0 的平方根是 0,0 的立方根是 0,0 乘任何数都等于 0,除 0 之外任何数的 0 次方等于 1。0 不能作为分母出现,0 的所有倍数都是 0。0 不能作为除数。","为什么烦呢?","应该是的。","我是小星机器人!","你比我牛呢!","我知道的没你多啦!","我是小星机器人!","我的智商低,你的智商可高这呢!","我的智商低,你的智商可高这呢!","你猜!","我不是十万个为什么!","你猜!","你就是很帅呀","你就是很聪明呀","你就是很美呀","这个很难说!","你就这么直接吗?","我不知道!","你先说!","你很酷,总行了吧!","我很讨厌你为难我","你确定?我不信","我不知道","我搜集到的笑话:还没有呢 "};
    string que[53]={"在","去","你好","nihao","人","还","233","啊哈","额","呵","em","哦","…","不聊了","help","Hi","hi","Hello","hello","迷你","你是谁","天气","大","爱","作品好","无聊","更新了吗","回复","岁","0","烦","大佬","叫","牛","知道","名字","智","iq","男","为什么","女","帅","聪","美","会","不会","怎么","说","酷","为难","已经","是不是","笑话"};
    while(1){
    int j=-1;
    cout<<"你的想说的话:";
    cin>>a;
    for(int i=0;i<53;i++){
    if(a.find(que[i])!=-1){
    j=i;
    }
    }
    if(j==-1)cout<<"小星机器人:不知道该怎么回答好"<<endl;
    else cout<<"小星机器人:"<<ans[j]<<endl;
    }
    return 0;
    }
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     5820 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 02:19 PVG 10:19 LAX 18:19 JFK 21:19
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86