V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yx1100
V2EX  ›  程序员

本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

  •  
  •   yx1100 · 2019-03-09 09:14:58 +08:00 · 12650 次点击
    这是一个创建于 2087 天前的主题,其中的信息可能已经有所发展或是发生改变。

    导师比较坑爹,只给了个这么个方向就了无音讯了。

    目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

    有个学长大概给了个思路:

    1. 拿一些现成的句子
    2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
    3. 拿其他的句子进行比较分析准确率、召回率就好了

    1. 取一些常用的网络谣言
    2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
    3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

    然而我承认比较学渣,也没看的懂他说的意思。。。

    所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

    说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

    如有帮助,万分感谢🙏

    第 1 条附言  ·  2019-03-09 12:28:58 +08:00
    截止到 3 月 9 日 12:30 分,61 楼回复。

    我的导师给了一段话「网络谣言诞生具有一些典型特征,传播特性是其中一个重要特征。如何总结谣言的传播路径、传播时间特性、传播者行为特征来识别谣言,对网络空间安全有重要意义。该题目需要大量收集资料,分析整理出可行方法,并简单加以实验验证。」

    感觉好像变成通过特征来识别了?这个还是通过机器学习来实现吗?

    迷...
    第 2 条附言  ·  2019-03-09 19:05:29 +08:00
    截止到 3 月 9 日 19:03,114 楼回复

    可能有几点需要说明一下:

    1. 这个题目是我自己选的,但我选之前确实没有这方面的了解。我们学校是这样的,所有老师每个人给出几个题目,然后汇总起来,让全院学生一起选,我只是「刚好选了」这么个题目而已,选之前我也完全没有接触过我的导师;

    2. 其实大家心里应该也有数,只是一篇本科毕业论文而已,我也只是想写出来混个毕业,所以并不是要能做出个多「完美能用」的东西出来,只要意思够了就行了。所以就是来求个思路而已;

    3. 我咨询的这个学长和这个选题和我的导师没有任何关系,只是我一个关系比较好的直系学长而已,他也不是做这方面研究的。所以他只是「建议」我这么去做而已;

    4. 做不做得了我都要做,就是因为我不会所以才来问的。如果一遇到困难就撒手的话,那永远都一事无成。所以我先谢谢所有提供帮助的人,留言太多了,我也没法一条一条的回复,感谢帮助🙏。
    135 条回复    2019-03-23 15:44:53 +08:00
    1  2  
    SsuchingYu
        101
    SsuchingYu  
       2019-03-09 16:48:20 +08:00
    @murmur #99 弱弱地问一下,新京报散播过啥谣言?
    murmur
        102
    murmur  
       2019-03-09 16:49:24 +08:00
    @SsuchingYu 搜索引擎搜 新京报 造谣
    SsuchingYu
        103
    SsuchingYu  
       2019-03-09 16:53:46 +08:00
    @murmur #102 100% 理中客是不可能的。
    Aixtuz
        104
    Aixtuz  
       2019-03-09 16:54:23 +08:00
    又仔细看了下问题和回复,也如以上大多观点:
    对某一条信息的语言逻辑进行谣言判定,暂时想不到什么可行方案。

    对传播特点判定可能性,对大量数据归类特征,准确率终究也是个问题。
    zkwang
        105
    zkwang  
       2019-03-09 16:56:14 +08:00
    须了解,没有辟谣的事情未必是真的
    taobibi
        106
    taobibi  
       2019-03-09 16:56:37 +08:00
    现在不是有征信机制吗?好像可以购买个人征信的接口,然后把征信低的,提升谣言比例。然后在学习判定
    murmur
        107
    murmur  
       2019-03-09 16:57:13 +08:00   ❤️ 1
    @SsuchingYu 现在谣言都升级了,太弱智的谣言一看就被看出来,早就没有这种的东西,只有朋友圈才会有这种低等谣言
    paopaotangdong
        108
    paopaotangdong  
       2019-03-09 17:02:22 +08:00
    谣言用机器学习分类( svm。。。等)是不可能做出来的,特征也没有用,谣言的传播路径、传播时间特性、传播者行为特征和非谣言的这些特征完全一样(仔细想想是不是)。 标题党不一定是谣言,不是标题党也不能说明他正确,
    jssyxzy
        109
    jssyxzy  
       2019-03-09 17:06:08 +08:00
    ls 我觉得关注点不太对,
    关注点应该是写一篇“网络谣言识别”的论文,而不是“网络谣言识别”本身,
    你指望一个本科毕业的人能解决这个大问题,是不可能的。
    incompatible
        110
    incompatible  
       2019-03-09 17:17:33 +08:00   ❤️ 2
    光看主贴的话,我觉得这个不太难,做一个贝叶斯分类器,然后用已有的谣言去训练它就好了。这个对于本科毕设来说是难度适中的。

    看到你的补充,我觉得你的导师很可能是个水货,然后他在网上看了 “阿里巴巴达摩院造个“神器” 谣言识别准确率 81%”之类的新闻就灵机一动想到一个通过传播路径判断谣言的点子。阿里巴巴有资源干这个,你导师一个高校教师自己有没有资源支持学生干这个难道心里没点数吗。。。。
    evagreenworking
        111
    evagreenworking  
       2019-03-09 18:11:35 +08:00 via Android
    "网络安全空间"都出来了, 你导师看来学习 app 积分很高啊。
    winglight2016
        112
    winglight2016  
       2019-03-09 18:29:46 +08:00
    lz,就冲你看不懂师兄给的建议来说,这题目你做不了,早点考虑怎么外包出去吧
    metrxqin
        113
    metrxqin  
       2019-03-09 18:56:50 +08:00
    很简单,谣言的必要条件是没有**来源注明**。 如果有来源注明,在根据来源的权重来判断可信度,判定是否为谣言。
    metrxqin
        114
    metrxqin  
       2019-03-09 18:57:53 +08:00
    可以参考谷歌或者 Facebook 打击假新闻的解决思路。
    DAPTX4869
        115
    DAPTX4869  
       2019-03-09 19:33:59 +08:00
    这玩意的难度是本科生能干的吗。。。
    zheyu
        116
    zheyu  
       2019-03-09 19:53:51 +08:00 via Android
    传播路径的话可以看看 social network 相关的论文?我也不懂,随口说说。
    ftdx112
        117
    ftdx112  
       2019-03-09 20:08:37 +08:00
    外行表示好高大上。。。但咋感觉一个语义分析的东西变成了一个标签匹配的东西
    w2er
        118
    w2er  
       2019-03-09 20:17:16 +08:00 via iPhone
    这个题目简直前途不可限量。不过呢,如果宽泛说谣言两个字怕是有点难。。不如考虑一下某个细分领域的或者某个特定媒体的,会不会好一些呢
    bilibilifi
        119
    bilibilifi  
       2019-03-09 20:17:21 +08:00
    这个成果我觉得至少图灵奖级别的吧,可靠地判断任意谓词逻辑的真值
    Heyavc
        120
    Heyavc  
       2019-03-09 21:11:37 +08:00
    这个项目阿里达摩院里有,叫 AI 谣言粉碎机还参加了比赛。
    wizardoz
        121
    wizardoz  
       2019-03-09 21:28:53 +08:00
    你自己都无法辨别谣言,你怎么设计出一个能辨别谣言的机器?
    janhu9527
        122
    janhu9527  
       2019-03-09 21:47:25 +08:00
    我觉得这课题还不如换成欺诈信息识别比较好
    谣言的识别真的好难,文笔好的以假乱真,只有实际考察求证才能破解
    janhu9527
        123
    janhu9527  
       2019-03-09 21:53:26 +08:00
    @janhu9527 实际上阿里的谣言识别机也是利用了大量的知识数据库作为基础
    miaobug
        124
    miaobug  
       2019-03-10 00:07:59 +08:00
    我的感觉是...
    你师兄的建议比你的水平高一个量级
    你导师的思路又比你师兄的建议高一个量级
    所以你做出来...应该是基本不可能的
    “如果一遇到困难就撒手的话,那永远都一事无成。”如果你大学四年都这个态度,学 CS 专业大概不会看不懂师兄的建议。所以我也跟楼上一些人一样建议花钱找人做吧...
    itenyh
        125
    itenyh  
       2019-03-10 00:19:48 +08:00 via iPhone
    都要毕业了,你这个连点思路都没有,如果是你的专业的话,可能我想说一句 你可能不适合做这个,仅供参考
    Muninn
        126
    Muninn  
       2019-03-10 00:21:07 +08:00
    师兄的思路应该是可行的

    导师说的没看出来。本科论文是不是只需要写一篇思路加 demo,不用实现啊……

    传播路径的话,微信是取不到的。

    微博能取到但是很难。

    媒体之间互相抄能取到但是也很难,需要买到或者自己爬到一定时间的媒体资讯。

    有的谣言传播时间很长可以和爆炸新闻区别开来。但是有的新谣言光传播路径真的很难区别特征。

    这个用传播路径的思路真的是太难了,怎么都感觉导师应该外行瞎想的。
    shyrock
        127
    shyrock  
       2019-03-10 00:27:01 +08:00
    师兄瞎几把支招,谣言识别不在当前大火的 DL 能力范围内。倒是导师的提示有效地把识别谣言本身转换成评估传播路径上的人的可信度问题,这是可以实现的,但是跟机器学习没关系,别瞎蹭热点。
    zztt168
        128
    zztt168  
       2019-03-10 00:38:09 +08:00
    前两天去阿里玩,看到他们宣传有谣言粉碎的实验项目。不知道是否有开源的轮子。
    我觉得这个题目够难,首先是分词,然后是语料库,接着是算法。
    Shynoob
        129
    Shynoob  
       2019-03-10 00:53:21 +08:00
    这个想做简单就简单 想做难就难,我觉得你整个词库然后 nlp 对比下差不多了
    sunsolzn
        130
    sunsolzn  
       2019-03-10 01:20:47 +08:00
    这题目简单,
    负能量的肯定是谣言必要条件之一,正能量哪怕是假的也不是谣言,而正负能量分析的网上有很多教程。
    传播 500 次是必要条件之二,负能量的东东传播几次没关系,传播多了管它是真是假判定成谣言肯定没错,
    这么简单的重复率检测应该会吧。
    wwhc
        131
    wwhc  
       2019-03-10 01:31:32 +08:00
    @SsuchingYu 随便一搜,就看到知乎上的“知情人士”说:“新京 伪满洲国首都,新京报受日资资助,也可以说是日本在中国的媒体,还有一个南方都市报 这些的媒体不造谣生事怎么能行”
    maemolee
        132
    maemolee  
       2019-03-10 01:46:43 +08:00
    谣言的根本特征是它所描述的事实不成立吧……用上一切符合所谓“谣言的语言特征”写一条真实的新闻,它也不会变成谣言啊。
    lzx801
        133
    lzx801  
       2019-03-10 02:08:24 +08:00
    https://arxiv.org/pdf/1505.02463.pdf 了解一下 Truth finding,这是 data mining 的一个子领域。
    YvesX
        134
    YvesX  
       2019-03-10 02:27:59 +08:00
    都这个时候了,毕业要紧。

    首先谣言的定义要小,亩产十万斤或者四千点是牛市起点这种事实错误,你要怎样识别出来呢?尝试拿长辈朋友圈的那些沙雕文章去训练,看训练结果是否能把一些常见的沙雕文章用词找出来,找不出来的话魔改训练集、调参或者加规则(手动滑稽)。
    测试模型对上面那些词是否足够敏感,对写作风格明显的沙雕文章能否初步判断,对于将信将疑的沙雕文章,概率波动是否靠谱。展示判断结果时话不要说死,把概率转成符合逻辑的百分比或者高中低的评级。
    拿文章标题去搜索引擎或微博爬结果,如有权威媒体的发布或辟谣,将结果强行调整到谣言嫌疑低或高(手动滑稽)。
    dallaslu
        135
    dallaslu  
       2019-03-23 15:44:53 +08:00
    注[册][一]堆[微][博][僵][尸]号,[发][表]谣言,并[造]势转发。如果有[官][方]帐号[辟][谣],那么……
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   902 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 22:02 · PVG 06:02 · LAX 14:02 · JFK 17:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.