Skip to content

Feed

微博大数据第一期:标题党识别模型

最近被组里的老大要求,分享一些自己在微博工作中实践的一些机器学习算法。由于自己也是菜鸟,很多实验其实都是简单尝试,希望给大家提供一些启发就好了。

一. 问题的定义

“标题党”作为一个新近才出现的名词,并没有明确的定义。根据华东师范大学雷启立的观点,“标题党”是这样一些信息发布者和转发者的总称,《注意,这些都是“标题党”的套路!》

他们在各种媒介的传播过程中,尤其是在网络媒体和娱乐报刊上,用夸张、歪曲等手段加工制作*耸人听闻的*、与*实际内容并不相符*甚至截然相反的标题,以吸引受众或阅听人的关注。

根据微博头条运营的要求,标题党是指,

标题中出现主观色彩浓厚的字眼,都视为标题党。关键词:“惊现”、“惊爆”、“竟然”、“竟”、“胆敢”、“史上”等。

由此,我们可以将标题党分为**两个维度**来考察。

  • 耸人听闻(一期解决)
  • 强烈情感(震惊,!)
  • 带情绪和态度(千万别吃,深度好文)
  • 促成传播(赶紧告诉,转疯了……)
  • 污(睡了老板的儿子,竟然被老板逼到墙角…)

  • 文不对题(二期解决)

  • 标题不正经,内容很正经