Skip to content

2017

不正经的微博大数据:论桌上足球的攻防实践

作者:微博研发中心算法平台

今天是春节前一天,作为目前在公司内数一数二的选手,感觉可以和大家分享一下桌上足球这项运动的精髓。

1. 背景

桌上足球的英文是foosball(和足球football很像),法国人管他叫它baby-foot。由于名字很奇葩,各地叫法不同,我以前经常迷惑应该如何称呼它。

虽然不同地方的基本操作和规则类似,但是桌子规格的些许变化,比如球员间距、球员的制作材料,都会对比赛产生非常大的影响。所以即使是我这样的老司机,也很难能够在各种桌子上都称霸。

西班牙竞技

微博大数据第一期:标题党识别模型

最近被组里的老大要求,分享一些自己在微博工作中实践的一些机器学习算法。由于自己也是菜鸟,很多实验其实都是简单尝试,希望给大家提供一些启发就好了。

一. 问题的定义

“标题党”作为一个新近才出现的名词,并没有明确的定义。根据华东师范大学雷启立的观点,“标题党”是这样一些信息发布者和转发者的总称,《注意,这些都是“标题党”的套路!》

他们在各种媒介的传播过程中,尤其是在网络媒体和娱乐报刊上,用夸张、歪曲等手段加工制作*耸人听闻的*、与*实际内容并不相符*甚至截然相反的标题,以吸引受众或阅听人的关注。

根据微博头条运营的要求,标题党是指,

标题中出现主观色彩浓厚的字眼,都视为标题党。关键词:“惊现”、“惊爆”、“竟然”、“竟”、“胆敢”、“史上”等。

由此,我们可以将标题党分为**两个维度**来考察。

  • 耸人听闻(一期解决)
  • 强烈情感(震惊,!)
  • 带情绪和态度(千万别吃,深度好文)
  • 促成传播(赶紧告诉,转疯了……)
  • 污(睡了老板的儿子,竟然被老板逼到墙角…)

  • 文不对题(二期解决)

  • 标题不正经,内容很正经