注册微博(网易/新浪/推特)已经三年多了,诚实地说的确浪费了很多时间在上面。筛选一些稍微过过脑子的微博才勉强凑够一篇文章,投入产出比太低。以后还是对时间杀手的社交网站敬而远之好些:首先是少看,其次是不发。把之前的记录下来,做一个小结。
粗略分为四类:技术、时评、互联网和生活。
##技术
关于样本有偏则结论荒谬最通俗易懂的诠释:刚才在微博里做了个调查“你知道微博吗?”,99.3%的朋友选择了“知道”。可见,微博的普及率非常高,我看好它。
跟大数据打交道的人,手下最好有哼哈二将。sed基于row(匹配、替换、选取),awk基于column(字典、统计、计算),二将心心相印,基情四射,百战百胜。
极大似然准则下,认为样本来自使样本出现概率最大的总体,其核心思想是“模型给定,用样本估计参数”;贝叶斯准则在此之上建立,先验分布决定的是样本服从给定模型的可能性,其核心思想是“后验分布~先验分布*样本似然”。再进一步,考虑原因的原因的原因……就是机器学习中很流行的贝叶斯网络了。
对于确定的一族分布,可将观测数据代入概率公式并观察概率如何依赖于未知参数值。观测数据出现的概率是参数的函数,此函数称为似然函数;使得观测数据出现概率最大的参数值,就是参数的极大似然估计。
信息流的个性化归根结底还是为了提高信息获取的效率。所以对保持在线的重度用户不需做任何个性化,对偶尔登录的轻度用户就必须使其不错过离开时所沉淀的他可能很关心的微博,因此除兴趣和社交两点外,上次登录时间、登录频度、每次登录保持时间(RFM)会是从信息获取效率这角度去分析的主要特征。
连续型因变量本身就可以直接做回归或方差分析,对其离散化处理后再Logistics NaiveBayes SVM C4.5 各种分类后还整个融合,简直就是脱了裤子放屁。比如你路上搭讪一位美女:敢问小妹芳龄几何?结果人家答道:臣妾属于0~100岁这一组的。过度离散化是毁灭信息的必杀技。
@李开复 其实我猜测十有八九这个相关的实际意义,就是两者都跟人均GDP相关……别把相关当因果,数据上发现了杂草长得高的时候冰淇淋的销量就高,所以卖冰淇淋的人都去让除草的人失业是么。
现在深究一些ML算法才发现,即使是数学系出身数学分析学了三个学期,线性代数和概率论与数理统计各自都学两个学期,学到点东西也就皮毛而已。应用不顺畅其实是因为认识不深刻,比如雅可比矩阵和似然函数,投影矩阵和最小二乘法,正态分布和最大熵原理,感知机和阶梯逼近,后来都是殊途同归的感觉。
教训 1.要标准化输入输出的分隔符和换行符;2.要显式的标记出脚本语言的变量类型;3.不保留任何将来可能会用到(意味着现在没用)的数据列;4.要有至少是纸笔的书面记录,无论是复杂还是简单的工作任务交接;5.哪怕是一行SQL语句也要同时review程序和数据,做最坏的打算。
<漫画统计学>中提到线性模型可以做的事情比如:通过“最高气温”来预测“冰红茶的销售量”;通过“店铺面积”和“距离最近车站的距离”来预测“新分店备选店铺的月营业额”;通过“吸烟量”和“饮酒量”来预测“癌症的患病可能性”。 以100%几率收益1万块钱,或者以50%几率收益4万块钱并以50%几率损失1万块钱,虽然算期望后者还要大一些,但多数人都会选择前者;同样玩法,只是把1万块钱换成1块钱,多数人却都选择后者。——期望为正时决定人们选择的,是他所能够承受的损失(方差)。 一个问题只要能够清晰地表述,就已经解决了一半。与其寻求更好的估计方法,不如寻找更高质量的数据。 因为工作需要买了一本讲社会物理学的书,其中第二章的标题是《基于拉格朗日原则的和谐社会建构机制分析》,顿时对学术界失去信心了。 ##时评 自近代以来,两广一直能领风气之先,推动社会进程。太平天国揭竿举义历时十余年动摇清廷根基,黄花岗72烈士慷慨就义敲响清廷丧钟,二次革命蔡将军起事反袁保卫共和,北伐战争蒋校长率国民革命军除北洋军阀,30年改革开放广东经济总量连续超越新港台……这次又是他替我们出头。广东仔,我撑你。 廖岷,男,汉族,1968年12月出生,江西南昌人。1988年2月入党,1993年7月参加工作。现任中国银行业监督管理委员会上海监管局局长,高级经济师。廖岷,曾是校园歌手,在大地唱片的专辑《校园民谣1》中,收录了他最著名的单曲《等人就像在喝酒》。呵呵,人生怎么走,谁能想得到啊。 家天下皇帝觉得是自己的,为了给自己儿孙积德,反而会好好干。一个谁当皇帝都不会负责的专制体制,到后来就是谁都会乱来,反正漏子有下届来兜。 @任春雷 人生处在什么阶段就做什么事儿,所以我认为以下这些都不应该:上小学之后还拿不尿床来说事儿,上大学之后还拿高考分数来说事儿,上班之后还拿大学排名来说事儿,创业之后还拿节目名次来说事儿。没当过老板,但我认为一个好的老板最重要的一点就是:那些跟着你混口饭吃的人,能不能管饱,能不能吃好。 一次辩论赛的辩题是:辩论赛到底有没有意义。正方:辩论赛有意义。反方:辩论赛无意义。辩论赛举办当天,正方准备已久,引经据典,妙语连珠,反方无人出席。最后大家一致认为反方获胜。这个故事告诉我们:行胜于言。 其实领导干部有经济问题不是坏事,这样就不至于在需要出问题的时候牵涉出刑事问题了。 陈晓卿导演的《舌尖上的中国》火了,这严重说明只要能把自己的兴趣爱好(可参见牛博上他的吃货系列)和职业发展(科班出身的央视纪录片编导)结合起来,就一定会爆发啊。似乎讲扎克伯格的电影《社交网络》里也有类似的话:如果一个人能够把一件事做得很牛逼,那一定是他从小时候起就在琢磨的事。 北京几乎每个小区门口都有多家房产中介,其创收手段包括将房主的房源承租后提价出租吃差价,约定涨价以抬涨市场租金,每年重复多次收取中介费,租约到期后以各种理由不退租户押金,甚至改变房屋结构群租获得暴利。房产中介不创造任何价值,却依靠暴利雇佣大批员工,后者反过来为雇主助纣为虐。 房产中介的暴利从其规模就可以看出:百度地图显示,海淀、朝阳区分别有3000多家,西城、东城区分别有4000多家房产中介。知名的如链家地产在北京有670多家,我爱我家有440多家,中大恒基有320多家,21世纪不动产有280多家,其他中小中介及二房东不计其数。这是个在北京城里吃人的行业,吃法参见上条。 以前我真不明白为啥北京随便一个小池塘就敢叫做海,前海后海北海西海中南海什刹海什么的还挺多。后来北京下了一场雨。 兵乓球女单1/4决赛,中国选手丁宁完胜日本选手福原爱,不过两个亚洲人都染了一头的黄头发,而已经晋级四强的中国选手李晓霞、新加坡选手冯天薇、日本选手石川佳纯都是亚洲人染了黄头发,女乒坛有点意思。 《多收了三五斗》,叶圣陶先生的短篇小说。从河埠头的米行粜米到街上买家用,在不同场景下描述了20世纪30年代旧中国江南一群农民忍痛亏本粜米,丰收反而成灾的故事,形象地揭示了旧中国在三座大山的压迫下,农村急遽破产的现实,预示着农民必将走上反抗的道路。 唐福珍以死抗争的强拆,正是李春城书记的政绩,冥冥之中自有天意。 在成都街头看到出租车顶灯以醒目红字滚动显示“厉行勤俭节约、反对铺张浪费”。在一份研报中看到预测百度当前季度营收将大幅增长的原因是最近广电总局禁止鼓励在奢侈品行业中挥霍浪费行为的广告在电视和广播电台播放。从保持先进性到科学发展观到节约反浪费,政治无处不在,政治也赶时髦。 据说由于韩国物价房价过高,大部分韩国人的结婚年龄都推迟到了40岁以上。 朝鲜拥有核武就像一个精神病人举着一把枪,关键是丫枪口还指着你。 如果神木房姐的钱真是从民间借贷融来的,那投资到北京房产是再合理不过的了。十年来北京房产增值能力秒杀同期银行利率,睥睨任何理财产品以及合法实业,增幅也甩地方房产好几条大街。 吴英之后,所谓“非法集资”以后还将不断涌现,尤其在民间资本较为活跃的江浙地区。国资银行和权贵私募继续垄断优质投资资源,通货继续严重膨胀,银行利息继续人为压低,进而实体经济和金融工具都没有任何投资价值,民间资本找不到好的出路,只能继续以这种方式跟官办资本“死”磕。 对照看了两份简历发现:薄督30岁的时候还是个本科生,居然后边还去读了个研,基本没有基层的一把手经验;习储26岁就已经是国务院办公厅、中央军委办公厅秘书,30岁已经去当县委书记锻炼了,有丰富的一把手经验。的确是,错过一时就错过一世啊。 全国人大代表,中国人民大学校长纪宝成认为企事业单位都应取消行政级别,同时他也反对取消高校的行政级别。他认为中国是一个等级森严的社会,当一个社会以行政级别来衡量所有人的社会地位时,取消高校的行政级别,就是贬低教育。——这实在是个看事情很清楚的人。 野史称孙文曾要求日本出兵帮助革命党人推翻大清,那他跟现在的带路党其实没什么区别。有人说中国变成殖民地会如何如何,乃们会如何如何的被歧视,其实现状难道不是一样。医疗、教育、养老都是绑定在户口之上的,非京户们一样被歧视;房子、妻子、孩子都是掏空几代人的,没有钱的一样被歧视。户口的地域歧视和被殖民地的歧视,没什么本质区别。 新注册用户要实名,老用户觉得和自己没关系,新用户也没有发言权,所以没有抗议声音。等到强迫老用户要实名的时候,后来注册已经实名的用户也觉得和自己没关系,站在一旁看老用户的笑话,有没有声音已经没多大关系。这是微博的现代版“统一战线”。我觉得分而治之这一招,当局就是用得特别好。 ##互联网 搜北京时间出时间校准,搜北京天气出天气预报,搜北京成都出机票预订,搜北京建设出股票行情,搜北京北京出试听下载,搜北京爱情出在线观看,搜北京空气质量却出不来PM2.5值,把事情做到极致,这不应该啊!@百度 标准化的B2C商品,包括话费彩票水电气网,其实都适合扔到搜索框里直接购买,这对于购物决策路径短的懒人绝对是个福音。 十年前刚进科大时,从校车站广告牌上知道的讯飞中文语音识别技术很牛,可惜有些生不逢时吧,据说做过很多无关语音的系统项目来支撑公司业务,蛰伏那么久终于等来智能终端普及语音需求强劲的移动互联网时代,发力终端应用、中移动的入股、对微信技术的输出都是了不起的成就,继续看好你@科大讯飞。 搜索引擎便捷之外更有平等,是精神先于肉体的“跑步进入共产主义”。 原来爆红的百度HR刘冬和《金陵十三钗》中玉墨的扮演者倪妮是同班同学,两人都来自中国传媒大学南广学院语言传播系07级。@百度 果然是个新媒体公司,我信了。 新浪微博在推出具有中国特色的“关注但屏蔽”功能后,紧接着推出“悄悄关注”功能,前者阴险,后者狡猾。真尼玛洞悉了国人的复杂性分裂型人格,推特即使没没墙可能也得服输吧。 你知道吗?pony是小马的意思,robin是知更鸟的意思,jack是外星人的意思。 微信在农历年前发布,微吧在伦敦奥运前发布,微人脉在阳历年底发布,感觉运营的节奏的确很有讲究。 新闻联播结束语是“如果你还想获取更多的新闻资讯,可以关注我们的官方微博@央视新闻”,微博已然成为官方要大力扩张影响的宣传重地了,新浪的极大利好啊。 谷歌的行业结构看起来比百度更加良性,那些处于广告优势地位的也是处于食物链顶端,但要注意行业结构组成跟经济体的发展阶段也是相应的。比如中国和美国的保险业就是天上和地下,在美国学统计大多把保险公司精算师作为自己的职业目标,而在中国大家对保险的印象还停留在电话推销以及《感恩的心》上。 如果说现代人类世界是碳基文明,根据碳、硅、锗、锡、铅这按照复杂程度的排序来推测,未来的半导体机器人很可能将建立硅基文明取代现代人类世界,而发自硅谷的传奇,也许只是下个文明的前奏。 现代人遇到的最大困难就是,在信息过载的海洋中,为找到有价值的内容而花费的时间太多,说白了就是投入产出比太小。 网络时代就是这样,只要你想知道,就没有不能知道的,其实这未必就是好事。 列宁曾经说过:转发微博是最高形式的恭维。 城市化进程越快,地图产品的价值就越大。 ##生活 以前不知道汪峰为什么那么爱唱北京,长安街上,晚安北京,北京北京,春天里……北漂两年后,有一点知道了。“像一粒尘土飘在风中,像个烟头扔进垃圾桶,像团废纸投入火中,像朵花儿被车轮压过。”既是对自我的思索,对社会的愤怒,对生活的妥协,也是对青春的缅怀,对理想的失落,对爱情的迷惘。 一个经常进入的梦境是过桥 浑浊的河水夹杂大量泥沙 湍急的水流好像洪水过境 而且水面距离桥面很近随时可能漫过 物理教授课堂演示单手劈砖,物理老师在刀尖上做俯卧撑,所以说物理这个学科终于对普通人关上大门了是么。 努力是努力的回报,漂泊是漂泊的回报,原因是原因的原因,结果是结果的结果。 不想再搬砖?从不把自己看做屌丝开始。 你今天的困境,就是你以前的困境,还可能是你未来的困境。 发现电影男主角通常都会有一个前妻,以及配套的对她非常好的现任丈夫。 爱的反义词不是恨,是呵呵。 悲剧就是还没年轻有为,先年轻有围了,还是腰围的围。 “有时人类的肌肉先放松进入睡眠,这时候大脑还在清醒,感觉不到肌肉的反馈,就释放一个强烈的刺激信号,以求证自己是否死去。于是人类在半睡半醒间忽然感觉一脚踏空。” 我自己也有过这样子,也有看到过小朋友睡着之后这样子,原来如此。 很多同窗情谊都仅仅存在于记忆当中。有些人离开那个时候,其实就一辈子都不会再见,可惜当时并不曾意识到这一点。 青春是孤独的番茄炒蛋挂面,青春是寂寞的青椒肉丝盖饭,青春是永不打烊的沙县小吃,青春是无处不在的兰州拉面。 不知道是不是约好的,方便面大多是方的。 高富帅都是相似的,屌丝各有各的屌丝。 想好了一半就立刻行动,剩下那一半行动会告诉你。 你现在怎么糟蹋身体,身体以后就怎么糟蹋你。 所有的天才都需要观众,这是他们的致命弱点。 像傻逼一样坚持,就会得到牛逼的结果。 蝴蝶是黄油飞飞,蜻蜓是龙飞飞,萤火虫是火飞飞,只有苍蝇是飞飞。 玩draw sth. 学到两个以-ffin 结尾的单词:Muffin, 学名“松饼”,被康师傅音译成了“妙芙”,实际上就是黄油蛋糕。Griffin, 学名“狮鹫”,音译为“格里芬”,是一种希腊神话传说中的生物,拥有狮子的身体及鹰的头、喙和翅膀。 十八岁的时候的确很快乐,但即使能回去我也懒得回去了,成长太累。 情侣间吵架时对双方的了解,比卿卿我我时要多得多。这就是为什么不吵架的夫妻往往过不到头,反而吵吵闹闹的都能走完一辈子。 今天晚上自己做饭给自己吃了,做饭的时候我想,这个城市里,那些单身的人,现在都在做什么呢,也在切菜吗? 原来《Poker Face》还是《亚瑟和他的迷你王国2》的主题曲,而且是童声版的。CCTV 6在周末上午都会放点适合孩子看的电影,这跟一到放寒暑假各频道就开始连播西游记一样,时间安排得都挺好。 不与狗争肉,不与猫争鱼,从狗那儿要鱼,从猫那儿要肉。都是很好的道理,不过碰到又要吃肉也要吃鱼的人就没得办法了。 一直以为憨厚朴实的直肠子才好相处,谁知道跟真正的聪明人在一起更轻松。窃以为无论是婚姻还是爱情,想得到幸福有且仅有两个条件:自己做一个聪明人;找一个聪明人。 严重感到如果拥有整块时间而用来刷微博的话就实在是太浪费了,投入产出比非常低。碎片信息就是应该留给碎片的时间,以后刷微博还是严格控制在上下班的路上好了(这么一想发现微博移动端登陆用户占到60%其实是非常make sense的)。 离人群远一点,离自己就近一点。 漫画统计学>