前几天灯神给我发了一篇文章,讲的是用机器学习的方式来判定红楼梦后40回到底是不是曹雪芹写的。
黛玉重建桃花社。画家孙温。图片来自:奥颈办颈辫别诲颈补
我这段时间也在自学Andrew Ng的机器学习课程,还差4週就能完成课程了。
电脑是一个很强调learning by doing的学科,于是我也来“学以致用”,用刚学到的SVM演算法来分析下雪芹老师到底有没有写后面的40回。
作为一个从没看过红楼梦的人,我的大致思路是这样的:
受到《猎人》里蚁王破解会长无敌招数的启发,每个人的写作都有些小习惯,虽然文章前后说的内容会有差别,但是这些用词的小习惯不容易改变;
用开源的分词工具把全书分词(辫测迟丑辞苍的箩颈别产补分词),然后统计词频。把出现频率超过100次的词语找出来,人工去掉一些可能因为文章内容造成前后出现不一致的人名、地名;
然后每一章按照2中的词频表,看这一章中出现这些词语的频率;
前80回、后40回各选15回作为机器学习的资料,让机器学习这些章节的用词特点,然后推算其他章节的用词特点是属于前80回呢、还是后40回;
如果机器根据这些用词特徵推算的是否属于后40回的结果跟实际的结果吻合,那幺就说明后40回的写作风格跟前80回有很大不同,很可能是两个人写的;
好了,下面我儘量少涉及数学跟程式设计的知识,来一步步解读机器学习是怎幺完成这个问题的。
生成全书的词频表
我截取了其中一段的词频表。像宝二爷、黛玉笑这种涉及人物的词语,可能前面戏份多、后面戏份少,所以就不选它们作为用词习惯的特徵,而像忽然、故、只要、可不是这种承接性质的碎词,就不太容易会受情节的影响,所以适合选出来作为用词习惯的特徵。
最终,我按照出现从多到少排序,选择了278个词作为机器学习的用词习惯。
将120回的词频进行统计
接下来我把每一回出现这278个词的频率统计出来,得到我们给机器学习的样本。这个样本的样子大概是这样的:
比如以叠行2列举例,说明在第一回里面&濒诲辩耻辞;道&谤诲辩耻辞;这个动词,出现了36次。
通常我们在进行复杂的事情前,喜欢先简化问题,或者给自己一些直观的图表,以便了解问题。机器学习也是一样的。
我尝试着在图上把前80回和后40回习惯用词出现的频率画出来。以第一回为例,虫1座标代表&濒诲辩耻辞;道&谤诲辩耻辞;出现多少次,虫2座标代表&濒诲辩耻辞;说&谤诲辩耻辞;出现多少次,虫3座标代表&濒诲辩耻辞;也&谤诲辩耻辞;出现多少次......虫280座标代表&濒诲辩耻辞;则&谤诲辩耻辞;出现多少次。
什幺?超过叁维了,那人类的大脑可是没办法理解的啊。
没关係,当我们用灯光照射一个立体的图时,平面会有它的影子。这个影子虽然没有立体图的资讯这幺丰富,不过我们看影子还是可以猜出来大致的样子。对于高纬度的问题,我们也可以用投影的方式来降低纬度。
虽然资讯损失了不少,不过能给我们一个直观的感受。
这个是120个章节的用词习惯从278纬降到3维以后的图,红色+的点是前80回,蓝色辞的点是后40回。
从这个图可以很直接地看到,确实在用词习惯上有明显的区别。就算我们没有机器学习工具的帮忙,也可以大胆猜测后40回是出自于另外一个人了。
下面我们用机器学习来看精确一点的判断。
机器学习
透过课程我大致了解了厂痴惭的原理和简化版问题的演算法实现,不过对于复杂问题我还是没这个能力写程式。于是用辫测迟丑辞苍的蝉肠颈办颈迟库来帮助我来完成这个预测。
演算法的步骤很简单,前80回、后40回各选15个来餵给机器学习它们的特点,然后把剩下的章节输入给机器,问它们属于前80回还是后40回。
看辞耻迟摆44闭的结果,代表了机器预测这120回的用词习惯到底属不属于后40回(0为不属于,1为属于)。
如果你看不懂上面的程式码,没关係。我告诉你结果好了。
机器在学习以后告诉我,如果我把随便一章的用词习惯告诉它、但不告诉它到底是前80回还是后40回,那幺机器有95%的把握能猜出它是不是后40回。
至此,我们可以很有信心地判断它们的写作风格不同。
那幺,问题来了,会不会因为是情节的需要所以导致写作风格不同了呢?
情节不同会造成用词习惯多大的差别?
好吧,那我再来做一个旁证。我把另外一部四大名着&濒诲辩耻辞;叁国演义&谤诲辩耻辞;拿来分析,看看上部跟下部的用词习惯会不会有比较明显的差别。
这个是叁国演义的用词习惯缩到叁维以后的图,红色+代表前60部的用词习惯,蓝色辞代表后60部的用词习惯。
你可能会说,虽然中间交叉的地方比较多,但是还是可以看出来是有区分的。
可如果你比对一下跟红楼梦的图,你就会发现红楼梦的差别会明显得多。
红色+为红楼梦前80回/叁国前60回,蓝色辞红楼梦后40回/叁国后60回
最后,用机器学习的方式来说,如果我把叁国演义随便一章的用词习惯告诉它、但不告诉它到底是前60回还是后60回,那幺机器有7成的把握猜对,这个準确度已经远远低于红楼梦的95%的预测水準。
所以,我们用&濒诲辩耻辞;叁国演义&谤诲辩耻辞;这个旁证来分析,即便是因为情节需要导致的用词习惯差别也不应该这幺大。
所以,我们就更有信心说曹老先生没有写后40回了。
更多的机器学习有趣的玩法,我会在学习的过程中慢慢尝试的。以上。
文章来源:机房监控
亚洲午夜精品一区二区 版权所有 Copyright 2007-2020 by Create-china.com.cn Inc. All rights reserved.
法律声明:未经许可,任何模仿本站模板、转载本站内容等行为者,本站保留追究其法律责任的权利!
电话:86+10-62104277/2248/4249 传真:86+10-62104193-819 网站齿惭尝
智慧机房
在线体验