我并不是杰弗里·川普(Donald Trump)的超级粉丝。严格说来,我一点也不喜爱他。殊不知,他的个人魅力是不可忽视的,他的名字一直占有着大部分报刊和社交网络。大家对他的心态是戏剧化的和多边的。他的叙述词要不是十分积极主动的,要不是十分消沉的,针对互联网收集和文本分析而言,它是一些极致的原材料。
此次 研究的目地主要是应用Octoparse爬虫工具爬取Twitter上有关杰弗里·川普的有关文章。随后,大家应用python语言表达开展文本分析,为此来剖析群众对美国总统的观点。 终,大家应用Tableau Public开展数据可视化。
文中尤其合适下列群体:
1、想掌握怎样收集社交网络上的內容或是评价。
2、想掌握怎样运用Python开展文本分析。
先大家开启Octoparse 网站,免费下载 网 新版,并依照标示进行申请注册,登陆后,再开启内嵌的Twitter简单模版。
收集的数据字段包含:
登录名
发布时间
公布內容
图片地址
Tweet连接
评价数,分享数,关注点赞数
先在Twitter收集模版的关键字主要参数中键入"Donald Trump",随后点一下运行收集便会全自动采集数据,正如下图所显示,非常简单,我大约收集了一万好几条Twitter文章,你能尽量多的输入关键字,进而收集大量的文章,收集到文章数据信息后,将数据信息导出来为文本文档,文件命名为"data.txt"。
运用Python开展文本分析
在逐渐以前,请保证您的电脑上早已安裝Python开发工具及其文本编辑,我文章内容中应用的是Python2.7和Notepad 文本编辑。
随后,大家应用了2个感情关键字目录构成的txt文件,来剖析以前收集出来的Twitter信息内容,你能在文尾免费下载这两个文档。
这儿的念头是把txt文件中的每一个感情关键词提取到list目录中,随后测算这种关键字在一条推原文中的頻率, 终大家把相对应包括感情词的文章给记下来。
先,把2个txt文件中的积极主动和消費感情关键字各自储存在plist和nlist的目录中。
随后,对收集出来的Twitter文章开展数据预处理,解决掉全部特殊字符(标点符号和数据等),将一条文章数据信息储存到word_list目录中。
历经数据处理方法后,数据信息只包括清理后的文章,使我们更易开展数据统计分析。事后,大家会建立三个词典:wordcountdict,wordcountpositive,and wordcountnegative。
下面,界定每一个词典,假如在Twitter数据信息中发生相对应的文章,则提升1,并存储到wordcountdict词典中。
下面得话,明确每条文章是不是包括积极主动或是消沉的感情关键字,假如包括了积极主动的感情关键字,则wordcountpositive词典关键字加1,不然确保一个同样的值。假如包括了消沉的感情关键字,wordcountnegative做同样解决。假如文章不包含一切积极主动或是消沉关键字,则未作一切解决。
文本分析:消沉或是积极主动
根据运作上边的Python脚本制作,我明白了535两个消沉关键字及其3894个积极主动关键字,储存在上面相对应的目录中,随后开启Tableau,创建了一个气泡图,以下所显示。
由图能够 看得出,许多积极主动关键字全是片面性的,仅有404种积极主动关键字被应用, 普遍得话,比如“like”、“great”和“right”,大部分关键字是基本的而且偏口语体,如“wow”和“cool”,而应用的否认关键字更为多元化,她们大多数十分宣布而且高級, 常见的是“illegal”、“lies”、“racist”。别的词句,如“delinquent”、“inflammatory”、“hypocrites”也是经常会出现的。
上边关键字与此同时也表明拥护者比改革派的文化教育水准更低,显而易见,杰弗里·川普在twiter客户中并不火爆。
汇总:
在本文中,大家提到了怎样Octoparse手机软件收集Twitter文章,大家还探讨了怎样开展数据预处理和应用Python对Twitter文章开展文本分析。针对编码的详细版本号,你能在下列链接下载。
(https://gist.github.com/octoparse/fd9e0006794754edfbdaea86de5b1a51)
参照连接:
https://medium.com/datamonsters/text-preprocessing-in-python-steps-tools-and-examples-bf025f872908
https://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html
https://github.com/jeffreybreen/twitter-sentiment-analysis-tutorial-201107/blob/master/data/opinion-lexicon-English/positive-words.txt
http://nohumanbeingisillegal.com/Home.html
前10000个Twitter粉丝最难获取?5个小技巧解决粉丝0增长问题!
Twitter是现如今有着超出3.3亿活跃性客户的顶尖社交网络,接近四分之一的外国人按时应用Twitter。它能够协助您轻轻松松地与全世界受众群体联络。数据信息表明,大部分Twitter客户受到高等教育,年收入为每一年75,000美金或高些。这种客户更习惯性应用社交网络做为发觉新知名品牌的专用工具。并且您的Twitter关注者一般会变成浏览您的网址并根据选购来项目投资您的知名品牌的人。因此 …
twitter怎么写推文?你不得不知的八个技巧
有很多营销人员想要提高Twitter互动率却苦于无从下手。实际上有可能你一开始就没写对推文,所以才无法提高展示量,提高互动量也无从谈起,更别说为自己的网站引流了。
…
10个最好的Twitter分析和可视化工具
近期,Twitter为全部客户发布了她们的原生态剖析服务平台,如今你能立即从Twitter得到相关你的文章的一些高品质数据信息。Twitter剖析和数据分析工具致力于根据展现不一样的方法来数据可视化或剖析你的文章、粉絲及其Twitter客户的文章,进而提升使用价值。假如你要在Twitter上剖析和数据可视化你的主题活动,我建议你查询这10个专用工具。
…