赞
踩
目录
大学里,课程往往安排了线上学习内容,有些课程还需要参与在线讨论。为了节省我们宝贵的时间来打游戏写论文,可以直接爬取讨论区的内容并提取关键词,利用关键词直接写作。
本文将介绍如何使用Web Scraper插件爬取在线课堂的讨论区,并使用MATLAB进行内容筛选和关键词提取。
软件要求:Chrome或Edge+Web Scraper+MATLAB
以Edge浏览器爬取头歌课堂讨论区为例
如图,按箭头顺序依次打开扩展按钮、“打开Microsoft Edge加载项”,在打开的界面中搜索Web Scraper,并点击获取按钮。
安装好后,就可以点击扩展按钮看到Web Scraper啦!
点击这个这个插件,会提示“Press F12 or Ctrl+Shift+I to open Developer Tools”。那么我们通过按F12或者Ctrl+Shift+I打开开发者工具界面。
不出意外,我们可以在开发者工具界面中看到Web Scraper的选项,点击Web Scraper。
在选项栏中点击Create new sitemap,在展开的选项中点击Create Sitemap。
之后会出现如上图所示界面,需要我们填写要爬取的网站信息。Sitemap name可以随便填,只是为了方便记忆,这里我设置的名称为“123”。Start URL 1填写要爬取的网站url。如何找到要爬取的网站的url呢?
以头歌教学平台为例,首先打开要爬取的课程的讨论区,点击第一个(最新的)你想爬取的发言,如图所示
复制顶端的链接,填到Start URL 1中。注意到复制的网址末尾是一串6位的数字x,这一般表示讨论的序号。再打开最后一个(最晚的)你想爬取的发言,只需要复制链接最后的数字y即可。
将这个数字按照下图的形式填入Start URL 1中,即[x-y:1]。
如果直接填入的网址无法运行,在讨论区按F12打开开发者工具,点击选项中的“网络”,之后打开你想爬取的发言,“网络”界面下会出现请求名称,点击该请求,即可看到该网站的URL。
点击Save Sitemap保存设置。会出现下图所示的界面,点击Add new selector。ID填入container1,Type选择text,Selector选择select。
点击select后就可以直接用鼠标点击想要爬取的网站元素,这里直接点击发言内容。
如果网页中有多个相同元素需要勾选,只需要点击前两个相同元素,工具就会自动选中剩余的元素。
选择完后点击Done selecting,并点击Save selector,这样就创建好了一个Selector。一个Selector只能爬取网页中的一种元素,因此如果要爬取多种元素,需要创建多个Selector。这里我需要爬取发言的标题、内容和作者姓名,因此创建了三个Selector。在创建时记得取消Multiple选项,否则同一页面的三个元素会被放在不同行。
设置好Selector后,可以点击Selector后面的Element preview预览要爬取的元素。
点击Sitemap 123(这里的123是之前设置的Sitemap name),在展开菜单中点击Scrape,在弹出的页面中点击Start Scraping即可开始爬取。
结束爬取之后,点击Refresh按钮即可看到爬取的内容,点击Export data,选择xlsx格式文件即可导出爬取的内容。
可以看到已经爬取了标题、内容和作者的信息。不过由于部分课程共同使用一个讨论区URL,因此爬取的内容还包含了其他课程的讨论区。在下一部分我将介绍如何使用MATLAB处理这些数据并提取关键词。
使用第一部分中同样的方法爬取课程的学生名单,导出数据命名为“tougestudent.xlsx”。利用代码筛选出本课程的学生发言内容。代码如下
- [~,txt]=xlsread('C:\Users\HP\Downloads\tougestudent.xlsx');
- [~,content]=xlsread('C:\Users\HP\Downloads\123.xlsx');
- [m,n]=size(content);
- s1=['"'];
- s2=['"'];
- a={};
- for i =1:m
- s3 = strcat(s1,content{i,5});
- s4 = strcat(s3,s2);
- if ismember(s4,txt)
- a{end+1,1}=content{i,3};
- a{end,2}=content{i,4};
- a{end,3}=content{i,5};
- end
- end
- filetitle=['C:\Users\HP\desktop\','内容.xlsx'];
- xlswrite(filetitle,a);
运行之后会在桌面生成一个“内容.xlsx”文件,复制其中的讨论内容,粘贴到词云生成网站中即可生成关键词。之后利用关键词和学习内容自己写作或者交给ChatGPT帮忙写都可以啦。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。