当前位置:   article > 正文

用户画像系列——利用github action自动爬取手机数据_手机评论 用户画像 github

手机评论 用户画像 github

背景:

用户画像系列--在一些中小型公司数据不全的情况下做画像怎么做呢?_诸葛子房_的博客-CSDN博客

在《用户画像系列——在一些中小型公司数据不全的情况下做画像怎么做呢?》一文中,讲解在一些中小型公司如何数据不全的情况下,如何利用现用数据结合一些外部数据来完善画像标签。

里面提供了爬取手机价格的代码,那么有没有什么办法能做到爬取手机价格自动化呢?

调研:

(1)部署一台机器,定时运行爬虫任务进行爬虫----要求有一台机器

(2)利用其他公司实现自动化爬取,比如:利用gitee 流水线、github action,gitee 流水线目前只有200分钟免费,因此考虑使用github action 来处理

实现:

GitHub Action 介绍:https://docs.github.com/zh/actions

首先实现好爬虫代码,保证本地测试可运行,提交到githup 上,新建action

构建自己的workflows:

  1. # This workflow will build a Java project with Maven
  2. # For more information see: https://help.github.com/actions/language-and-framework-guides/building-and-testing-java-with-maven
  3. name: Java CI with Maven
  4. on:
  5. schedule:
  6. # 定时执行,Runs at 17:00 UTC every day
  7. - cron: '0 16 * * *'
  8. # 手动触发事件
  9. workflow_dispatch:
  10. inputs:
  11. logLevel:
  12. description: 'Log level'
  13. required: true
  14. default: 'warning'
  15. tags:
  16. description: 'Test scenario tags'
  17. jobs:
  18. build:
  19. runs-on: ubuntu-latest
  20. steps:
  21. - uses: actions/checkout@v2
  22. - name: Set up JDK 1.8
  23. uses: actions/setup-java@v1
  24. with:
  25. java-version: 1.8
  26. - name: Build with Maven
  27. run: mvn -B package --file pom.xml
  28. - name: Run Java Application
  29. run: java -cp target/zhihu-collector-1.0-SNAPSHOT-jar-with-dependencies.jar org.example.SpiderMain
  30. - name: Commit
  31. run: |
  32. git config --local user.email xiaoqiu2017wy@163.com
  33. git config --local user.name zhugezifang
  34. git add -A
  35. git commit -m "update"
  36. - name: Push changes
  37. uses: ad-m/github-push-action@master
  38. with:
  39. github_token: ${{ secrets.MY_GIT_TOKEN }}
  40. branch: master

设置 Secrets 和仓库权限read and write(保证仓库可以push)

这样就完成了配置,我们就可以利用github action 来做到自动化爬取手机价格数据了

结束语:

本文分享了利用GitHub Action 来实现自动爬取手机价格数据,达到使画像数据更加完善的效果,避免利用服务器等资源,从效果来看是非常方便,文中代码参考:https://github.com/zhugezifang/zol-collector

GitHub Action参考:

GitHub Actions 入门教程

如何使用 Github Actions 自动抓取每日必应壁纸?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/674901
推荐阅读
相关标签
  

闽ICP备14008679号