当前位置:   article > 正文

VS实现一个爬虫程序<c++>获取网页源代码_vc抓取网页源代码

vc抓取网页源代码

目的:写一个爬虫程序,可以进入http开头的网页,将网页的源代码显示出来.

结果展示:

思路:

1.解析网址

2.连接服务器->发请求

3.接收源代码并存储起来

函数:

1.解析网址函数:

http://......./......

//....../之间的字符我们将其存储到urlAddr[]当中

/......之后的字符我们将其存储到urlPath[]当中

  1. //存放网址
  2. char urlAddr[256];
  3. //存放网址后面的路径
  4. char urlPath[256];
  1. //解析网址
  2. void analysisAddr(char* str)
  3. {
  4. //每次解析之前先把数组清空
  5. memset(urlAddr,0,256);
  6. memset(urlPath,0, 256);
  7. //找str字符串当中的 "http://" 如果找到则输出"http://"地址给了*p
  8. char* p = strstr(str, "http://");
  9. if (p == NULL)
  10. {
  11. return;
  12. }
  13. p += 7;
  14. //scanf 从cmd输入 sscanf 从第一个参数输入
  15. sscanf(p, "%[^/]%s", urlAddr,urlPath);
  16. printf("网站:%s\n",urlAddr);
  17. printf("网站后面:%s\n", urlPath);
  18. }

strstr(str,"http://");的含义在于,先找到str字符串当中"http://"的位置

如果str字符串当中不存在"http://"字符 则返回

否则+7,因为"http://"是7个字符

sscanf从p当前的第一个参数输入,urlAddr字符串的内容一直从p的开端到"/"字符

urlPath字符串的内容是从/之后

然后将两个字符串打印在窗口上.

2.连接服务器->发请求

  1. void connectAddr(char* urlAddr)
  2. {
  3. //设置网络协议版本
  4. //选中按下f12可以看这个函数的内容
  5. WSADATA wsaData;
  6. WSAStartup(MAKEWORD(2,2),&wsaData);
  7. //创建socket
  8. s_socket = socket(AF_INET, SOCK_STREAM, NULL);
  9. //绑定
  10. SOCKADDR_IN addr = { 0 };
  11. addr.sin_family = AF_INET;
  12. int r = bind(s_socket, (sockaddr*)&addr, sizeof addr);
  13. if (r == -1)
  14. {
  15. printf("绑定失败!\n");
  16. return;
  17. }
  18. printf("绑定成功!\n");
  19. //获取主机的IP地址
  20. //从字符串变成一个IP地址
  21. struct hostent* p = gethostbyname(urlAddr);
  22. if (NULL == p)
  23. {
  24. printf("获取主机地址失败!\n");
  25. return;
  26. }
  27. printf("获取主机地址成功!\n");
  28. //把服务器的协议地址zu设置好
  29. memcpy(&addr.sin_addr, p->h_addr, 4);
  30. addr.sin_port = htons(80);
  31. //连接主机
  32. r = connect(s_socket,(sockaddr*)&addr, sizeof addr);
  33. if (-1 == r)
  34. {
  35. printf("连接服务器失败!\n");
  36. }
  37. printf("连接服务器成功!\n");
  38. //发请求
  39. string reqInfo = "GET " + (string)urlPath + "HTTP/1.1\r\nhost:"+
  40. (string)urlAddr + "\r\nConnection:Close\r\n\r\n";
  41. r = send(s_socket, reqInfo.c_str(), reqInfo.size(), NULL);
  42. if (r <= 0)
  43. {
  44. printf("发送失败!\n");
  45. return;
  46. }
  47. printf("发送请求到服务器成功!\n");
  48. }

3.接收源代码并存储起来

  1. //接收源代码并存储起
  2. void getHtml()
  3. {
  4. string allHtml;//存放网页源代码的字符串
  5. int r;
  6. char buff[1024];
  7. while (1)
  8. {
  9. //从服务器接收数据并放到buff里
  10. r = recv(s_socket, buff, 1023, NULL);
  11. if (r > 0)
  12. {
  13. buff[r] = 0;//添加结束符号
  14. allHtml += buff;
  15. }
  16. else//没有接到
  17. {
  18. break;
  19. }
  20. }
  21. printf("------------------我们获得的网页源代码如下--------------------");
  22. cout << allHtml << endl;
  23. }

 可以将上面三个函数封装在一个函数当中

  1. //
  2. void snapJpg(char* begAddr)\
  3. {
  4. //解析网址 -> http:// -> pic.yesky.com 网络的IP地址别名 网站的地址和二级地址<二级地址也就是路径>
  5. analysisAddr(begAddr);
  6. //连接服务器
  7. //发请求
  8. connectAddr(urlAddr);
  9. //接收源代码并存储起
  10. getHtml();
  11. }

 主函数:

  1. int main()
  2. {
  3. char buff[256] = { 0 };//安放网页链接
  4. printf("请输入一个网页链接:");
  5. scanf("%s",buff);
  6. snapJpg(buff);
  7. while (1);
  8. return 0;
  9. }

 总代码:

  1. #include<graphics.h>
  2. #include<cstdio>
  3. #include<stdio.h>
  4. #include<cstring>
  5. #include<stdlib.h>
  6. #include<winsock2.h>
  7. #pragma comment(lib,"ws2_32.lib")
  8. #include<windows.h>
  9. #include<iostream>
  10. #include<string.h>
  11. using namespace std;
  12. #pragma warning(disable:4996)//忽略4996错误提示
  13. //服务器套接字
  14. SOCKET s_socket;
  15. //存放网址
  16. char urlAddr[256];
  17. //存放网址后面的路径
  18. char urlPath[256];
  19. //连接服务器
  20. //发请求
  21. void connectAddr(char* urlAddr);
  22. //接收源代码并存储起
  23. void getHtml();
  24. //解析网址
  25. void analysisAddr(char*str);
  26. //封装一个爬图片的函数
  27. void snapJpg(char* begAddr);
  28. int main()
  29. {
  30. char buff[256] = { 0 };//安放网页链接
  31. printf("请输入一个网页链接:");
  32. scanf("%s",buff);
  33. snapJpg(buff);
  34. while (1);
  35. return 0;
  36. }
  37. //爬图片
  38. void snapJpg(char* begAddr)\
  39. {
  40. //解析网址 -> http:// -> pic.yesky.com 网络的IP地址别名 网站的地址和二级地址<二级地址也就是路径>
  41. analysisAddr(begAddr);
  42. //连接服务器
  43. //发请求
  44. connectAddr(urlAddr);
  45. //接收源代码并存储起
  46. getHtml();
  47. }
  48. //解析网址
  49. void analysisAddr(char* str)
  50. {
  51. //每次解析之前先把数组清空
  52. memset(urlAddr,0,256);
  53. memset(urlPath,0, 256);
  54. //找str字符串当中的 "http://" 如果找到则输出"http://"地址给了*p
  55. char* p = strstr(str, "http://");
  56. if (p == NULL)
  57. {
  58. return;
  59. }
  60. p += 7;
  61. //scanf 从cmd输入 sscanf 从第一个参数输入
  62. sscanf(p, "%[^/]%s", urlAddr,urlPath);
  63. printf("网站:%s\n",urlAddr);
  64. printf("网站后面:%s\n", urlPath);
  65. }
  66. //连接服务器
  67. void connectAddr(char* urlAddr)
  68. {
  69. //设置网络协议版本
  70. //选中按下f12可以看这个函数的内容
  71. WSADATA wsaData;
  72. WSAStartup(MAKEWORD(2,2),&wsaData);
  73. //创建socket
  74. s_socket = socket(AF_INET, SOCK_STREAM, NULL);
  75. //绑定
  76. SOCKADDR_IN addr = { 0 };
  77. addr.sin_family = AF_INET;
  78. int r = bind(s_socket, (sockaddr*)&addr, sizeof addr);
  79. if (r == -1)
  80. {
  81. printf("绑定失败!\n");
  82. return;
  83. }
  84. printf("绑定成功!\n");
  85. //获取主机的IP地址
  86. //从字符串变成一个IP地址
  87. struct hostent* p = gethostbyname(urlAddr);
  88. if (NULL == p)
  89. {
  90. printf("获取主机地址失败!\n");
  91. return;
  92. }
  93. printf("获取主机地址成功!\n");
  94. //把服务器的协议地址zu设置好
  95. memcpy(&addr.sin_addr, p->h_addr, 4);
  96. addr.sin_port = htons(80);
  97. //连接主机
  98. r = connect(s_socket,(sockaddr*)&addr, sizeof addr);
  99. if (-1 == r)
  100. {
  101. printf("连接服务器失败!\n");
  102. }
  103. printf("连接服务器成功!\n");
  104. //发请求
  105. string reqInfo = "GET " + (string)urlPath + "HTTP/1.1\r\nhost:"+
  106. (string)urlAddr + "\r\nConnection:Close\r\n\r\n";
  107. r = send(s_socket, reqInfo.c_str(), reqInfo.size(), NULL);
  108. if (r <= 0)
  109. {
  110. printf("发送失败!\n");
  111. return;
  112. }
  113. printf("发送请求到服务器成功!\n");
  114. }
  115. //接收源代码并存储起
  116. void getHtml()
  117. {
  118. string allHtml;//存放网页源代码的字符串
  119. int r;
  120. char buff[1024];
  121. while (1)
  122. {
  123. //从服务器接收数据并放到buff里
  124. r = recv(s_socket, buff, 1023, NULL);
  125. if (r > 0)
  126. {
  127. buff[r] = 0;//添加结束符号
  128. allHtml += buff;
  129. }
  130. else//没有接到
  131. {
  132. break;
  133. }
  134. }
  135. printf("------------------我们获得的网页源代码如下--------------------");
  136. cout << allHtml << endl;
  137. }

爬虫 :
限制:http网页服务器
主要知识点:http协议  广度优先遍历算法   stl之map,vector,queue    正则表达式  文件操作
思路:  http://.....进入网站页面
获取这个网页的源代码
 

注意:
搜索http://pic.yesky.com/     会导致403 Forbidden
403 Forbidden错误一般在爬虫采集数据时出现的频率比较多,在爬虫使用代理IP的时候因为不停地访问服务器终端,频发请求时,服务器终端压力过大,触发了反爬虫机制,导致服务器会拒绝这个IP的访问请求,这个时候如果不切换掉被禁用的IP地址,肯定会影响正常的数据采集效率,所以就需要设置时间来定时切换IP地址。IP代理最核心的功能,就是可以更换各个城市不同的IP地址,而且可以隐藏本地的真实IP地址。

分析爬虫全代码:

引用博客:

C/C++实现最简单的爬虫_Mason_Zhao的博客-CSDN博客_c++实现爬虫

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/339513
推荐阅读
相关标签
  

闽ICP备14008679号