当前位置:   article > 正文









项目环境:Centos 7云服务器,vim/gcc(g++)/Makefile , vs code











关键字:文档ID, weight(权重)



5.编写数据去标签与数据清洗的模块 Parser

5.1 什么是标签:


  1. //原始数据 -> 去标签之后的数据
  2. <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
  3. "http://www.w3.org/TR/html4/loose.dtd">
  4. <html> <!--这是一个标签-->
  5. <head>
  6. <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  7. <title>Chapter 30. Boost.Process</title>
  8. <link rel="stylesheet" href="../../doc/src/boostbook.css" type="text/css">
  9. <meta name="generator" content="DocBook XSL Stylesheets V1.79.1">
  10. <link rel="home" href="index.html" title="The Boost C++ Libraries BoostBook Documentation
  11. Subset">
  12. <link rel="up" href="libraries.html" title="Part I. The Boost C++ Libraries (BoostBook
  13. Subset)">
  14. <link rel="prev" href="poly_collection/acknowledgments.html" title="Acknowledgments">
  15. <link rel="next" href="boost_process/concepts.html" title="Concepts">


5.2 搜索内容


Boost库官网:Boost C++ Libraries

Boost库下载:Index of main/release/1.84.0/source



5.3 具体逻辑实现

  1. const std::string src_path = "/home/SSS/data/input";//搜索路径
  2. const std::string output = "/home/SSS/data/raw_html/raw.txt";//保存文档
  3. typedef struct DocInfo
  4. {
  5. std::string title; // 文档标题
  6. std::string content; // 文档标题
  7. std::string url; // 文档url
  8. } DocInfo_t;
  9. // &: 输入
  10. //*: 输出
  11. //&:输入输出
  12. bool EnumFile(const std::string &src_path, std::vector<std::string> *files_list);
  13. bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t> *results);
  14. bool SaveHtml(const std::vector<DocInfo_t> &results,const std::string& output);
  15. int main()
  16. {
  17. std::vector<std::string> files_list; //保存文件路径
  18. //递归式的把每个html文件名带路径,保存到files_list中,方便后期进行一个一个的文件进行读取
  19. if (!EnumFile(src_path, &files_list))
  20. {
  21. std::cerr << "enum file name error1" << std::endl;
  22. return 1;
  23. }
  24. // 按照files_list读取每个文件的内容,并进行解析
  25. std::vector<DocInfo_t> results;
  26. if (!ParseHtml(files_list, &results))
  27. {
  28. //std::cout<<"1"<<std::endl;
  29. std::cerr << "enum file name error2" << std::endl;
  30. return 2;
  31. }
  32. std::cout<<results.size()<<std::endl;
  33. //把解析完毕的各个文件内容,写入到output,按照\3作为每个文档的分割符
  34. if (!SaveHtml(results,output))
  35. {
  36. std::cerr << "enum file name error3" << std::endl;
  37. return 3;
  38. }
  39. return 0;
  40. }




  1. bool EnumFile(const std::string &src_path, std::vector<std::string> *files_list)
  2. {
  3. namespace fs = boost::filesystem;
  4. fs::path root_path(src_path);
  5. if (!fs::exists(root_path)) // 判断文件路径是否存在,在这里我们使用Boost库中的函数,判断文件路径是否存在
  6. {
  7. std::cerr << "root_path not exits" << std::endl;
  8. return false;
  9. }
  10. fs::recursive_directory_iterator end; // 递归的判断文件
  11. for (fs::recursive_directory_iterator iter(root_path); iter != end; iter++)
  12. {
  13. if (!fs::is_regular_file(*iter)) // 文件是否为普通文件,Boost库中判断文件是否为普通文件。
  14. {
  15. continue;
  16. }
  17. if (iter->path().extension() != ".html") // 文件是否为html文件,Boost库函数
  18. {
  19. continue;
  20. }
  21. files_list->push_back(iter->path().string());//将所有带路径的html保存在files_list,方便后续进行文本分析
  22. }
  23. return true;
  24. }


  1. namespace ns_util
  2. {
  3. class FileUtil
  4. {
  5. public:
  6. static bool ReadFile(const std::string &file_path, std::string *out)
  7. {
  8. std::ifstream in(file_path,std::ios::in);
  9. if(!in.is_open())//c++中文件处理函数
  10. {
  11. std::cerr <<"open in error"<<std::endl;
  12. return false;
  13. }
  14. std::string line;
  15. while(std::getline(in,line))//将文件内容写入到(string)out中
  16. {
  17. *out += line;
  18. //std::cout<<line<<std::endl;
  19. }
  20. in.close();//关闭文件!!!
  21. return true;
  22. }
  23. };
  24. }
  25. // 文档标题
  26. static bool ParseTitle(const std::string &file, std::string *title)
  27. {
  28. std::size_t begin = file.find("<title>");//对文档标题进行处理,由于网页的标题保存在<title>标
  29. //签中,以</title>结尾,所以中间的内容就是我们所要的标题
  30. //std::cout<<begin<<std::endl;
  31. if (begin == std::string::npos)
  32. {
  33. //std::cout<<"1:"<<begin<<std::endl;
  34. return false;
  35. }
  36. std::size_t end = file.find("</title>");
  37. if (end == std::string::npos)
  38. {
  39. return false;
  40. }
  41. begin += std::string("<title>").size();
  42. if (begin > end)
  43. {
  44. return false;
  45. }
  46. *title = file.substr(begin, end - begin);//标题
  47. //std::cout<<*title<<std::endl;
  48. return true;
  49. }
  50. // 对内容进行解析
  51. static bool ParseContent(const std::string &file, std::string *content)
  52. {
  53. //去标签,基于一个简易的状态机
  54. enum status
  55. {
  56. LABLE,
  58. };
  59. enum status s = LABLE;
  60. for (char c : file)
  61. {
  62. switch (s)
  63. {
  64. case LABLE:
  65. if (c == '>')
  66. s = CONTENT;
  67. break;
  68. case CONTENT :
  69. if (c == '<')
  70. s = LABLE;
  71. else
  72. {
  73. // 不想保留原始文件中的\n,用\n作为html解析之后文本的分隔符
  74. if (c == '\n') c = ' ';
  75. content->push_back(c);
  76. }
  77. break;
  78. default:
  79. break;
  80. }
  81. }
  82. return true;
  83. }
  84. static bool ParseUrl(const std::string &file_path, std::string *url)
  85. {
  86. std::string url_head = "https://www.boost.org/doc/libs/1_78_0/doc/html";
  87. std::string url_tail = file_path.substr(src_path.size());
  88. *url = url_head + url_tail;//文档的url
  89. return true;
  90. }
  91. // 对内容进行解析
  92. bool ParseHtml(const std::vector<std::string> &files_list, std::vector<DocInfo_t>* results)
  93. {
  94. for (const std::string &file : files_list)
  95. {
  96. std::string result; // 读取文件
  97. if (!ns_util::FileUtil::ReadFile(file, &result))
  98. {
  99. continue;
  100. }
  101. DocInfo_t doc;
  102. // 解析文件,提取title
  103. if (!ParseTitle(result, &doc.title))
  104. {
  105. //std::cout<<"1"<<std::endl;
  106. continue;
  107. }
  108. // 解析文件内容,去标签
  109. if (!ParseContent(result, &doc.content))
  110. {
  111. continue;
  112. }
  113. // 解析内容,获得url
  114. if (!ParseUrl(file, &doc.url))
  115. {
  116. continue;
  117. }
  118. results->push_back(std::move(doc)); // 减少拷贝次数,提高效率
  119. //std::cout<<results->back()->title<<std::endl;
  120. }
  121. return true;
  122. }



官网URL样例: https /www.boost.org/doc/libs/1_79_0/doc/html/accumulators.html
我们下载下来的url样例:boost_1_79_0 / doc / html / accumulators.html
我们拷贝到我们项目中的样例:data / input / accumulators.html
url_head = “https://www.boost.org/doc/libs/1_79_0/doc/html”;
url_tail = (data / input)(删除) / accumulators.html->url_tail = / accumulators.html
url = url_head + url_tail; 相当于形成了一个官网链接。







  1. //文档属性
  2. struct DocInfo{
  3. std::string _title;//文档标题
  4. std::string _contant;//文档内容
  5. std::string _url;//文档url
  6. uint64_t _id;//文档id
  7. };
  8. //倒排索引
  9. struct InvertedElem{
  10. std::string _word;//关键字
  11. uint64_t _id;//id
  12. int _weight;//权重
  13. InvertedElem():_weight(0){}
  14. };
  15. //倒排拉链
  16. typedef std::vector<InvertedElem> InvertedList;


  1. class index
  2. {
  3. private:
  4. index(){};
  5. index(const index&)=delete;
  6. index operator=(const index&)=delete;
  7. public:
  8. static index* GetIndex()//初始化单例模式,在这里我们使用懒汉模式来建立索引
  9. {
  10. if(nullptr==instance)
  11. {
  12. mtx.lock();//多线程问题
  13. if(nullptr==instance)
  14. {
  15. instance=new index();
  16. }
  17. mtx.nulock();
  18. }
  19. return instance;
  20. }
  21. public:
  22. //正排索引
  23. DocInfo *GetForwardIndex(uint64_t _id)//根据文档id找文档内容
  24. {
  25. if(_id>=_forward_list.size())//数组下标从0开始
  26. {
  27. std::cerr << "doc_id out range, error!" << std::endl;
  28. return nullptr;
  29. }
  30. return &_forward_list[_id];
  31. }
  32. //根据关键字,获得文档倒排拉链,倒排索引
  33. InvertedList *GetInvertedList(const std::string &word)
  34. {
  35. auto iter = _inverted_index.find(word);//寻找关键字
  36. if(iter==_inverted_index.end())//没找到
  37. {
  38. std::cerr << "_inverted_index out range, error!" << std::endl;
  39. return nullptr;
  40. }
  41. return &(iter->second);
  42. }
  43. //根据去标签,格式化之后的文档,构建正排和倒排索引
  44. bool BuildIndex(const std::string &input)
  45. {
  46. std::ifstream in(input,std::ios::in|std::ios::binary);
  47. if(!in.is_open())
  48. {
  49. std::cerr<<" open file error"<<std::endl;
  50. }
  51. std::string line;
  52. int count=0;
  53. while (std::getline(in, line))//读取内容
  54. {
  55. DocInfo *doc = BuildForwardIndex(line);
  56. if (nullptr == doc)
  57. {
  58. std::cerr << "build " << line << " error" << std::endl; // for deubg
  59. continue;
  60. }
  61. BuildInvertedIndex(*doc);
  62. count++;
  63. }
  64. return true;
  65. }
  66. private:
  67. DocInfo* BuildForwardIndex(const std::string &line)
  68. {
  69. //进行字符串切分
  70. std::vector<std::string> results;
  71. const std::string sep = "\3"; //行内分隔符
  72. ns_util::StringUtil::Split(line, &results, sep);//分词
  73. if(results.size()!=3)
  74. {
  75. std::cout<<"split error"std::endl;
  76. return nullptr;
  77. }
  78. //2. 字符串进行填充到DocIinfo
  79. DocInfo doc;
  80. doc._title = results[0];//title
  81. doc._content = results[1];// content
  82. doc._url = results[2];/// url
  83. doc._id = forward_index.size(); // 先进行保存id,在插入,对应的id就是当前doc在vector中的下标!
  84. // 3. 插入到正排索引的vector
  85. _forward_index.push_back(std::move(doc)); // doc,html文件内容
  86. return &forward_index.back();
  87. }
  88. bool BuildInvertedIndex(const DocInfo &doc)
  89. {
  90. // DocInfo{title, content, url, doc_id}
  91. // word -> 倒排拉链
  92. struct word_cnt
  93. {
  94. int _title_cnt;
  95. int _content_cnt;
  96. word_cnt() : _title_cnt(0), _content_cnt(0) {}
  97. };
  98. std::unordered_map<std::string, word_cnt> word_map; // 用来暂存词频的映射表
  99. // 对标题进行分词
  100. std::vector<std::string> title_words;
  101. ns_util::JiebaUtil::CutString(doc._title, &title_words);//分词
  102. //计算权重
  103. for(auto e:title_words)
  104. {
  105. boost::to_lower(s); // 需要统一转化成为小写
  106. word_map[s].title_cnt++; // 如果存在就获取,如果不存在就新建
  107. }
  108. //内容分词
  109. std::vector<std::string> contant_words;
  110. ns_util::JiebaUtil::CutString(doc._contant, &contant_words);//分词
  111. for (std::string s : content_words)
  112. {
  113. boost::to_lower(s);
  114. word_map[s].content_cnt++;
  115. }
  116. //权重计算
  117. #define X 10
  118. #define Y 1
  119. for(auto e:word_map)
  120. {
  121. InvertedElem item;
  122. item._id = doc._id;
  123. item.word = e.first;
  124. item.weight = X * e.second.title_cnt + Y * e.second.content_cnt; // 相关性
  125. InvertedList &inverted_list = inverted_index[e.first];
  126. _inverted_list.push_back(std::move(item));
  127. }
  128. }
  129. private:
  130. std::vector<DocInfo> _forward_list;//正排
  131. //倒排索引一定是一个关键字和一组(个)InvertedElem对应[关键字和倒排拉链的映射关系]
  132. std::unordered_map<std::string, InvertedList> _inverted_index;
  133. static Index* instance;
  134. static std::mutex mtx;
  135. };
  136. index* index::instance = nullptr;
  137. std::mutex index::mtx;



cppjiaba下载地址:git clone https://gitcode.com/yanyiwu/cppjieba-server.git

下载完成之后,我们只需要使用 这个目录下的文件即可:cppjieba/include/cppjieba

使用细节:使用cppjieba需要注意,我们需要自己执行:cd cppjieba; cp -rf deps/limonp include/cppjieba/, 不然会编译报错。





  1. #pragma once
  2. #include <iostream>
  3. #include <string>
  4. #include <fstream>
  5. #include <vector>
  6. #include <mutex>
  7. #include <unordered_map>
  8. #include <boost/algorithm/string.hpp>
  9. #include "cppjieba/Jieba.hpp"
  10. namespace ns_util
  11. {
  12. class FileUtil
  13. {
  14. public:
  15. static bool ReadFile(const std::string &file_path, std::string *out)
  16. {
  17. std::ifstream in(file_path,std::ios::in);
  18. if(!in.is_open())//c++中文件处理函数
  19. {
  20. std::cerr <<"open in error2"<<std::endl;
  21. return false;
  22. }
  23. std::string line;
  24. while(std::getline(in,line))//将文件内容写入到(string)out中
  25. {
  26. *out += line;
  27. //std::cout<<line<<std::endl;
  28. }
  29. in.close();//关闭文件!!!
  30. return true;
  31. }
  32. };
  33. class StringUtil//切割字符串
  34. {
  35. public:
  36. static void Split(const std::string &target, std::vector<std::string> *out, const std::string &sep)
  37. {
  38. //boost split
  39. boost::split(*out, target, boost::is_any_of(sep), boost::token_compress_on);
  40. }
  41. };
  42. const char* const DICT_PATH = "/home/SSS/cppjieba/dict/jieba.dict.utf8";
  43. const char* const HMM_PATH = "/home/SSS/cppjieba/dict/hmm_model.utf8";
  44. const char* const USER_DICT_PATH = "/home/SSS/cppjieba/dict/user.dict.utf8";
  45. const char* const IDF_PATH = "/home/SSS/cppjieba/dict/idf.utf8";
  46. const char* const STOP_WORD_PATH = "/home/SSS/cppjieba/dict/stop_words.utf8";
  47. class JiebaUtil
  48. {
  49. private:
  50. static cppjieba::Jieba _jieba;//不去暂停词
  51. private:
  52. //去暂停词
  53. //cppjieba::Jieba _jieba;//创建对象
  54. //std::unordered_map<std::string, bool> _stop_words;//哈希映射
  55. //static JiebaUtil* _instance;
  56. private:
  58. //JiebaUtil(const JiebaUtil &) = delete;
  59. //ns_util::JiebaUtil operaror=(const JiebaUtil& x)=delete;
  60. public:
  61. //去暂停词
  62. // static JiebaUtil* GetInstance()//初始化
  63. // {
  64. // static std::mutex _mtx;
  65. // if(nullptr==_instance)
  66. // {
  67. // _mtx.lock();
  68. // if(nullptr==_instance)
  69. // {
  70. // _instance=new JiebaUtil();
  71. // _instance->InitJiebaUtil();//加载文件
  72. // }
  73. // _mtx.unlock();
  74. // }
  75. // return _instance;
  76. // //return nullptr;
  77. // }
  78. // void InitJiebaUtil()
  79. // {
  80. // std::ifstream in(STOP_WORD_PATH);
  81. // if(!in.is_open())
  82. // {
  83. // std::cerr<<"open file error"<<std::endl;
  84. // return;
  85. // }
  86. // std::string line;
  87. // while(std::getline(in,line))
  88. // {
  89. // _stop_words.insert({line, true});
  90. // }
  91. // in.close();
  92. // }
  93. // void CutStringHelper(const std::string &src, std::vector<std::string> *out)//去暂停词
  94. // {
  95. // _jieba.CutForSearch(src, *out);//切分
  96. // for(auto iter = out->begin(); iter != out->end();)
  97. // {
  98. // auto it=_stop_words.find(*iter);
  99. // if(it!=_stop_words.end())
  100. // {
  101. // iter = out->erase(iter);//去暂停词
  102. // }
  103. // else iter++;
  104. // }
  105. // }
  106. public:
  107. static void CutString(const std::string &src, std::vector<std::string> *out)
  108. {
  109. //去暂停词,如果云服务器配置高的情况下可以使用,性能不高可能导致出现不必要的错误
  110. //ns_util::JiebaUtil::GetInstance()->CutStringHelper(src, out);
  111. //低配版,不去暂停词
  112. _jieba.CutForSearch(src, *out);
  113. }
  114. };
  115. //不去暂停词
  116. cppjieba::Jieba JiebaUtil::_jieba(DICT_PATH, HMM_PATH, USER_DICT_PATH, IDF_PATH, STOP_WORD_PATH);
  117. //去暂停词
  118. //JiebaUtil* _instance=nullptr;
  119. }






Jsoncpp下载方式:sudo yum install -y jsoncpp-devel


cpp-httplib下载方式:GitHub - yhirose/cpp-httplib: A C++ header-only HTTP/HTTPS server and client library

注意:如果使用 centOS 环境,yum源带的 g++ 最新版本是4.8.5,发布于2015年,年代久远。编译该项目会出现异常。将 gcc/g++ 升级为更高版本可解决问题。

# 升级参考:https://juejin.cn/post/6844903873111392263
# 安装gcc 8版本
yum install -y devtoolset-8-gcc devtoolset-8-gcc-c++
# 启用版本
source /opt/rh/devtoolset-8/enable
# 查看版本已经变成gcc 8.3.1
gcc -v

# 启动: 细节,命令行启动只能在本会话有效

source /opt/rh/devtoolset-8/enable


cat ~/.bash_profile

# .bash_profile
# Get the aliases and functions
if [ -f ~/.bashrc ]; then
. ~/.bashrc
# User specific environment and startup programs
export PATH

source /opt/rh/devtoolset-8/enable



  1. #include "cpp-httplib/httplib.h"
  2. int main()
  3. {
  4. httplib::Server svr;
  5. svr.Get("/hi", [](const httplib::Request &req, httplib::Response &rsp){
  6. rsp.set_content("你好,世界!", "text/plain; charset=utf-8");
  7. });
  8. svr.listen("", 8081);
  9. return 0;
  10. }



  1. struct InvertedElemPrint
  2. {
  3. uint64_t _id;
  4. int _weight;
  5. std::vector<std::string> _words;
  6. InvertedElemPrint() : _id(0), _weight(0) {}
  7. };


  1. class Searcher
  2. {
  3. private:
  4. ns_index::index *_index=nullptr; // 建立索引,进行查找
  5. public:
  6. Searcher() {}
  7. ~Searcher() {}
  8. public:
  9. void InitSearch(const std::string &input)
  10. {
  11. // 获取index对象
  12. index = ns_index::index::GetInstance();
  13. //根据index对象建立索引
  14. index->BulidIndex();
  15. }
  16. // query: 搜索关键字
  17. // json_string: 返回给用户浏览器的搜索结果
  18. void search(const std::string &query, std::string *json_string)
  19. {
  20. std::vector<std::string> words;
  21. ns_util::JiebaUtil::CutString(query, &words);
  22. //2.[触发]:就是根据分词的各个"词",进行index查找,建立index是忽略大小写,所以搜索,关键字也需要
  23. //ns_index::InvertedList inverted_list_all; //内部InvertedElem
  24. std::vector<InvertedElemPrint> inverted_list_all;
  25. std::unordered_map<uint64_t, InvertedElemPrint> tokens_map;
  26. for(auto word:words)
  27. {
  28. boost::to_lower(word);
  29. ns_index::InvertedList *inverted_list = index->GetInvertedList(word);
  30. if(inverted==nullptr) continue;
  31. for(const auto &elem:*inverted_list)
  32. {
  33. auto &item = tokens_map[elem._id]; //[]:如果存在直接获取,如果不存在新建
  34. // item一定是doc_id相同的print节点
  35. item._id = elem._id;
  36. item._weight += elem._weight;
  37. item.words.push_back(elem._words);
  38. }
  39. }
  40. for (const auto &item : tokens_map)
  41. {
  42. inverted_list_all.push_back(std::move(item.second));
  43. }
  44. //3.[合并排序]:汇总查找结果,按照相关性(weight)降序排序
  45. std::sort(inverted_list_all.begin(), inverted_list_all.end(),
  46. [](const InvertedElemPrint &e1, const InvertedElemPrint &e2){
  47. return e1._weight > e2._weight;
  48. });
  49. //序列化和反序列化
  50. Json::Value root;
  51. for(auto &item : inverted_list_all)
  52. {
  53. ns_index::DocInfo * doc = index->GetForwardIndex(item._id);
  54. if(doc==nullptr) continue;
  55. Json::Value elem;
  56. elem["title"]=doc->_title;
  57. elem["desc"] = GetDesc(doc->content, item.words[0]); //content是文档的去标签的结果,但是不是我们想要的,我们要的是一部分 TODO
  58. elem["url"]=doc->url;
  59. elem["id"] = (int)item._id;
  60. elem["weight"] = item._weight; // int->string
  61. root.append(elem);
  62. }
  63. Json::FastWriter writer;
  64. *json_string = writer.write(root);
  65. }
  66. //得到contant
  67. std::string GetDesc(const std::string &html_content, const std::string &word)
  68. {
  69. //找到word在html_content中的首次出现,然后往前找50字节(如果没有,从begin开始),往后找100字节(如果没有,到end就可以的)
  70. //截取出这部分内容
  71. const int prev_step=50;
  72. const int next_step=150;
  73. //找到关键字
  74. auto iter = std::search(html_content.begin(), html_content.end(), word.begin(), word.end(),
  75. [](int x, int y)
  76. { return (std::tolower(x) == std::tolower(y)); });
  77. if(iter==html.content.end()) return "NONE1";
  78. int pos = std::distance(html_content.begin(), iter);
  79. int start=0;
  80. int end=html_content.size()-1;
  81. if(pos > start + prev_step) start = pos - prev_step;
  82. if(pos < end - next_step) end = pos + next_step;
  83. if(start>end) return "NONE2";
  84. std::string desc = html_content.substr(start, end - start);
  85. desc += "...";
  86. return desc;
  87. }
  88. };
  89. }






5.6 前端代码实现

html: 是网页的骨骼 -- 负责网页结构
css:网页的皮肉 -- 负责网页美观的

前端教程:w3school 在线教程


  1. <!DOCTYPE html>
  2. <html lang="en">
  3. <head>
  4. <meta charset="UTF-8">
  5. <meta http-equiv="X-UA-Compatible" content="IE=edge">
  6. <meta name="viewport" content="width=device-width, initial-scale=1.0">
  7. <script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>
  8. <title>boost 搜索引擎</title>
  9. <style>
  10. /* 去掉网页中的所有的默认内外边距,html的盒子模型 */
  11. * {
  12. /* 设置外边距 */
  13. margin: 0;
  14. /* 设置内边距 */
  15. padding: 0;
  16. }
  17. /* 将我们的body内的内容100%和html的呈现吻合 */
  18. html,
  19. body {
  20. height: 100%;
  21. }
  22. /* 类选择器.container */
  23. .container {
  24. /* 设置div的宽度 */
  25. width: 800px;
  26. /* 通过设置外边距达到居中对齐的目的 */
  27. margin: 0px auto;
  28. /* 设置外边距的上边距,保持元素和网页的上部距离 */
  29. margin-top: 15px;
  30. }
  31. /* 复合选择器,选中container 下的 search */
  32. .container .search {
  33. /* 宽度与父标签保持一致 */
  34. width: 100%;
  35. /* 高度设置为52px */
  36. height: 52px;
  37. }
  38. /* 先选中input标签, 直接设置标签的属性,先要选中, input:标签选择器*/
  39. /* input在进行高度设置的时候,没有考虑边框的问题 */
  40. .container .search input {
  41. /* 设置left浮动 */
  42. float: left;
  43. width: 600px;
  44. height: 50px;
  45. /* 设置边框属性:边框的宽度,样式,颜色 */
  46. border: 1px solid black;
  47. /* 去掉input输入框的有边框 */
  48. border-right: none;
  49. /* 设置内边距,默认文字不要和左侧边框紧挨着 */
  50. padding-left: 10px;
  51. /* 设置input内部的字体的颜色和样式 */
  52. color: #CCC;
  53. font-size: 14px;
  54. }
  55. /* 先选中button标签, 直接设置标签的属性,先要选中, button:标签选择器*/
  56. .container .search button {
  57. /* 设置left浮动 */
  58. float: left;
  59. width: 150px;
  60. height: 52px;
  61. /* 设置button的背景颜色,#4e6ef2 */
  62. background-color: #4e6ef2;
  63. /* 设置button中的字体颜色 */
  64. color: #FFF;
  65. /* 设置字体的大小 */
  66. font-size: 19px;
  67. font-family:Georgia, 'Times New Roman', Times, serif;
  68. }
  69. .container .result {
  70. width: 100%;
  71. }
  72. .container .result .item {
  73. margin-top: 15px;
  74. }
  75. .container .result .item a {
  76. /* 设置为块级元素,单独站一行 */
  77. display: block;
  78. /* a标签的下划线去掉 */
  79. text-decoration: none;
  80. /* 设置a标签中的文字的字体大小 */
  81. font-size: 20px;
  82. /* 设置字体的颜色 */
  83. color: #4e6ef2;
  84. }
  85. .container .result .item a:hover {
  86. text-decoration: underline;
  87. }
  88. .container .result .item p {
  89. margin-top: 5px;
  90. font-size: 16px;
  91. font-family:'Lucida Sans', 'Lucida Sans Regular', 'Lucida Grande', 'Lucida Sans Unicode', Geneva, Verdana, sans-serif;
  92. }
  93. .container .result .item i{
  94. /* 设置为块级元素,单独站一行 */
  95. display: block;
  96. /* 取消斜体风格 */
  97. font-style: normal;
  98. color: green;
  99. }
  100. </style>
  101. </head>
  102. <body>
  103. <div class="container">
  104. <div class="search">
  105. <input type="text" value="请输入搜索关键字">
  106. <button onclick="Search()">搜索一下</button>
  107. </div>
  108. <div class="result">
  109. <!-- 动态生成网页内容 -->
  110. <!-- <div class="item">
  111. <a href="#">这是标题</a>
  112. <p>这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要</p>
  113. <i>https://search.gitee.com/?skin=rec&type=repository&q=cpp-httplib</i>
  114. </div>
  115. <div class="item">
  116. <a href="#">这是标题</a>
  117. <p>这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要</p>
  118. <i>https://search.gitee.com/?skin=rec&type=repository&q=cpp-httplib</i>
  119. </div>
  120. <div class="item">
  121. <a href="#">这是标题</a>
  122. <p>这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要</p>
  123. <i>https://search.gitee.com/?skin=rec&type=repository&q=cpp-httplib</i>
  124. </div>
  125. <div class="item">
  126. <a href="#">这是标题</a>
  127. <p>这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要</p>
  128. <i>https://search.gitee.com/?skin=rec&type=repository&q=cpp-httplib</i>
  129. </div>
  130. <div class="item">
  131. <a href="#">这是标题</a>
  132. <p>这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要这是摘要</p>
  133. <i>https://search.gitee.com/?skin=rec&type=repository&q=cpp-httplib</i>
  134. </div> -->
  135. </div>
  136. </div>
  137. <script>
  138. function Search(){
  139. // 是浏览器的一个弹出框
  140. // alert("hello js!");
  141. // 1. 提取数据, $可以理解成就是JQuery的别称
  142. let query = $(".container .search input").val();
  143. console.log("query = " + query); //console是浏览器的对话框,可以用来进行查看js数据
  144. //2. 发起http请求,ajax: 属于一个和后端进行数据交互的函数,JQuery中的
  145. $.ajax({
  146. type: "GET",
  147. url: "/s?word=" + query,
  148. success: function(data){
  149. console.log(data);
  150. BuildHtml(data);
  151. }
  152. });
  153. }
  154. function BuildHtml(data){
  155. // 获取html中的result标签
  156. let result_lable = $(".container .result");
  157. // 清空历史搜索结果
  158. result_lable.empty();
  159. for( let elem of data){
  160. // console.log(elem.title);
  161. // console.log(elem.url);
  162. let a_lable = $("<a>", {
  163. text: elem.title,
  164. href: elem.url,
  165. // 跳转到新的页面
  166. target: "_blank"
  167. });
  168. let p_lable = $("<p>", {
  169. text: elem.desc
  170. });
  171. let i_lable = $("<i>", {
  172. text: elem.url
  173. });
  174. let div_lable = $("<div>", {
  175. class: "item"
  176. });
  177. a_lable.appendTo(div_lable);
  178. p_lable.appendTo(div_lable);
  179. i_lable.appendTo(div_lable);
  180. div_lable.appendTo(result_lable);
  181. }
  182. }
  183. </script>
  184. </body>
  185. </html>

5.7 添加日志

  1. #pragma once
  2. #include <iostream>
  3. #include <string>
  4. #include <cstdio>
  5. #include <cstdarg>
  6. #include <ctime>
  7. #define DEBUG 0
  8. #define NORMAL 1
  9. #define WARING 2
  10. #define ERROR 3
  11. #define FATAL 4
  12. #define LOGFILE "./calculator.log"
  13. const char* gLevelMap[]={"DEBUG","NORMAL","WARING","ERROR","FATAL"};
  14. //完整的日志功能,至少: 日志等级 时间 支持用户自定义(日志内容, 文件行,文件名),可以将其写到文件中
  15. void logMessage(int level,const char* format,...)
  16. {
  17. //if(level==0) printf("正确");
  18. char stdBuff[10024];
  19. time_t timestamp = time(nullptr);//时间
  20. snprintf(stdBuff,sizeof(stdBuff),"[%s] [%ld] ", gLevelMap[level], timestamp);
  21. char logBuff[1024]; //自定义部分
  22. // va_list args;
  23. // va_start(args, format);
  24. // // vprintf(format, args);
  25. // vsnprintf(logBuffer, sizeof logBuffer, format, args);
  26. // va_end(args);
  27. snprintf(logBuff,sizeof(logBuff),"[%s] [%ld] ", gLevelMap[level], timestamp);
  28. FILE *fp = fopen(LOGFILE, "a");
  29. // printf("%s%s\n", stdBuffer, logBuffer);
  30. fprintf(fp, "%s %s\n", stdBuff, logBuff);
  31. fclose(fp);
  32. }


5.8 结尾


nohup ./http_server > log/log.txt 2>&1 &[1] 26890


1. 建立整站搜索
2. 设计一个在线更新的方案,信号,爬虫,完成整个服务器的设计
3. 不使用组件,而是自己设计一下对应的各种方案(有时间,有精力)
4. 在我们的搜索引擎中,添加竞价排名(强烈推荐)
5. 热次统计,智能显示搜索关键词(字典树,优先级队列)(比较推荐)
6. 设置登陆注册,引入对mysql的使用(比较推荐的)



C-C++项目: C/C++项目 - Gitee.com

