当前位置:   article > 正文

【项目】-文档快速搜索工具_在文件中快速查找apache单词

在文件中快速查找apache单词

一、项目调研背景

1、linux环境下有非常好用的find命令,查找文档非常的便捷高效。

 2、windows下文件夹框下的默认搜索是搜索时再进行暴力遍历查找,非常的慢。

3、windows下有一个神器软件解决了这个问题,叫everything,是将文档信息检索以后,提前存储 到数据库,查找时在数据库进行搜索,速度快了很多。

缺点:只适用于NTFS格式

           不能使用拼音搜索、也不能使用首字母搜索

4、qq的搜索 --- 能够快速搜索,且支持拼音和首字母的搜索方式

5、通过以上的对比,希望自己能写一个针对文档搜索的工具,且能够快速搜索,以及能支持多种搜索方式的文档搜索工具。

二、项目需求分析

1、支持文档的常规搜索

2、支持拼音全拼搜索

3、支持拼音首字母搜索

4、支持搜索关键字高亮显示

5、扫描和监控(用户感知不到)

三、项目开发环境

1、编译器 : VS系列编译器 2013 or 2019 or 2022 .....

2、编程语言 : C++ / C++11

3、数据库 : sqlite3 (核心关键)

四、项目涉及的知识点

1、数据库操作:

(sqlite安装,创建数据库,创建表,插入数据,删除数据,创建索引,查询数据 (条件查询、 模糊查询))

2、静态库和动态库:静态库和动态的制作,动态库和动态的使用

3、设计模式(单例模式)

4、多线程

5、同步机制(互斥量、条件变量)

6、日志

7、汉字与拼音的转换

五、项目实现的基础理论

六、项目框架

七、项目框架搭建

1、创建common.h 公共模块

2、创建DocFastSearchToolMain.cpp 驱动模块

3、创建sysutil.h 系统工具模块

八、系统工具模块

sysutil.h  和  sysutil.cpp

功能:扫描本地的文件的功能

8.1需要使用的函数

  1. //功能是搜索与指定的文件名称匹配的第一个实例,若成功则返回第一个实例的句柄,否则返回-1L
  2. long _findfirst( char *filespec, struct _finddata_t *fileinfo );
  3. //_findnext函数提供搜索文件名称匹配的下一个实例,若成功则返回0,否则返回-1
  4. int _findnext( long handle, struct _finddata_t *fileinfo );
  5. //_findclose用于释放由_findfirst分配的内存,可以停止一个_findfirst/_findnext序列
  6. int _findclose( long handle );

8.2目录显示函数的实现

  1. void DirectionList(const string &path, vector<string> &sub_dir, vector<string> &sub_file)
  2. {
  3. struct _finddata_t file;
  4. //"D:\\C_project\\test";
  5. string _path = path;
  6. //"D:\\C_project\\test\\*.*";
  7. _path += "\\*.*";
  8. long handle = _findfirst(_path.c_str(), &file);
  9. if(handle == -1)
  10. {
  11. printf("扫描目录失败.\n");
  12. return;
  13. }
  14. do
  15. {
  16. if(file.name[0] == '.')
  17. continue;
  18. //cout<<file.name<<endl;
  19. if(file.attrib & _A_SUBDIR)
  20. sub_dir.push_back(file.name);
  21. else
  22. sub_file.push_back(file.name);
  23. if(file.attrib & _A_SUBDIR)
  24. {
  25. //文件为目录(文件夹)
  26. //"D:\\C_project\\test"
  27. string tmp_path = path;
  28. //"D:\\C_project\\test\\"
  29. tmp_path += "\\";
  30. //"D:\\C_project\\test\\git"
  31. tmp_path += file.name;
  32. //目录递归遍历
  33. DirectionList(tmp_path, sub_dir, sub_file);
  34. }
  35. }while(_findnext(handle,&file) == 0);
  36. _findclose(handle);
  37. }

九、数据管理模块

dataManager.h和dataManager.cpp

功能:管理数据

9.1SQLite

什么是SQLite?

        SQLite是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。它是一个零配置的数据库,这意味着与其他数据库不一样,您不需要在系统中配置。

        就像其他数据库,SQLite 引擎不是一个独立的进程,可以按应用程序需求进行静态或动态连接。SQLite 直接访问其存储文件。

为什么要用SQLite?

  • 不需要一个单独的服务器进程或操作的系统(无服务器的)。

  • SQLite 不需要配置,这意味着不需要安装或管理。

  • 一个完整的 SQLite 数据库是存储在一个单一的跨平台的磁盘文件。

  • SQLite 是非常小的,是轻量级的,完全配置时小于 400KiB,省略可选功能配置时小于250KiB。

  • SQLite 是自给自足的,这意味着不需要任何外部的依赖。

  • SQLite 事务是完全兼容 ACID 的,允许从多个进程或线程安全访问。

  • SQLite 支持 SQL92(SQL2)标准的大多数查询语言的功能。

  • SQLite 使用 ANSI-C 编写的,并提供了简单和易于使用的 API。

  • SQLite 可在 UNIX(Linux, Mac OS-X, Android, iOS)和 Windows(Win32, WinCE, WinRT)中运行。

9.2sqlite C/C++的API使用

什么是API?

        API(Application Program Interface)被定义为应用程序可用以与计算机操作系统交换信息和命令的标准集。一个标准的应用程序界面为用户或软件开发商提供一个通用编程环境,以编写可交互运行于不同厂商计算机的应用程序。

        API不是产品,而是战略,所有操作系统与网络操作系统都有API。在网络环境中不同机器的API兼容是必要的,否则程序对其所驻留的机器将是不兼容的。

安装sqlite源码:

在 C/C++ 程序中使用 SQLite 之前,我们需要确保机器上已经有 SQLite 库 。

将源码下的sqlite3.h sqlite3.c拷贝到工程目录下即可。

数据库操作的重要接口:

  1. //打开数据库
  2. int sqlite3_open(const char *filename, sqlite3 **ppDb);
  3. //关闭数据库
  4. int sqlite3_close(sqlite3*);
  5. //执行SQL语句
  6. int sqlite3_exec(sqlite3*, const char *sql, sqlite_callback,
  7. void *data, char **errmsg);
  8. int sqlite3_get_table(
  9. sqlite3 *db, /* An open database */
  10. const char *zSql, /* SQL to be evaluated */
  11. char ***pazResult, /* Results of the query */
  12. int *pnRow, /* Number of result rows written here */
  13. int *pnColumn, /* Number of result columns written here */
  14. char **pzErrmsg /* Error msg written here */
  15. );
  16. void sqlite3_free_table(char **result);

9.3封装sqlite数据库管理类

新增数据管理模块:dataManager.h

  1. class SqliteManager
  2. {
  3. public:
  4. SqliteManager();
  5. ~SqliteManager();
  6. public:
  7. void Open(const string &database); //打开或创建数据库
  8. void Close(); //关闭数据库
  9. void ExecuteSql(const string &sql); //执行SQL语句
  10. void GetResultTable(const string &sql, char **&ppRet, int &row, int &col);
  11. private:
  12. sqlite3 *m_db;
  13. };

dataManager.cpp

  1. #include"dataManager.h"
  2. SqliteManager::SqliteManager():m_db(nullptr)
  3. {}
  4. SqliteManager::~SqliteManager()
  5. {}
  6. void SqliteManager::Open(const string &database)
  7. {
  8. int rc = sqlite3_open(database.c_str(), &m_db);
  9. if (rc != SQLITE_OK)
  10. {
  11. fprintf(stderr, "Can't open database: %s\n", sqlite3_errmsg(m_db));
  12. exit(1);
  13. }
  14. else
  15. {
  16. fprintf(stderr, "Opened database successfully\n");
  17. }
  18. }
  19. void SqliteManager::Close()
  20. {
  21. int rc = sqlite3_close(m_db);
  22. if (rc != SQLITE_OK)
  23. {
  24. fprintf(stderr, "Can't close database: %s\n", sqlite3_errmsg(m_db));
  25. exit(1);
  26. }
  27. else
  28. {
  29. fprintf(stderr, "Close database successfully\n");
  30. }
  31. }
  32. void SqliteManager::ExecuteSql(const string &sql)
  33. {
  34. char *zErrMsg = 0;
  35. int rc = sqlite3_exec(m_db, sql.c_str(), 0, 0, &zErrMsg);
  36. if (rc != SQLITE_OK)
  37. {
  38. fprintf(stderr, "SQL error: %s\n", zErrMsg);
  39. sqlite3_free(zErrMsg);
  40. }
  41. else
  42. {
  43. fprintf(stdout, "Operation sql successfully\n");
  44. }
  45. }
  46. void SqliteManager::GetResultTable(const string &sql, char **&ppRet, int &row, int &col)
  47. {
  48. char *zErrMsg = 0;
  49. int rc = sqlite3_get_table(m_db, sql.c_str(), &ppRet, &row, &col, &zErrMsg);
  50. if(rc != SQLITE_OK)
  51. {
  52. fprintf(stderr, "SQL Error: %s\n", zErrMsg);
  53. sqlite3_free(zErrMsg);
  54. }
  55. else
  56. {
  57. fprintf(stdout, "Get Result Table successfully\n");
  58. }
  59. }

9.4封装数据管理类

目的:方便对数据库的操作,因为最后并不是对数据库进行操作,而是让本地文件和数据库的文件进行持续的对比,确保本地文件和数据库的文件是同步的,简而言之,并不直接去操作数据库。

  1. //封装数据管理类
  2. class DataManager
  3. {
  4. public:
  5. DataManager();
  6. ~DataManager();
  7. public:
  8. void InitSqlite(); //初始化数据库
  9. void InsertDoc(const string &path, const string &doc);
  10. void DeleteDoc(const string &path, const string &doc);
  11. void GetDoc(const string &path, multiset<string> &docs);
  12. private:
  13. SqliteManager m_dbmgr;
  14. };
  1. DataManager::DataManager()
  2. {
  3. m_dbmgr.Open(DOC_DB);
  4. InitSqlite(); //创建表
  5. }
  6. DataManager::~DataManager()
  7. {}
  8. void DataManager::InitSqlite()
  9. {
  10. char sql[SQL_BUFFER_SIZE] = {0};
  11. sprintf(sql, "CREATE TABLE if not exists %s(\
  12. id integer primary key autoincrement,\
  13. doc_name text,\
  14. doc_path text)", DOC_TB);
  15. m_dbmgr.ExecuteSql(sql);
  16. }
  17. void DataManager::InsertDoc(const string &path, const string &doc)
  18. {
  19. char sql[SQL_BUFFER_SIZE] = {0};
  20. sprintf(sql, "INSERT INTO %s values(null, '%s', '%s')",
  21. DOC_TB, doc.c_str(), path.c_str());
  22. m_dbmgr.ExecuteSql(sql);
  23. }
  24. void DataManager::DeleteDoc(const string &path, const string &doc)
  25. {
  26. char sql[SQL_BUFFER_SIZE] = {0};
  27. sprintf(sql, "DELETE FROM %s where doc_path='%s' and doc_name='%s'",
  28. DOC_TB, path.c_str(), doc.c_str());
  29. m_dbmgr.ExecuteSql(sql);
  30. }
  31. void DataManager::GetDoc(const string &path, multiset<string> &docs)
  32. {
  33. char sql[SQL_BUFFER_SIZE] = {0};
  34. sprintf(sql, "SELECT doc_name from %s where doc_path='%s'",
  35. DOC_TB, path.c_str());
  36. char **ppRet = 0;
  37. int row = 0, col = 0;
  38. m_dbmgr.GetResultTable(sql, ppRet, row, col);
  39. for(int i=1; i<=row; ++i)
  40. docs.insert(ppRet[i]);
  41. //释放表结果
  42. sqlite3_free_table(ppRet);
  43. }

9.4.1 新增搜索函数

在dataManager类中新增函数:

使用like模糊匹配

  1. void DataManager::Search(const string &key, vector<pair<string,string>> &doc_path)
  2. {
  3. char sql[SQL_BUFFER_SIZE] = {0};
  4. sprintf(sql, "SELECT doc_name, doc_path from %s where doc_name like '%%%s%%'",
  5. DOC_TB, key.c_str());
  6. char **ppRet;
  7. int row, col;
  8. m_dbmgr.GetResultTable(sql, ppRet, row, col);
  9. for(int i=1; i<=row; ++i)
  10. {
  11. doc_path.push_back(make_pair(ppRet[i*col], ppRet[i*col+1]));
  12. }
  13. sqlite3_free_table(ppRet);
  14. }

9.4.2 利用RAII机制解决表结果的自动释放

我们万一忘记释放表结果就会导致内存泄漏,每搜索一次就会泄漏一次,如果搜的次数多的话,会导致内存资源被耗光;

手动释放表结果还是有点麻烦的,而且我们难免保证每次都会去释放表结果资源。

所以我们就想着能不能让他自动的去释放呢?

智能指针的思想RAll机制。

增加一个AutoGetResultTable类

在管理数据的时候,只要获取了表,每次才析构的时候都会释放表结果资源。

  1. class AutoGetResultTable
  2. {
  3. public:
  4. AutoGetResultTable(SqliteManager &db, const string &sql, char **&ppRet, int &row, int &col);
  5. ~AutoGetResultTable();
  6. private:
  7. SqliteManager &m_db;
  8. char **m_ppRet;
  9. };
  10. AutoGetResultTable::AutoGetResultTable(SqliteManager &db, const string &sql,
  11. char **&ppRet, int &row, int &col)
  12. :m_db(db), m_ppRet(nullptr)
  13. {
  14. m_db.GetResultTable(sql, ppRet, row, col);
  15. m_ppRet = ppRet;
  16. }
  17. AutoGetResultTable::~AutoGetResultTable()
  18. {
  19. if(m_ppRet)
  20. sqlite3_free_table(m_ppRet);
  21. }

问题:在写这个类的时候怎么知道要传哪些参数呢?怎么知道要有哪些成员呢?

        本身这个类就是要解决的释放空间,那么要是不把空间保存下来,拿什么去释放呢?所以在类中就把ppRet给保留下来,在释放空间时,释放m_ppRet所指空间。

十、扫描模块

ScanManager.h  和  ScanManager.cpp

功能:实现本地数据与数据库数据保持同步,

让数据库与本地数据进行对比,相同地方不变,不同地方进行修改,

为了使此过程效率提高,可以借助muliiset这个容器,利用其排序性(红黑树)

10.1同步数据库和本地数据

  1. //同步本地文件和数据库文件的数据
  2. void ScanManager::ScanDirectory(const string &path)
  3. {
  4. //1 扫描本地文件
  5. vector<string> local_dir;
  6. vector<string> local_file;
  7. DirectionList(path, local_dir, local_file);
  8. multiset<string> local_set;
  9. local_set.insert(local_file.begin(), local_file.end());
  10. local_set.insert(local_dir.begin(), local_dir.end());
  11. //2 扫描数据库文件
  12. multiset<string> db_set;
  13. m_dbmgr.GetDoc(path, db_set);
  14. //3 同步数据
  15. auto local_it = local_set.begin();
  16. auto db_it = db_set.begin();
  17. while(local_it!=local_set.end() && db_it!=db_set.end())
  18. {
  19. if(*local_it < *db_it)
  20. {
  21. //本地有,数据库没有,数据库插入文件
  22. m_dbmgr.InsertDoc(path, *local_it);
  23. ++local_it;
  24. }
  25. else if(*local_it > *db_it)
  26. {
  27. //本地没有,数据库有,数据库删除文件
  28. m_dbmgr.DeleteDoc(path, *db_it);
  29. ++db_it;
  30. }
  31. else
  32. {
  33. //两者都有
  34. ++local_it;
  35. ++db_it;
  36. }
  37. }
  38. while(local_it != local_set.end())
  39. {
  40. //本地有,数据库没有,数据库插入文件
  41. m_dbmgr.InsertDoc(path, *local_it);
  42. ++local_it;
  43. }
  44. while(db_it != db_set.end())
  45. {
  46. //本地没有,数据库有,数据库删除文件
  47. m_dbmgr.DeleteDoc(path, *db_it);
  48. ++db_it;
  49. }
  50. }

10.2新增实时扫描功能

上面这个扫描是在搜索之前先进行了扫描,当程序运行之后,当更改本地数据之后无法同步数据库内容,如果想要同步的话,需要将程序重新启动,这个方法虽然可以解决问题但很不现实。

所以,有什么办法能实时的进行同步?

我们可以是用多线程的思想,让一个线程专门去扫描,达到实时同步。

在ScanManager类中新增构造函数和扫描线程函数:

  1. class ScanManager
  2. {
  3. public:
  4. ScanManager(const string &path);
  5. public:
  6. //........
  7. //扫描线程
  8. void ScanThread(const string &path);
  9. private:
  10. DataManager m_dbmgr;
  11. };

线程的函数就是一直在做着扫描的工作,当然一直在while(1)效率肯定不高,后面会使用条件变量让扫描更加高效

  1. ScanManager::ScanManager(const string &path)
  2. {
  3. thread ScanObj(&ScanManager::ScanThread, this, path);
  4. ScanObj.detach();
  5. }
  6. void ScanManager::ScanThread(const string &path)
  7. {
  8. while(1)
  9. {
  10. ScanDirectory(path);
  11. }
  12. }

10.3扫描管理类的单例化

上面这个扫描管理类中有什么不妥的地方,每次扫描都需要实例化一个对象,那么要是别人也实例化出来一个对象的话会怎么样?

并不需要实例化很多对象,只需要实例化一个对象,然后启动一个专门的线程去扫描就行。

一个类只产生一个对象就是叫单例化。

使用到懒汉模式实现单例化:

  1. class ScanManager
  2. {
  3. public:
  4. static ScanManager& GetInstance(const string &path);
  5. protected:
  6. ScanManager(const string &path);
  7. ScanManager(ScanManager &);
  8. ScanManager& operator=(const ScanManager&);
  9. private:
  10. //DataManager m_dbmgr;
  11. };
  12. ScanManager& ScanManager::GetInstance(const string &path)
  13. {
  14. static ScanManager _inst(path);
  15. return _inst;
  16. }

十一、对sqlite进行静态链接库的使用

为什么使用静态链接库?

函数实现的过程不想要告诉别人,保护我们的源码(藏起来)。

1、静态库和动态库

.lib称为静态链接库 .dll称为动态链接库

2、创建静态库工程

3、添加程序的头文件和源文件,不用写主函数,直接点击生成静态链接

4、在Debug下面就能找到生成的静态库

5、使用生成静态链接库

将程序的头文件.h + 静态链接库文件.lib 拷贝至工程

6、通过#pragma comment(lib, "xxxx.lib")

7、按照上述步骤制作sqlite的静态链接库

8、删除sqlite3.c,使用sqlite3.lib进行替换,然后通过命令引入静态库

#pragma comment(lib, "./sqlite3/sqlite3.lib")

十二、日志模块

1、什么是日志

网络设备、系统及服务程序等在运作时都会产生一个叫log的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述;它记录了用户访问系统的全过程:哪些人在什么时间,通过什么渠道(比如搜索引擎、网址输入)来过,都执行了哪些操作;系统是否产生了错误;甚至包括用户的 IP、HTTP 请求的时间,用户代理等。

2、日志的级别

  1. 日志一共分成5个等级,从低到高分别是:
  2. DEBUG
  3. INFO
  4. WARNING
  5. ERROR
  6. CRITICAL
  7. 说明:
  8. DEBUG:详细的信息,通常只出现在诊断问题上
  9. INFO:确认一切按预期运行
  10. WARNING:一个迹象表明,一些意想不到的事情发生了,或表明一些问题在不久的将来(例如。磁盘空间低”)。这个软件还能按预期工作。
  11. ERROR:更严重的问题,软件没能执行一些功能
  12. CRITICAL:一个严重的错误,这表明程序本身可能无法继续运行
  13. 5个等级,也分别对应5种打日志的方法: debug 、info 、warning 、error 、critical。默认的是WARNING,当在WARNING或之上时才被跟踪。

3、日志实现

  1. //获取文件名
  2. string GetFileName(const string &path);
  3. //追踪日志
  4. void __TraceDebug(const char *filename, int line, const char *function,
  5. const char *date, const char *time,
  6. const char *format, ...);
  7. //错误日志
  8. void __ErrorDebug(const char *filename, int line, const char *function,
  9. const char *date, const char *time,
  10. const char *format, ...);
  11. #define TRACE_LOG(...) __TraceDebug(__FILE__, __LINE__, __FUNCTION__, __DATE__, __TIME__, __VA_ARGS__)
  12. #define ERROR_LOG(...) __ErrorDebug(__FILE__, __LINE__, __FUNCTION__, __DATE__, __TIME__, __VA_ARGS__)
  13. string GetFileName(const string &path)
  14. {
  15. char token = '\\';
  16. size_t pos = path.rfind(token);
  17. if(pos == string::npos)
  18. return path;
  19. return path.substr(pos+1);
  20. }
  21. void __TraceDebug(const char *filename, int line, const char *function,
  22. const char *date, const char *time,
  23. const char *format, ...)
  24. {
  25. #ifdef __TRACE__
  26. fprintf(stdout, "[TRACE][%s:%d:%s %s:%s]:", GetFileName(filename).c_str(),
  27. line, function,
  28. date, time);
  29. //读取可变参数
  30. va_list args; //char *args;
  31. va_start(args, format);
  32. vfprintf(stdout, format, args);
  33. va_end(args);
  34. fprintf(stdout, "\n");
  35. #endif
  36. }
  37. void __ErrorDebug(const char *filename, int line, const char *function,
  38. const char *date, const char *time,
  39. const char *format, ...)
  40. {
  41. #ifdef __ERROR__
  42. fprintf(stdout, "[ERROR][%s:%d:%s %s:%s]:", GetFileName(filename).c_str(),
  43. line, function,
  44. date, time);
  45. //读取可变参数
  46. va_list args; //char *args;
  47. va_start(args, format);
  48. vfprintf(stdout, format, args);
  49. va_end(args);
  50. fprintf(stdout, "\n");
  51. #endif
  52. }

十三、监控模块

只有扫描而没有监控的话,扫描线程就会一直死循环的扫描,文件少的时候还没啥大问题,文件多的话,每扫描一次所用时间变多,本地文件并没有改变,但是扫描线程还是在扫描,浪费资源。

这是,新增一个监控线程,当本地文件发生改变的时候,再去通知扫描线程进行扫描。

监控的文件改变情况:文件被删除,文件重命名,增加文件

需要引入几个API函数:

1、需要使用到的API接口

  1. #include<windows.h>
  2. HANDLE FindFirstChangeNotification(
  3. LPCTSTR lpPathName, // pointer to name of directory to watch
  4. BOOL bWatchSubtree, // flag for monitoring directory or
  5. // directory tree
  6. DWORD dwNotifyFilter // filter conditions to watch for
  7. );
  8. BOOL FindNextChangeNotification(
  9. HANDLE hChangeHandle // handle to change notification to signal
  10. );
  11. DWORD WaitForSingleObject(
  12. HANDLE hHandle, // handle to object to wait for
  13. DWORD dwMilliseconds // time-out interval in milliseconds
  14. );

2、添加互斥量和条件变量            

  1. #include<mutex>
  2. #include<condition_variable>
  3. class ScanManager
  4. {
  5. //...............
  6. mutex m_mutex;
  7. condition_variable m_cond;

3、监控模块实现

  1. void ScanManager::ScanThread(const string &path)
  2. {
  3. //初始化扫描
  4. ScanDirectory(path);
  5. while(1)
  6. {
  7. unique_lock<mutex> lock(m_mutex);
  8. m_cond.wait(lock); //条件阻塞
  9. ScanDirectory(path);
  10. }
  11. }
  12. void ScanManager::WatchThread(const string &path)
  13. {
  14. HANDLE hd = FindFirstChangeNotification(path.c_str(), true,
  15. FILE_NOTIFY_CHANGE_FILE_NAME | FILE_NOTIFY_CHANGE_DIR_NAME);
  16. if(hd == INVALID_HANDLE_VALUE)
  17. {
  18. //cout<<"监控目录失败."<<endl;
  19. ERROR_LOG("监控目录失败.");
  20. return;
  21. }
  22. while(1)
  23. {
  24. WaitForSingleObject(hd, INFINITE); //永不超时等待
  25. m_cond.notify_one();
  26. FindNextChangeNotification(hd);
  27. }
  28. }

unique_lock<mutex> lock(m_mutex);  这个锁对象是构造函数加锁,析构函数解锁

十四、中间逻辑层实现

1、准备工具函数

  1. //汉字转拼音
  2. string ChineseConvertPinYinAllSpell(const string &dest_chinese);
  3. //汉字转拼音首字母
  4. string ChineseConvertPinYinInitials(const string &name);

2、实现拼音全拼和首字母的搜索

a.对数据库表新增字段

实现转拼音和转首字母之后,还需要在数据库的表中增加两列内容   doc_name_py  和  doc_name_initials

  1. void DataManager::InitSqlite()
  2. {
  3. char sql[SQL_BUFFER_SIZE] = {0};
  4. sprintf(sql, "CREATE TABLE if not exists %s(\
  5. id integer primary key autoincrement,\
  6. doc_name text,\
  7. doc_name_py text,\
  8. doc_name_initials text,\
  9. doc_path text)", DOC_TB);
  10. m_dbmgr.ExecuteSql(sql);
  11. }

b.新增数据

  1. void DataManager::InsertDoc(const string &path, const string &doc)
  2. {
  3. //汉字转拼音
  4. string doc_py = ChineseConvertPinYinAllSpell(doc);
  5. //汉字转首字母
  6. string doc_initials = ChineseConvertPinYinInitials(doc);
  7. char sql[SQL_BUFFER_SIZE] = {0};
  8. sprintf(sql, "INSERT INTO %s values(null, '%s', '%s','%s', '%s')",
  9. DOC_TB, doc.c_str(), doc_py.c_str(), doc_initials.c_str(), path.c_str());
  10. m_dbmgr.ExecuteSql(sql);
  11. }

c.新增拼音和首字母的搜索

  1. void DataManager::Search(const string &key, vector<pair<string,string>> &doc_path)
  2. {
  3. //汉字转拼音
  4. string doc_py = ChineseConvertPinYinAllSpell(key);
  5. //汉字转首字母
  6. string doc_initials = ChineseConvertPinYinInitials(key);
  7. char sql[SQL_BUFFER_SIZE] = {0};
  8. sprintf(sql, "SELECT doc_name, doc_path from %s where doc_name like '%%%s%%' or\
  9. doc_name_py like '%%%s%%' or doc_name_initials like '%%%s%%'",
  10. DOC_TB, key.c_str(), doc_py.c_str(), doc_initials.c_str());
  11. char **ppRet;
  12. int row, col;
  13. //m_dbmgr.GetResultTable(sql, ppRet, row, col);
  14. AutoGetResultTable at(m_dbmgr, sql, ppRet, row, col);
  15. doc_path.clear(); //清除之前搜索的数据
  16. for(int i=1; i<=row; ++i)
  17. {
  18. doc_path.push_back(make_pair(ppRet[i*col], ppRet[i*col+1]));
  19. }
  20. //释放表结果
  21. //sqlite3_free_table(ppRet);
  22. }

3、高亮显示搜索

原理:分割,把搜索到的文件名字符串分为三个部分:前缀,高亮部分,后缀

a.颜色打印函数

  1. // 颜色高亮显示一段字符串
  2. void ColourPrintf(const char* str)
  3. {
  4. // 0-黑 1-蓝 2-绿 3-浅绿 4-红 5-紫 6-黄 7-白 8-灰 9-淡蓝 10-淡绿
  5. // 11-淡浅绿 12-淡红 13-淡紫 14-淡黄 15-亮白
  6. //颜色:前景色 + 背景色*0x10
  7. //例如:字是红色,背景色是白色,即 红色 + 亮白 = 4 + 15*0x10
  8. WORD color = 9 + 0 * 0x10;
  9. WORD colorOld;
  10. HANDLE handle = GetStdHandle(STD_OUTPUT_HANDLE);
  11. CONSOLE_SCREEN_BUFFER_INFO csbi;
  12. GetConsoleScreenBufferInfo(handle, &csbi);
  13. colorOld = csbi.wAttributes;
  14. SetConsoleTextAttribute(handle, color);
  15. printf("%s", str);
  16. SetConsoleTextAttribute(handle, colorOld);
  17. }

b.实现高亮分割函数

把整个字符串分为三个部分:前缀,高亮部分,后缀。

在dataManager类中新增分割函数

  1. //封装数据管理类
  2. class DataManager
  3. {
  4. public:
  5. static void SplitHighLight(const string &str, const string &key,
  6. string &prefix, string &highlight, string &suffix);
  7. };
  8. void DataManager::SplitHighLight(const string &str, const string &key,
  9. string &prefix, string &highlight, string &suffix)
  10. {
  11. //忽略大小的匹配
  12. string strlower = str;
  13. string keylower = key;
  14. transform(strlower.begin(), strlower.end(), strlower.begin(), tolower);
  15. transform(keylower.begin(), keylower.end(), keylower.begin(), tolower);
  16. //原始字符串能够匹配
  17. size_t pos = strlower.find(keylower);
  18. if(pos != string::npos)
  19. {
  20. prefix = str.substr(0, pos);
  21. highlight = str.substr(pos, keylower.size());
  22. suffix = str.substr(pos+keylower.size(), str.size());
  23. return;
  24. }
  25. //拼音全拼搜索分割
  26. string str_py = ChineseConvertPinYinAllSpell(strlower);
  27. pos = str_py.find(keylower);
  28. if(pos != string::npos)
  29. {
  30. int str_index = 0; //控制原始字符串的下标
  31. int py_index = 0; //控制拼音字符串的下标
  32. int highlight_index = 0; //控制高亮显示字符串的起始位置
  33. int highlight_len = 0; //控制高亮字符串的长度
  34. while(str_index < str.size())
  35. {
  36. if(py_index == pos)
  37. {
  38. //记录高亮的起始位置
  39. highlight_index = str_index;
  40. }
  41. if(py_index >= pos+keylower.size())
  42. {
  43. //关键字搜索结束
  44. highlight_len = str_index - highlight_index;
  45. break;
  46. }
  47. if(str[str_index]>=0 && str[str_index]<=127)
  48. {
  49. //原始字符串是一个字符
  50. str_index++;
  51. py_index++;
  52. }
  53. else
  54. {
  55. //原始字符串是一个汉字
  56. string word(str, str_index, 2); //截取一个汉字 //校
  57. string word_py = ChineseConvertPinYinAllSpell(word);//xiao
  58. str_index += 2;
  59. py_index += word_py.size();
  60. }
  61. }
  62. prefix = str.substr(0, highlight_index);
  63. highlight = str.substr(highlight_index, highlight_len);
  64. suffix = str.substr(highlight_index+highlight_len, str.size());
  65. return;
  66. }
  67. //首字母搜索
  68. string str_initials = ChineseConvertPinYinInitials(strlower);
  69. pos = str_initials.find(keylower);
  70. if(pos != string::npos)
  71. {
  72. int str_index = 0;
  73. int initials_index = 0;
  74. int highlight_index = 0;
  75. int highlight_len = 0;
  76. while(str_index < str.size())
  77. {
  78. if(initials_index == pos)
  79. {
  80. //记录高亮的起始位置
  81. highlight_index = str_index;
  82. }
  83. if(initials_index >= pos+keylower.size())
  84. {
  85. highlight_len = str_index - highlight_index;
  86. break;
  87. }
  88. if(str[str_index]>=0 && str[str_index]<=127)
  89. {
  90. //原始字符串是一个字符
  91. str_index++;
  92. initials_index++;
  93. }
  94. else
  95. {
  96. //原始字符串是一个汉字
  97. str_index += 2;
  98. initials_index++;
  99. }
  100. }
  101. prefix = str.substr(0, highlight_index);
  102. highlight = str.substr(highlight_index, highlight_len);
  103. suffix = str.substr(highlight_index+highlight_len, str.size());
  104. return;
  105. }
  106. //没有搜索到关键字
  107. prefix = str;
  108. highlight.clear();
  109. suffix.clear();
  110. }

十五、客户端模块

新增客户端模块sysFrame.h 和 sysFrame.cpp

1、界面核心技术system

 2、增加界面

  1. void SetCurPos(int col, int row);
  2. void HideCursor();
  3. void DrawCol(int x, int y);
  4. void DrawRow(int x, int y);
  5. void DrawFrame(const char *title);
  6. void DrawMenu();

3、界面实现

  1. #define WIDTH 120
  2. #define HEIGHT 30
  3. #define MAX_TITLE_SIZE 100
  4. void SetCurPos(int col, int row)
  5. {
  6. //获取句柄
  7. HANDLE hd = GetStdHandle(STD_OUTPUT_HANDLE);
  8. //x代表列, y代表行
  9. COORD pos = {col, row};
  10. SetConsoleCursorPosition(hd, pos);
  11. }
  12. void HideCursor()
  13. {
  14. //获取句柄
  15. HANDLE hd = GetStdHandle(STD_OUTPUT_HANDLE);
  16. CONSOLE_CURSOR_INFO cur_info = {100, false};
  17. SetConsoleCursorInfo(hd, &cur_info);
  18. }
  19. void DrawCol(int x, int y)
  20. {
  21. for (int i = 0; i < HEIGHT; ++i)
  22. {
  23. SetCurPos(x, y + i);
  24. printf("||");
  25. }
  26. }
  27. void DrawRow(int x, int y)
  28. {
  29. for (int i = 0; i < WIDTH - 4; ++i)
  30. {
  31. SetCurPos(x + i, y);
  32. printf("=");
  33. }
  34. }
  35. void DrawFrame(const char *title)
  36. {
  37. char buffer[MAX_TITLE_SIZE + 6 + 1] = "title "; //6:title%20 1:\0
  38. strcat(buffer, title);
  39. system(buffer); //设置系统标题
  40. char mode[128] = { 0 };
  41. sprintf(mode, "mode con cols=%d lines=%d", WIDTH, HEIGHT);
  42. system(mode); //设置控制台的长度和宽度
  43. system("color 0F");//设置颜色
  44. DrawCol(0, 0);
  45. DrawCol(WIDTH - 2, 0);
  46. DrawRow(2, 0);
  47. DrawRow(2, 2);
  48. DrawRow(2, 4);
  49. DrawRow(2, HEIGHT - 4);
  50. DrawRow(2, HEIGHT - 2);
  51. }
  52. extern const char *title;
  53. void DrawMenu()
  54. {
  55. //标题的设置
  56. SetCurPos((WIDTH - 4 - strlen(title)) / 2, 1);
  57. printf("%s", title);
  58. //名称 路径
  59. SetCurPos(2, 3);
  60. printf("%-30s %-85s", "名称", "路径");
  61. //退出设置
  62. SetCurPos((WIDTH - 4 - strlen("exit 退出系统 .")) / 2, HEIGHT - 3);
  63. printf("%s", "exit 退出系统 .");
  64. DrawRow(2, HEIGHT - 6);
  65. //SetCurPos((WIDTH-4-strlen("请输入:>"))/2, 15);
  66. SetCurPos(2, HEIGHT - 5);
  67. printf("%s", "请输入:>");
  68. }

4、重构搜索

  1. const char *title = "文档快速搜索工具";
  2. int main(int argc, char *argv[])
  3. {
  4. const string path = "C:\\Bit\\Code\\bit77\\Pro_文档快速搜索工具\\TestDoc";
  5. //扫描目录
  6. ScanManager &sm = ScanManager::GetInstance(path);
  7. //搜索
  8. DataManager &dm = DataManager::GetInstance();
  9. vector<pair<string,string>> doc_path;
  10. string key;
  11. while(1)
  12. {
  13. //显示界面
  14. DrawFrame(title);
  15. DrawMenu();
  16. cin>>key;
  17. if(key == "exit")
  18. break;
  19. dm.Search(key, doc_path);
  20. int row = 5; //默认5行
  21. int count = 0; //显示的行数
  22. string prefix, highlight, suffix;
  23. for(const auto &e : doc_path) //e : doc_name doc_path
  24. {
  25. //高亮分割
  26. string doc_name = e.first;
  27. DataManager::SplitHighLight(doc_name, key, prefix, highlight, suffix);
  28. //设置文档名显示位置
  29. SetCurPos(2, row+count++);
  30. cout<<prefix;
  31. ColourPrintf(highlight.c_str());
  32. cout<<suffix;
  33. //设置路劲名显示位置
  34. SetCurPos(33, row+count-1);
  35. printf("%--85s\n", e.second.c_str());
  36. }
  37. SystemEnd();
  38. SystemPause();
  39. }
  40. SystemEnd();
  41. return 0;
  42. }

项目中遇到的问题:

遇到的问题挺多,主要有这个三个问题:资源的正确释放、搜索字符的高亮显示和使用监控模块监控文件的变化从而去调用扫描模块,如下对这三个问题进行逐一讨论:

对于资源的正确释放:发现这个问题是在让搜索线程死循环搜索时,发现程序开始莫名的报错,然后就发现内存资源被耗光。

然后想到了使用RAll的思想,每次去安全释放搜索表结果的资源;

搜索字符的高亮显示:

刚开始通过system“color XX” 将搜索的内容高亮处理,但是会把所有要打印的内容改变颜色,不能实现一行内容当中所匹配的几个字符的颜色改变;

然后想到了将字符串分割得到三个部分,只将匹配的到字符的颜色改变。

监控模块:在使用while(1)死循环加上扫描模块的时候,可以解决问题得到正确的结果,但是扫描路径下的文件变多的时候,扫描一次所使用的时间将会变得很长,而且很耗CPU资源。

然后想到了,怎么使用一个东西去监控文件数据是否发生变化,当文件数据真正的改变的时候这时候才会去通知扫描模块(条件变量),去扫描同步文件数据跟数据库数据,然后再加上单例的思想(懒汉模式),然后这个东西就是封装成了监控模块,使用条件变量,完成通知扫描模块的功能。

碰瓷一下Everything:

对比everything,这个项目就如同小小巫见大大巫,

做这个项目的目的,是为了使用数据库,熟悉数据库的简单操作,锻炼我们的编程能力。

1、Everything优缺点

优点:搜索效率高,不分路劲,搜索的是整个电脑

缺点:不支持拼音搜索,首字母搜搜, 只支持NTFS格式的分区

2、自己的项目优缺点

优点:持拼音搜索,首字母搜索,高亮显示

缺点:需要指定路劲搜索,如果数据量非常大,搜索效率可能会比较低下

3、Everything 原理

读取日志文件,不需要扫描目录,实现快速搜索。【一定要去了解,预防面试官问到】

everything搜索文件的速度之所以快得令人愤怒,主要原因是利用了NTFS的USNJournal特性,直

接从系统的主文件表里读取文件信息。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/blog/article/detail/51199
推荐阅读
相关标签
  

闽ICP备14008679号