《OSINT分析》05. 信息检索平台汇总

本系列侧重方法论,各工具只是实现目标的载体。
命令与工具只做简单介绍,其使用另见《软件工具录》。

1:通用搜索引擎

常见的通用搜索引擎包括 Google、Yandex、Bing、雅虎、百度、Qwant、Ask 和 AOL 等。

1.1:Google

链接:https://www.google.com/

1.2:Bing

链接:https://www.bing.com/

1.3:Yandex

链接:https://yandex.com/

1.4:Qwant

链接:https://www.qwant.com/

Qwant 于 2013 年正式投入使用。具备谷歌风格。

1.5:AOL

链接:https://search.aol.com/

美国在线(American Online),是一家知名互联网服务提供商。

1.6:DuckDuckGo

链接:https://duckduckgo.com/

DuckDuckGo 有独特的隐私保护机制。不会保存用户的搜索记录和访问记录。
该搜索引擎还整合了维基百科等网站的信息,以丰富传统搜索结果,提高搜索的相关性。
尽管在搜索结果数量上可能不及其他热门搜索引擎,但在准确性方面却表现出色。

1.7:Mojeek

链接:https://www.mojeek.com/

一个不断发展的独立搜索引擎,不会跟踪用户。

2:专用搜索引擎

专用搜索引擎用于检索特定领域或特定类型的结果。

  • 特定内容:科学、艺术等
  • 特定环境:图书馆、音频/视频共享群组、在线社交媒体等

常见的专用搜索引擎包括 Google Scholar、Microsoft Academy、WolframAlpha、Smithsonian Research Online、Artcyclopedia 以及 WorldWideScience。

2.1:Google Scholar

链接:https://scholar.google.com/

Google Scholar(谷歌学术)可对多种出版格式的学术文献进行索引。包括期刊、书籍、法庭记录等。

2.2:Anna’s Archive

链接:https://annas-archive.org/

Anna’s Archive(安娜的档案)是最大的完全开放图书馆,建立了 Sci-Hub 和 LibGen 的镜像站。

Anna’s Archive 是一个非盈利性项目,有两个目标:

  • 保存:备份人类所有的知识和文化
  • 开放获取:让世界上的任何人都可访问并获取这些知识和文化

2.3:Sci-Hub

链接:https://sci-hub.se/

Sci-Hub 是当今科学界最具争议性的项目。Sci-hub 的目标是免费并且不受限制地提供所有科学知识。

2.4:WolframAlpha

链接:https://www.wolframalpha.com/

Wolfram Alpha 是由 Wolfram Alpha 公司开发的计算知识引擎(Computational Knowledge Engine,答案引擎)。
旨在通过自然语言查询为用户提供各种数据分析、计算和知识解答服务。
该引擎通过运用突破性的算法、丰富的知识库以及人工智能技术,为用户提供专业级别的解答。

2.4.1:示例

数学问题:

  • 输入 solve x^2 + 3x + 2 = 0,返回方程的解:x = -1 和 x = -2

科学问题:

  • 输入 speed of light,返回光速的精确值及单位转换

数据分析:

  • 输入 population of China in 2023,返回中国 2023 年人口及相关统计数据

2.5:中国专利检索

链接:http://epub.cnipa.gov.cn/

2.6:谷歌专利检索

链接:https://patents.google.com/

2.7:Social Searcher

链接:https://www.social-searcher.com/

Social Searcher 主要用于社交媒体分析。可以根据关键词检索各种社交媒体平台上的公开内容(如帖子、评论、图片等)。

2.8:Board Reader

链接:https://boardreader.com/

Board Reader 是一个专注于搜索和发现在线论坛内容的工具。它允许用户搜索各种网络论坛社区上的帖子和讨论。

3:其他搜索引擎

3.1:Searx

链接:https://searx.be/

Searx 是一款免费开源的元搜索引擎,汇集了 70 多种搜索引擎的结果,用户既不被跟踪也不被分析。

3.2:Start Page

链接:https://www.startpage.com/

Start Page 是一款元搜索引擎,不会透露用户的连接信息。
Start Page 仅呈现 Google 搜索结果,此举优势在于可以运用 Google 的高级搜索功能,同时确保身份隐私得到保护。

3.3:Million Short

链接:https://millionshort.com/

该搜索引擎提供一个独特功能:可以选择删除最受欢迎的网站或搜索结果。这将消除流行的结果并专注于不太知名的网站。
该网站仅提供 100 次免费检索,可以通过创建不同的账户进行检索。

3.4:Cylect

链接:https://cylect.io/

Cylect 是一款高级 AI OSINT 搜索工具聚合器,集成了多个数据库并将其搜索功能简化为易于导航的界面,提供全面的解决方案来帮助满足特定的数据需求。

3.5:Mamoht

链接:https://www.mmnt.ru/

Mamoht 是一款俄罗斯搜索引擎,可以按照不同国家/地区展示 FTP 服务器托管的内容。

3.6:FreewareWeb

链接:https://www.freewareweb.com/ftpsearch.shtml

FreewareWeb 可以检索网络上的 FTP 服务器与相关文件。

3.7:Ahmia

链接:https://ahmia.fi/

Ahmia 是一个非常强大的 Tor 网络搜索引擎。
Ahmia 是最理想的搜索引擎,虽然没有任何引擎可以索引和定位每个 Tor 网站。

链接:https://tor.link/

这款搜索引擎于 2022 年出现,似乎很好地索引了 Tor 站点。

4:在线社区

4.1:Twitter

链接:https://x.com/

Twitter 在 2023 年改名为 “ X ”。但在讨论中仍然习惯称其为 Twitter。
推特作为一个比较火的国外社交媒体平台,每天发布的帖子超过 5 亿条。具备很强的实时性。

4.2:LinkedIn

链接:https://www.linkedin.com/

LinkedIn(领英),建立于 2003 年 5 月,是一个面向职场的社交平台。

4.3:Telegram

链接:https://telegram.org/

Telegram 上存在大量开放群组和频道,覆盖新闻、技术、暗网等领域。通过这些资源可以收集实时情报。

4.4:Reddit

链接:https://www.reddit.com/

Reddit 是一个娱乐、社交及新闻网站。
Reddit 包含众多子版块(subreddit),每个子版块都专注于特定主题。

4.5:4chan

链接:https://www.4chan.org/

4chan 是一个完全匿名的实时消息论坛,它被认为是互联网上最简陋也最有创意的网站之一。
该网站充斥着欺凌、色情、威胁等非法行为。它也成了许多调查的焦点。
该网站与互联网亚文化和行动主义团体有关联,其中最著名的是匿名者(Anonymous)。

4chan 分为不同的版块,每个版块都有自己特定的内容和规则。
网站的 “ Random ” 版块,也被称为 “ /b/ ”,是第一个被创建的版块,也是流量最大的版块。

4chan 平台没有搜索功能。在这种情况下,可以使用 4chansearch 平台进行搜索。

4.6:Hacker News

链接:https://news.ycombinator.com/

Hacker News 是一个社会化新闻网站。
尽管该网站面向精通科技的社区,但每天仍有数百万用户参与一般性的话题讨论。

4.7:TikTok

链接:https://www.tiktok.com/

TikTok 是一个短视频社交平台。

4.8:Nextdoor

链接:https://nextdoor.com/

这个在线社区允许特定社区或地理区域内的人们在一个受控的网络空间内进行私密交流。

4.9:Meetup

链接:https://www.meetup.com/

Meetup 网站允许成员找到并加入共同利益的群体,如书籍、游戏、电影、宠物、职业或爱好。
用户只要输入所在的邮政编码或城市和他们想见面的话题,网站就可以帮助他们安排一个时间和地点见面。

4.10:Discord

链接:https://discord.com/

Discord 是一个免费的语音、视频和文本聊天平台,最初设计用于游戏社区。
如今,它已经发展成为一个远不止于此的平台,涵盖了不同兴趣的受众。

4.11:V2EX

链接:https://www.v2ex.com/

V2EX(way to explore)是一个网络论坛,内容比较混乱,充满主观性。

4.12:Pushshift

链接:https://api.pushshift.io/signup

该档案涵盖了自 2005 年以来在 Reddit 平台上发布的绝大多数内容,其中包括众多已删除的帖子。

一些 API 检索示例:

5:补充知识

5.1:元搜索引擎简介

元搜索引擎(Meta Search Engine)是一种调用其他独立搜索引擎的引擎,就是对多个独立搜索引擎的整合、调用、控制和优化利用。

  • 涵盖较多的搜索资源,可随意选择和调用源搜索引擎
  • 具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制等
  • 详细的检索结果信息描述(如网页名称、URL、源搜索引擎、结果与需求的相关度等)

5.2:FTP 检索

FTP 服务器是具有公共 IP 地址的计算机,用于存储文件。
在互联网领域,对于 FTP 服务器的检索被大多数网络研究人员所忽略。
可能由此找到由公司、政府机构和军队托管的极其敏感的文件。

FTP 服务器虽然可以使用强制访问凭据来保护文件内容,但这种情况很少发生,大多数都是公开的。

Google、Bing 等搜索引擎都会对 FTP 服务器公开的数据建立索引。可以采用以下 Google 检索语法进行搜索:

  • "confidential" inurl:ftp -inurl:http -inurl:https
  • "OSINT" filetype:pdf inurl:ftp -inurl:http -inurl:https

通过搜索引擎手动检索,可以得到 FTP 服务器上的大量可用的文档。
FTP 服务器已被 Google 索引,但还有其他专门的 FTP 检索网站值得探索。


对于公开的 FTP 服务器,可以通过 ftp 命令匿名登录(用户名:anonymous),某些可以通过 HTTP 协议从浏览器中直接访问。

ftp 命令简单示例,以 ftp://ftp.fcc.gov/pub/Bureaus/Common_Carrier/Orders/2001/da011953.doc 为例。

连接服务器:

  • ftp ftp.fcc.gov

输入用户名与密码:

  • 用户名:anonymous,密码为空

切换目录:

  • cd /pub/Bureaus/Common_Carrier/Orders/2001/

下载文件:

  • get da011953.doc

5.3:暗网站点

暗网站点不会出现在常规搜索引擎中,但一些在暗网(如 Tor 网络)内运行的特殊搜索工具可以对意隐藏在表层网络之外的网站进行索引。

  • 暗网只能使用专为匿名和隐私设计的特定软件(例如 Tor 浏览器)访问
  • 大多数暗网站点都在 Tor 网络上托管,并且可以使用 Tor 自己的顶级域名 “ .onion ” 进行识别

Tor 由全球志愿者免费组成的 6000 多个中继网络引导互联网流量,以隐藏用户的位置和使用情况。
基于 Tor 搜索引擎和代理有助于发现暗网网站。

6:其他

6.1:相关平台

上述提到过的链接这里不再列出。

浏览器主页优化平台:

威胁数据追踪平台(不要下载分析该平台内容):

BugMeNot(用于分享各个网站上的登录凭证):

6.2:参考资料

《元搜索引擎》:
https://wiki.mbalib.com/wiki/%E5%85%83%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E

《4chan-外国综合型讨论区》:
https://baike.baidu.com/item/4chan/9453682

《6 Tips for Gathering OSINT on TikTok》:
https://liferaftlabs.com/blog/six-tips-for-gathering-osint-on-tiktok

《一文看懂Discord的前世今生!》:
https://www.easemob.com/news/9448

《V2EX到底是什么网站?》:
https://www.zhihu.com/question/323359961

《Pushshift Reddit API Documentation》:
https://github.com/pushshift/api

《Pinterest是啥,该怎么玩》:
https://www.xiaohongshu.com/explore/66e6a9f0000000001201106e?xsec_token=AB_8pFrmUHjCWFrI7RJoIQGXRS2S0PXDhZYosWPQO5x8Y=




不可吃尽,不可穿尽,不可说尽;又要洞得,又要做得,又要耐得。

——《格言联璧》(清)金缨