Интернет-разведка. Руководство к действию
Добавить в закладки К обложке
- Введение - Страница 1
- Интернет как уникальный инструмент маркетинга - Страница 4
- Интернет как инструмент PR - Страница 5
- Принципы организации и поиска информации в Интернете - Страница 6
- На чем основан поиск - Страница 7
- Как поиск реализован - Страница 8
- История развития поисковых машин - Страница 9
- Из чего состоит сайт - Страница 12
- Описание языков запросов различных поисковых машин - Страница 14
- Поиск в Гугле (Google) - Страница 21
- Поиск в Рамблере - Страница 29
- Визуальный поисковик Quintura Search - Страница 34
- Невидимый Интернет - Страница 35
- Причины существования невидимого Интернета - Страница 36
- Ограничения возможностей поисковых машин - Страница 37
- Типы контента в невидимом Интернете - Страница 38
- Примеры поведения поисковой машины при посещении страницы в Интернете - Страница 39
- Четыре типа невидимости в Интернете - Страница 41
- Особенности построения адресов некоторых страниц Интернета - Страница 42
- Преимущества невидимого Интернета - Страница 46
- Когда использовать невидимый Интернет - Страница 47
- Плюсы и минусы директорий как способа поиска информации в Интернете - Страница 48
- Основные категории невидимого Интернета - Страница 50
- Чего вообще обычно не бывает в Интернете - Страница 53
- Оценка достоверности и качества онлайновой информации - Страница 54
- Онлайновые службы, предоставляемые поисковыми системами - Страница 56
- Формы расширенного поиска в поисковых системах - Страница 61
- Метапоисковые машины Интернета с примерами поиска различных типов информации - Страница 62
- Примеры метапоисковых машин Интернета - Страница 63
- Программы для работы с информацией - Страница 64
- Мониторинг изменений на сайтах в Интернете - Страница 68
- Сторожевой робот WebSite-Watcher - Страница 69
- Программа Copernic Tracker - Страница 71
- Программа Check & Get - Страница 72
- Онлайновый сервис Infominder - Страница 74
- Онлайновый сервис ChangeNotes - Страница 75
- Архив сайтов Internet Archive Wayback Machine - Страница 76
- Мониторинг появления новых сообщений на сайте - Страница 77
- Исследование сайта конкурента с точки зрения получения коммерческой информации – на примере конкретных сайтов - Страница 78
- На что обращать внимание при анализе сайта, помимо текстовой информации и изображений - Страница 79
- Проверка сайта с помощью сервисов Fagan Finder - Страница 80
- Раздел «Подробности о трафике» (General > Alexa > Traffic Details) - Страница 81
- Кому принадлежит доменное имя (вкладки General > Global Whois) - Страница 82
- Просмотр ссылок на сайт - Страница 83
- Просмотр архива сайтов (Cache > Internet Archive) - Страница 84
- Запрос страницы сайта, сохраненной в кэше различных поисковых систем - Страница 85
- Поиск по блогам - Страница 86
- Перевод веб-страниц с иностранного языка (вкладка Translate) - Страница 87
- Просмотр изменений на странице (вкладки Track > Watch ThatPage) - Страница 89
- Переход в блоги, онлайновые хранилища закладок и архивы страниц (вкладки Post > Livejournal) - Страница 90
- Инструменты оптимизации сайта (переход через вкладку Develop) - Страница 91
- Просмотр служебной информации о сайте с помощью ресурса NETCRAFT[14] - Страница 92
- Просмотр содержимого файла robots.txt - Страница 93
- Визуальный осмотр офиса изучаемого предприятия на спутниковой фотографии с использованием Google Map - Страница 94
- Грамматические ошибки в тексте, размещенном на сайте - Страница 95
- Изучение контента сайта - Страница 97
- Информация о продукте предприятия - Страница 98
- PR-материалы - Страница 99
- Указатели по персоналу, номера телефонов и адреса электронной почты - Страница 100
- Миссия компании - Страница 101
- Ищет ли компания инвесторов и если да, то под какие проекты - Страница 102
- Какова маркетинговая стратегия предприятия - Страница 103
- Годовой отчет компании - Страница 106
- Перечень регионов (а иногда и стран), в которых работает компания - Страница 107
- История развития фирмы - Страница 108
- Корпоративные журналы и газеты - Страница 111
- Как организована обратная связь с клиентами - Страница 112
- Высказывания руководителей и лучших клиентов - Страница 114
- Награды и победы в конкурсах - Страница 115
- Ссылки на статьи о компании - Страница 116
- Перечень адресов филиалов или заводов - Страница 117
- Исследования и разработки - Страница 118
- Аффилированные компании и аффилированные лица - Страница 119
- Зарегистрированные товарные знаки и торговые марки, а также патенты - Страница 120
- Цены - Страница 121
- Вакансии - Страница 122
- Внешние ссылки на сайт из Интернета - Страница 123
- Составление запросов, связанных с названием компании, в поисковые машины - Страница 126
- Запрос по названию компании в контексте продукции, которую она выпускает или продает, а также в контексте позитива в отношении к этой компании - Страница 134
- Запрос по названию компании в контексте «штраф», «суд», «скандал» - Страница 135
- Запрос по названию компании в контексте «зарплата», «плохой», «кидают» - Страница 136
- Просмотр счетчика посещений сайта - Страница 137
- На что обращать внимание при изучении сотрудников конкурента - Страница 139
- Как увидеть появление в Интернете новой информации о своем предприятии - Страница 141
- Как обнаружить присутствие в Интернете информации о своих сотрудниках и о сотрудниках конкурента - Страница 142
- Как использовать информацию из Интернета для поддержки маркетинговых исследований, повышения клиентоориентированности компании и контрпропаганды - Страница 143
- Сбор информации о том, что конкурент утаивает о своем продукте - Страница 144
- Автоматизированные системы анализа сообщений в Интернете, а также оценки негатива/позитива в публикациях - Страница 145
- Информационно-аналитическая система «Семантический архив» - Страница 146
- «Галактика Zoom» - Страница 147
- Информационно-мониторинговая система «Web-Observer» - Страница 148
- Программный комплекс «Intellectum.BIS» - Страница 149
- RCO Fact Extractor - Страница 150
- ИАС «Астарта» - Страница 151
- Информационно-программный комплекс «Тренд» - Страница 152
- Программа GetNews - Страница 153
- Как конкурентная разведка может закрыть «разрыв» между отделом продаж и отделом маркетинга - Страница 154
- Платные ресурсы Интернета против бесплатных - Страница 155
- Как искать в Интернете информацию о конкретных людях - Страница 157
- Как искать информацию о компаниях - Страница 159
- Как искать информацию о продуктах конкурента - Страница 162
- Как найти нужный закон или постановление - Страница 163
- Как посетить сайт конкурента анонимно и зачем нужна такая анонимность - Страница 164
- Как назначаются ip-адреса? - Страница 165
- Как «прикрыть» свой ip-адрес? - Страница 166
- Как в точности сохранить информацию, найденную на сайтах в Интернете - Страница 169
- Фальшивые «зеркала» - Страница 171
- Создание документов PDF из Microsoft Office и наоборот - Страница 172
- Как восстановить поврежденный файл Office - Страница 173
- Как продвинуть свое предприятие в Интернете - Страница 174
- Как защитить компьютер от взлома техническими средствами - Страница 175
- Как воспрепятствовать незаметному подключению к своему компьютеру посторонних - Страница 176
- Как бороться с вирусами и другими вредоносными программами - Страница 178
- Кто такие хакеры и социальные инженеры и как от них уберечься - Страница 180
- Как распознать, что письмо по электронной почте фактически пришло не с того адреса, который указан в заголовке письма - Страница 183
- Как восстановить стертую с жесткого диска информацию и как удалить информацию без возможности восстановления - Страница 186
- Как спрятать информацию на своем компьютере от посторонних глаз - Страница 187
- Заключение - Страница 188
Примеры поведения поисковой машины при посещении страницы в Интернете
Придя на страницу, паук первым делом определяет, есть ли на сайте что-либо, что его владелец запрещает индексировать.
Подобный запрет может быть реализован двумя способами. Первый заключается в том, что на сайте создается специальный файл robots.txt либо используется особый тег – так называемый, метатег <noindex>. В этот файл или под метатег «прячут» содержимое страницы, которое, по мнению владельца контента, не должно индексироваться поисковыми машинами.
Единственное отличие между ними состоит в том, что <noindex> работает на той странице, на которой он расположен, тогда как robots.txt может быть использован с целью предотвращения индексации любых отдельных страниц, групп файлов или даже всего веб-сайта.
По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.
На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.
Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.
После того, как паук попал на страницу, которая не защищена паролем и не внесена в список запрещенных, события развиваются по-разному, в зависимости от того, что на этой странице находится. Рассмотрим возможные их варианты, а также попытаемся понять, к видимому или к невидимому Интернету эти варианты относятся (по Крису Шерману и Гэри Прайсу).
Вариант 1. Паук обнаруживает страницу, написанную в HTML и содержащую графические элементы.
В таком случае паук может проиндексировать лишь название графического файла, и тогда такой документ будет найден при поиске картинок по ключевому слову, совпадающему с тем, которое есть в названии. Если имя файла не имеет ничего общего с его наполнением, он не сможет быть найден поисковой машиной, даже если будет содержать фотографию с изображением ключевого слова.
Вариант 2. Паук внутри сайта столкнулся со страницей, которая написана на HTML, но содержит поля, требующие заполнения пользователем – например, ввода логина и пароля.
В этом случае есть техническая возможность индексирования содержимого, но только того, к которому имеется доступ. Спрятанная под пароль часть страницы не может быть просмотрена и, как следствие, не может быть проиндексирована спайдером.
Здесь наиболее часто встречаются два варианта. Первый: допустим, на сайте лежат готовые к просмотру страницы, на которые существуют ссылки в Интернете (например, фраза: «Я недавно интересную статью прочитал, она находится здесь:» – и далее следует прямой адрес статьи). В этом случае страница с формой, требующей заполнения, создана лишь для того, чтобы пользователь мог выбрать нужный ресурс из имеющихся. Текст на странице с формой будет виден пауку и проиндексируется, а сами страницы, на которые ведет форма, индексируются «в обход» процедуры ее заполнения, в другое время и, возможно, другим пауком, за счет ссылок на внутренние страницы сайта из других источников. В таком случае и страница с формой, и внутренние страницы будут относиться к видимому Интернету.
Во втором варианте форма собирает информацию, на основании которой впоследствии создается необходимая пользователю страница. То есть, никакой внутренней страницы просто не существует до тех пор, пока форма не будет заполнена. Паук этого сделать не может. Данные, которые находятся внутри такого сайта, не могут быть получены никаким иным путем, кроме как посредством заполнения формы, а потому всегда относятся к невидимому Интернету.
Вариант 3. Паук приходит на сайт, содержащий динамические данные, меняющиеся в реальном масштабе времени.
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188