Интернет-разведка. Руководство к действию
Добавить в закладки К обложке
- Введение - Страница 1
- Интернет как уникальный инструмент маркетинга - Страница 4
- Интернет как инструмент PR - Страница 5
- Принципы организации и поиска информации в Интернете - Страница 6
- На чем основан поиск - Страница 7
- Как поиск реализован - Страница 8
- История развития поисковых машин - Страница 9
- Из чего состоит сайт - Страница 12
- Описание языков запросов различных поисковых машин - Страница 14
- Поиск в Гугле (Google) - Страница 21
- Поиск в Рамблере - Страница 29
- Визуальный поисковик Quintura Search - Страница 34
- Невидимый Интернет - Страница 35
- Причины существования невидимого Интернета - Страница 36
- Ограничения возможностей поисковых машин - Страница 37
- Типы контента в невидимом Интернете - Страница 38
- Примеры поведения поисковой машины при посещении страницы в Интернете - Страница 39
- Четыре типа невидимости в Интернете - Страница 41
- Особенности построения адресов некоторых страниц Интернета - Страница 42
- Преимущества невидимого Интернета - Страница 46
- Когда использовать невидимый Интернет - Страница 47
- Плюсы и минусы директорий как способа поиска информации в Интернете - Страница 48
- Основные категории невидимого Интернета - Страница 50
- Чего вообще обычно не бывает в Интернете - Страница 53
- Оценка достоверности и качества онлайновой информации - Страница 54
- Онлайновые службы, предоставляемые поисковыми системами - Страница 56
- Формы расширенного поиска в поисковых системах - Страница 61
- Метапоисковые машины Интернета с примерами поиска различных типов информации - Страница 62
- Примеры метапоисковых машин Интернета - Страница 63
- Программы для работы с информацией - Страница 64
- Мониторинг изменений на сайтах в Интернете - Страница 68
- Сторожевой робот WebSite-Watcher - Страница 69
- Программа Copernic Tracker - Страница 71
- Программа Check & Get - Страница 72
- Онлайновый сервис Infominder - Страница 74
- Онлайновый сервис ChangeNotes - Страница 75
- Архив сайтов Internet Archive Wayback Machine - Страница 76
- Мониторинг появления новых сообщений на сайте - Страница 77
- Исследование сайта конкурента с точки зрения получения коммерческой информации – на примере конкретных сайтов - Страница 78
- На что обращать внимание при анализе сайта, помимо текстовой информации и изображений - Страница 79
- Проверка сайта с помощью сервисов Fagan Finder - Страница 80
- Раздел «Подробности о трафике» (General > Alexa > Traffic Details) - Страница 81
- Кому принадлежит доменное имя (вкладки General > Global Whois) - Страница 82
- Просмотр ссылок на сайт - Страница 83
- Просмотр архива сайтов (Cache > Internet Archive) - Страница 84
- Запрос страницы сайта, сохраненной в кэше различных поисковых систем - Страница 85
- Поиск по блогам - Страница 86
- Перевод веб-страниц с иностранного языка (вкладка Translate) - Страница 87
- Просмотр изменений на странице (вкладки Track > Watch ThatPage) - Страница 89
- Переход в блоги, онлайновые хранилища закладок и архивы страниц (вкладки Post > Livejournal) - Страница 90
- Инструменты оптимизации сайта (переход через вкладку Develop) - Страница 91
- Просмотр служебной информации о сайте с помощью ресурса NETCRAFT[14] - Страница 92
- Просмотр содержимого файла robots.txt - Страница 93
- Визуальный осмотр офиса изучаемого предприятия на спутниковой фотографии с использованием Google Map - Страница 94
- Грамматические ошибки в тексте, размещенном на сайте - Страница 95
- Изучение контента сайта - Страница 97
- Информация о продукте предприятия - Страница 98
- PR-материалы - Страница 99
- Указатели по персоналу, номера телефонов и адреса электронной почты - Страница 100
- Миссия компании - Страница 101
- Ищет ли компания инвесторов и если да, то под какие проекты - Страница 102
- Какова маркетинговая стратегия предприятия - Страница 103
- Годовой отчет компании - Страница 106
- Перечень регионов (а иногда и стран), в которых работает компания - Страница 107
- История развития фирмы - Страница 108
- Корпоративные журналы и газеты - Страница 111
- Как организована обратная связь с клиентами - Страница 112
- Высказывания руководителей и лучших клиентов - Страница 114
- Награды и победы в конкурсах - Страница 115
- Ссылки на статьи о компании - Страница 116
- Перечень адресов филиалов или заводов - Страница 117
- Исследования и разработки - Страница 118
- Аффилированные компании и аффилированные лица - Страница 119
- Зарегистрированные товарные знаки и торговые марки, а также патенты - Страница 120
- Цены - Страница 121
- Вакансии - Страница 122
- Внешние ссылки на сайт из Интернета - Страница 123
- Составление запросов, связанных с названием компании, в поисковые машины - Страница 126
- Запрос по названию компании в контексте продукции, которую она выпускает или продает, а также в контексте позитива в отношении к этой компании - Страница 134
- Запрос по названию компании в контексте «штраф», «суд», «скандал» - Страница 135
- Запрос по названию компании в контексте «зарплата», «плохой», «кидают» - Страница 136
- Просмотр счетчика посещений сайта - Страница 137
- На что обращать внимание при изучении сотрудников конкурента - Страница 139
- Как увидеть появление в Интернете новой информации о своем предприятии - Страница 141
- Как обнаружить присутствие в Интернете информации о своих сотрудниках и о сотрудниках конкурента - Страница 142
- Как использовать информацию из Интернета для поддержки маркетинговых исследований, повышения клиентоориентированности компании и контрпропаганды - Страница 143
- Сбор информации о том, что конкурент утаивает о своем продукте - Страница 144
- Автоматизированные системы анализа сообщений в Интернете, а также оценки негатива/позитива в публикациях - Страница 145
- Информационно-аналитическая система «Семантический архив» - Страница 146
- «Галактика Zoom» - Страница 147
- Информационно-мониторинговая система «Web-Observer» - Страница 148
- Программный комплекс «Intellectum.BIS» - Страница 149
- RCO Fact Extractor - Страница 150
- ИАС «Астарта» - Страница 151
- Информационно-программный комплекс «Тренд» - Страница 152
- Программа GetNews - Страница 153
- Как конкурентная разведка может закрыть «разрыв» между отделом продаж и отделом маркетинга - Страница 154
- Платные ресурсы Интернета против бесплатных - Страница 155
- Как искать в Интернете информацию о конкретных людях - Страница 157
- Как искать информацию о компаниях - Страница 159
- Как искать информацию о продуктах конкурента - Страница 162
- Как найти нужный закон или постановление - Страница 163
- Как посетить сайт конкурента анонимно и зачем нужна такая анонимность - Страница 164
- Как назначаются ip-адреса? - Страница 165
- Как «прикрыть» свой ip-адрес? - Страница 166
- Как в точности сохранить информацию, найденную на сайтах в Интернете - Страница 169
- Фальшивые «зеркала» - Страница 171
- Создание документов PDF из Microsoft Office и наоборот - Страница 172
- Как восстановить поврежденный файл Office - Страница 173
- Как продвинуть свое предприятие в Интернете - Страница 174
- Как защитить компьютер от взлома техническими средствами - Страница 175
- Как воспрепятствовать незаметному подключению к своему компьютеру посторонних - Страница 176
- Как бороться с вирусами и другими вредоносными программами - Страница 178
- Кто такие хакеры и социальные инженеры и как от них уберечься - Страница 180
- Как распознать, что письмо по электронной почте фактически пришло не с того адреса, который указан в заголовке письма - Страница 183
- Как восстановить стертую с жесткого диска информацию и как удалить информацию без возможности восстановления - Страница 186
- Как спрятать информацию на своем компьютере от посторонних глаз - Страница 187
- Заключение - Страница 188
Ограничения возможностей поисковых машин
1. Физические ограничения скорости. Информационные системы имеют физические ограничения по скорости поиска новых страниц. Скажем так, скорость, с которой сегодня паук пытается найти новые страницы, оказывается ниже, чем скорость появления новых страниц. Ежесекундно идет негласное соревнование:
в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.
2. Поиск информации – мероприятие довольно дорогостоящее. Содержание сер веров, обеспечение подключений пользователей, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – все это требует немалых затрат.
Понимая, что проиндексировать все документы в Сети не реально, а расходы надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, лимитируют глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые ресурсы, на которые никто никогда не ходит, либо регламентируют частоту их повторных посещений пауком, в результате чего часть страниц устаревает.
В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.
Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.
3. Принцип попадания страниц в индекс при помощи пауков.
Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.
Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.
Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.
4. Необычные слова на странице, интересующей пользователя.
Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.
5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.
Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.
Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler (http://lawcrawler.lp.findlaw.com/) или Politicalinformation.com (http://www.politicalinformation.com).
6. Ориентация поисковых машин на поиск текстов в разных вариантах.
Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188