Информационный поиск с использованием зарубежных баз данных и архивов научно-технической информации

Подробнее
Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам. На начальном этапе развития интернета, число пользователей сети было невелико и количество информации относительно небольшим. В подавляющем большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом. Одной из первых попыток организации доступа к информационным ресурсам сети стало создание тематических каталогов сайтов. Первым, открывшимся в апреле 1994 г, стал Yahoo. Это еще не было поисковой системой, в современном понимании, т.к. возможность поиска информации ограничивалась ресурсами, зарегистрированными в каталоге Yahoo. Каталоги ссылок ранее использовались довольно широко, но в настоящее время практически утратили свою популярность. Объяснение этому очень простое – даже современные, содержащие огромное количество ресурсов каталоги, представляют информацию лишь о довольно незначительной части сети. Для сравнения - самый полный каталог сети интернет - DMOZ содержит информацию примерно о 12.000.000 ресурсов, в то время как база данных самой полной поисковой системы Google состоит более чем из 28.000.000.000 документов. Первой полноценной поисковой системой в 1994г. стал проект WebCrawler. Далее в 1995 году появились поисковые системы AltaVista и Lycos. В 1997 году в Стэнфордском университете, в рамках исследовательского проекта, была создана Google - самая популярная поисковая система на данный момент в мире. В 1997 году появилась поисковая система - Yandex, лидер в русскоязычной части Интернета. На данный момент основными поисковыми системами являются три международных – Google, Yahoo и MSN Search. Остальные, коих не мало, используют целиком или частично базы и (или) алгоритмы выше приведенных систем. В Рунете основной поисковой системой является Яндекс, далее по популярности идут Rambler, Google.ru, Mail.ru и Aport. Поисковая система - это сумма следующих компонентов: Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы. Spider (паук)- программа написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода. Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider. Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы. Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины. Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования.
Текстовая версия:

Министерство науки и высшего образования российской федерации

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ

ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

ВЫСШЕГО ОБРАЗОВАНИЯ

«БРАТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Кафедра строительного материаловедения и технологии

Реферат

Информационные технологии

в строительстве

Информационный поиск с использованием зарубежных баз данных и архивов научно-технической информации

Выполнил:

Магистрант гр. ФПСм-17 Уварова А.О.

Проверил:

К.т.н., доцент каф. СМиТ Лебедева Т.А.

Братск 2018

Введение

Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам.

На начальном этапе развития интернета, число пользователей сети было невелико и количество информации относительно небольшим. В подавляющем большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом.

Одной из первых попыток организации доступа к информационным ресурсам сети стало создание тематических каталогов сайтов. Первым, открывшимся в апреле 1994 г, стал Yahoo. Это еще не было поисковой системой, в современном понимании, т.к. возможность поиска информации ограничивалась ресурсами, зарегистрированными в каталоге Yahoo. Каталоги ссылок ранее использовались довольно широко, но в настоящее время практически утратили свою популярность. Объяснение этому очень простое – даже современные, содержащие огромное количество ресурсов каталоги, представляют информацию лишь о довольно незначительной части сети. Для сравнения - самый полный каталог сети интернет - DMOZ содержит информацию примерно о 12.000.000 ресурсов, в то время как база данных самой полной поисковой системы Google состоит более чем из 28.000.000.000 документов.

Первой полноценной поисковой системой в 1994г. стал проект WebCrawler. Далее в 1995 году появились поисковые системы AltaVista и Lycos. В 1997 году в Стэнфордском университете, в рамках исследовательского проекта, была создана Google - самая популярная поисковая система на данный момент в мире. В 1997 году появилась поисковая система - Yandex, лидер в русскоязычной части Интернета. На данный момент основными поисковыми системами являются три международных – Google, Yahoo и MSN Search. Остальные, коих не мало, используют целиком или частично базы и (или) алгоритмы выше приведенных систем. В Рунете основной поисковой системой является Яндекс, далее по популярности идут Rambler, Google.ru, Mail.ru и Aport.

Поисковая система - это сумма следующих компонентов:

Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.

Spider (паук)- программа написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.

Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.

Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.

Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования.

1 Характеристика заданного электронного ресурса

ScienceResearch.com - свободная, общедоступная поисковая система глубокого веб-поиска, которая использует передовую «объединенную технологию поиска», чтобы возвратить высококачественные результаты, представляя Ваш поисковый запрос - в режиме реального времени - к другим хорошо уважаемым поисковым системам, тогда сопоставляющим, занимая место и уронив дубликаты результатов.

2 Технология поиска

Используя современную объединенную технологию поиска от Deep Web Technologies, ScienceResearch.com ускоряет Ваше исследование, возвращая самые соответствующие результаты из-за 300 авторитетных коллекций науки и техники одной, легко судоходной странице. Каждый поиск сделан в режиме реального времени, ища коллекции, которые Вы выбираете, как будто Вы входили в критерий поиска на каждом отдельном веб-сайте сами. ScienceResearch.com удаляет двойные результаты, и затем взвешивает каждый результат для уместности согласно тому, как тесно это распознает Ваше слово поиска или фразу.

ScienceResearch.com основан на технологии глубокого веб-поиска следующего поколения

Сайт ScienceResearch.com представлен вам ребятами из Deep Web Technologies , лидера в области технологий глубокого поиска в Интернете. Эта технология основана на технологии федеративного поиска следующего поколения и позволяет одновременно выполнять поиск в нескольких коллекциях ценного контента.

3 Представленные научные направления

Интернет-портал ScienceResearch, поддерживаемый компанией Deep Web Technology (DWT) предоставляет возможность одновременного поиска в научных журналах крупнейших издательств, таких как Elsevier, Highwire, IEEE, Nature, Taylor & Francis и т.д., а также в открытых базах данных: Directory of Open Access Journals, Library of Congress Online Catalog и др.

Поиск по журналам по 12 отдельным предметным рубрикам:

4 Глубина архивов

Вероятные научные коллекции - Каждая коллекция ScienceResearch.com выбрана для ее выдающихся вкладов в мир науки.

Сильные параметры поиска - технология поддерживает самых сильных операторов поиска и параметры для каждой коллекции, и включает поддержку определенных фраз (т.е. в кавычках) и сложные булевы операторы.

Интуитивные навигационные инструменты - От актуального объединения в кластеры до вариантов вида, ScienceResearch.com предлагает Вам лучшее в навигационных инструментах, сохраняя навигацию простой.

Можно выбрать до трех категорий, которые Вы хотите искать на странице расширенного поиска или выбрать отдельные коллекции в каждой категории для более сосредоточенного поиска.

Особенности расширенного поиска - позволяет Вам сужать свой поиск, входя точно, что Вы ищете.

Загружаемые результаты - электронная почта или загрузка Ваши отобранные результаты читателю цитаты для легкой справки офлайн.

Пятизвездочная система рейтинга - ScienceResearch.com использует современный пятизвездочный алгоритм рейтинга, чтобы найти лучший результат для поиска, может ли коллекция оценить результаты.

ScienceResearch.com был создан Deep Web Technologies

Deep Web Technologies, создает таможенные, сложные объединенные решения для поиска для клиентов, которые требуют точные, точные результаты. Основанный промышленным лидером мысли Абэ Ледерменом, Deep Web Technologies создала мощный Акселератор Исследования Explorit, программное обеспечение, которое ищет, восстанавливает, совокупности и анализирует содержание из коллекций глубокой паутины - содержание, в других отношениях недоступное популярным поисковым системам. Обслуживая компании Fortune 500, Союз Сциенцеова, американское Министерство энергетики, Центр технической информации Министерства обороны, scitopia.org, WorldwideScience.org и разнообразие исследования и союзов библиотеки, Deep Web Technologies построила репутацию выбора «исследователя» для его современных, проворных информационных инструментов открытия.

5 Характеристика интерфейса

При входе на сайт попадаем на главную страницу (рис. 1).

Рисунок 1 – Главная страница поисковой системы

На главной странице мы можем увидеть окно поиска, в которое необходимо вбить свой поисковой запрос.

Также на сайте есть вкладка About («О»), где можно прочесть информацию о данной поисковой системе, кем и когда она была создана (рис. 2).

Рисунок 2 – Вкладка About

Вкладка «FAQ» - часто задаваемые вопросы (рис.3)

Рисунок 3 - Вкладка «FAQ»

Вкладка «Contact Us» - связаться с нами, где есть контактные данные (рис.4).

Рисунок 4 - Вкладка «Contact Us»

6 Библиографический список публикаций

Принцип работы поисковых систем очень сложный, но его можно объяснить простыми словами.

Поисковый робот (паук) обходит страницы сайта, скачивает их содержимое и извлекает ссылки. Далее начинает свою работу индексатор – это программа, которая анализирует все скачанные пауками материалы, опираясь на собственные алгоритмы работы.

Таким образом, создается база данных поисковой системы, в которой хранятся все обработанные алгоритмом документы.

Работа с поисковым запросом проводится следующим образом:

В поисковой системе ScienceResearch поисковой запрос можно вводить как на русском, так и на английском языках.

В поисковое окно вводим запрос «градостроительство» и он выдает нам 12 результатов по данной теме (рис.5).

Рисунок 5 – Результат поиска на тему «градостроительство»

При запросе на английском языке той же темы, результатов становится значительно больше – 164 (рис. 6).

Рисунок 6 – Результат поиска по теме «town planning»

Слева высвечивается список (рис. 7), в котором можно выбрать категорию, которая вам необходима (научные публикации, энциклопедии, статьи, учебные пособия и т.п).

Рисунок 7 – Список категорий поиска

Заключение

Поисковые системы обычно состоят из трех компонент:

Во время путешествия по Интернету, вам обязательно понадобиться помощь поисковой машины. Очень часто приходится искать информацию в сети не зная даже приблизительно адрес страницы, на которой она может располагаться. В таких случаях на помощь приходит поисковая машина.

Поисковые машины - это роботизированные системы. Специальная программа-робот, которую называют паук или ползун, постоянно обходит Сеть в поисках новой информации, которую она вносит в базу данных. База данных содержит URL-адреса и проиндексированную информацию, связанную с этими адресами.

При поиске в Интернете важны две составляющие – полнота (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно это все называют одним словом – релевантность, то есть соответствие ответа вопросу. Важными показателями являются охват и глубина поисковой машины (насколько велика база данных по документам), скоростью обхода и актуальностью ссылок (скорость обновления информации в этой базе данных), качеством поиска (чем ближе к началу списка оказывается нужный вам документ, тем лучше работает релевантность).

Кроме релевантности, существуют важные пользовательские характеристики: скорость поиска (медленная поисковая машина неэффективна в работе), поисковые возможности (как именно происходит индексация: только по ключевым словам web-страницы или по всему тексту, с учетом морфологии или без него, с поиском по тэгам HTML - заголовкам, ссылкам, подписям к изображениям и др.), а также дополнительные удобства (удобный интерфейс, наличие специальных функций, например, поиск по датам и серверам). Здесь все зависит от того, что вы предпочитаете.

Список используемой литературы