на главную
© rocich.ru

Информационный бардак, или Нетрадиционный взгляд на сущность Сети


Автор: Топорков К.
/ Планета Internet. 2003, №9 (71) – с.60-63
Скачать:

В древней притче, когда мудрец объяснял своим ученикам порог своих и их знаний, он рисовал на песке круг – все песчинки вне круга символизировали неизведанное. С тех пор багаж знаний людей о мире увеличился на много порядков, но и сейчас, конечно, человеку не дано всего знать – абсолютное знание (т.е. владение всей информацией) может быть доступно, как известно, только Богу. Отдельный же человек вообще на самом деле может освоить только очень небольшую часть информации об окружающем его мире.

Причем объем этой доступной информации для каждого человека (т.е. постепенно накапливаемых знаний) можно даже посчитать! Общепринято считать, что в обычных условиях человек может воспринять в минуту не более 600 слов (или если считать в знаках – то не более 5-6 тыс. символов). При продолжительности жизни в примерно 70 лет (с учетом того, что каждый из нас обычно треть жизни еще и спит!) можно получить количество знаков, приблизительно превышающее число пи в 100 млрд. раз ! Это безумная на первый взгляд цифра. Если перевести ее на компьютерный язык, то это примерно 140 Гигабайт (книга размером в 50 млн страниц) – это и есть предел информационных познаний человека при условии, что он получает эти 6 тыс. знаков постоянно только с перерывом на сон. Что равносильно тому, чтобы по 16-17 часов в сутки только и делать, что слушать заумные лекции скороговоркой и еще при этом все запоминать!

На самом деле в лучшем случае человек может получить объем информации в десятки, а то и сотни раз меньший, а уж запомнить из этого способен в лучшем случае еще меньшую часть. Но даже запредельные 140 Гб меньше 2,5 Тб проиндексированной информации в российском Интернете по данным Яндекса (на июнь 2003 г.), не говоря уж о том объеме информации, который еще не охвачен не то что Яндексом, а вообще еще не попал не только в российский, но и во весь мировой Интернет.

Прекрасно понимая, что невозможно «объять необъятное», каждый из нас в итоге стремится запомнить только наиболее важные и значимые моменты из получаемой информации всеми органами чувств, отбрасывая все несущественное. Аналогично мы ведем себя и в Интернете, когда ищем ту или иную информацию, постепенно сужая область поиска и уточняя поисковый запрос (в случае с поисковыми системами) либо выбирая подходящую рубрику (в каталоге сайтов).

По большому счету само появление Интернета можно рассматривать как логичный результат попыток человечества структурировать постоянно возрастающий объем информации, наработанной всеми предыдущими и нынешними поколениями. В древности одна отдельная книга (которых было очень и очень мало!) рассматривалась как огромный источник знаний. По мере расширения книгопечатания (точнее было бы сказать сначала «книгописания») стало логично создание крупных библиотек вроде знаменитой Александрийской библиотеки, где концентрировались все книги того времени. Фактически жаждущему человеку было достаточно прийти в такую библиотеку, чтобы получить доступ чуть ли не ко всем знаниям цивилизации. В современном мире в каждом городе существует по несколько библиотек, логичнее говорить уже о библиотечных сетях в масштабах целых стран. С появлением же иных способов хранения информации (визуальной и звуковой) получили развитие видеотеки и медиатеки (правда, не в России). В настоящее время в крупнейших библиотеках мира можно провести всю жизнь, но так и не успеть даже взять каждую книгу в руки.

Как известно, для структурирования информации о книгах в библиотеках принята каталожная система – тематические и алфавитные каталоги. Для использования алфавитного каталога, нужно уже знать какие именно книги искать, а тематические каталоги все равно не гарантируют того, что не будет пропущена книга, содержащая важную информацию по нужной теме но в целом относящаяся к иной тематике. Не говоря уж о том, что развитая система тематической классификации напоминает часто своего рода лабиринт, в котором легко запутаться (тот, кто когда-либо держал в руках библиографический классификатор прекрасно знает, что обычно есть достаточно большая свобода выбора среди смежных областей знаний при проставлении УДК – а в итоге книги окажутся на разных полках). Потом компьютеризация библиотечных каталогов позволила ввести еще параметр поиска информации – по ключевым словам, которые позволили расширить сферу применения тематической классификации, но все равно не гарантировали успеха поиска, т.к. ключевые слова все-таки не могут в полной мере отразить содержание каждой отдельной страницы, а то и просто нужного абзаца или строки книги.

В Интернете же благодаря поисковым системам можно вести поиск информации буквально по каждой странице, каждому знаку в тексте. Появление поисковых систем по большому счету это не что иное как попытка систематизации начавшего резко возрастать количества информации в Сети после внедрения в начале 1990-х гг. гипертекстового протокола. Но правды ради нужно сказать, что поначалу систематизация и структуризация информации в Интернете пошла по апробированному ранее библиотечному пути – т.е. путем создания тематических интернет-каталогов, в которых систематизировались по тематике не книги, а сайты. Каталоги ссылок, очень популярные еще несколько лет назад именно благодаря своим тематическим классификаторам и возможности поиска по ключевым словам, в настоящее время уже просто не справляются с огромным количеством сайтов, нарождающихся в Интернете каждую минуту. Фактически в настоящее время каталоги могут быт полезными преимущественно только в двух случаях: при поиске крупных специализированных сайтов, где больше вероятность найти информацию определенного рода, либо при поиске подборок ссылок на сайты очень узкой тематической группы (например, ссылки на сайты администраций или ведомств – их, как показывает практика, все-таки проще найти именно через каталоги, а не через поисковые системы).

Во всех остальных случаях (особенно когда нужно найти вообще только отдельные понятия, слова, фразы) поисковые системы типа Яндекса или Рамблера пока незаменимы. Они и появились именно как результат того, что каталоги как и обычные библиотеки буквально не могли справиться со структуризацией возрастаюшего объема информации в Сети. Но и поисковые системы ведь тоже не оказались панацеей при поиске нужных сведений. Несмотря на постоянное совершенствование алгоритмов ранжирования результатов поиска, их релевантности – общая релевантность (или попросту КПД) по мере роста Сети также в целом не увеличивается. Количество «мусора» в результатах поиска во всех поисковых системах весьма значительно – иногда можно часами искать нужную информацию, а найти ее только совершенно случайно спустя несколько дней… Да, поисковые системы позволяют найти все сайты, где встречается та или иная фраза, они даже проранжируют по наличию нужных слов и их количеству в заголовках, ключевых словах, учтут значимость самого сайта по индексам цитирования и т.д. Но не более того – они все-таки не могут в полной мере исключить случайные совпадения или развести использование слов-омонимов в разных значениях, а алгоритмы индексов цитирования вообще постепенно заводят поисковые системы в тупик – предположение о том, что более старый и более известный (равно крупный) сайт содержит более релевантную информацию, в очень многих случаях просто неверно. Налицо серьезный кризис поисковых систем, в полной мере ощущается необходимость изобретения иных способов структурирования и поиска информации в Сети. И такие разработки ведутся (и даже в России, в Научном парке МГУ – research.metric.ru), правда, пока до их повсеместного внедрения очень далеко.

Существует расхожее мнение, что информационный бардак заложен изначально в саму структуру Интернета вследствие отсутствия в нем четкой иерархии. Возможно, что частично это именно так, но внедрение более структурированных языков (содержащих больше параметров для классификации отдельных страниц) типа XML или разработка более иерархически жестких сетей вряд ли способно решить полностью проблему структурирования увеличивающегося объема информации в Сети. Библиотечные каталоги, а также потом каталоги ссылок показали, что вертикальная (тематическая), горизонтальная (алфавитная), перекрестная (по ключевым словам) и выборочная (поиск по отдельным фразам в тексте) структуризация, реализованные вместе в конечном итоге в виде кластеров в тех же поисковых системах, оказались недостаточными.

Вообще Интернет как и обычный мир часто сравнивают с самоорганизующейся системой. Пока исследователи ищут новые способы как облегчить поиск информации, в Интернете получают наибольшее развитие узкоспециализированные тематические порталы, которые стремятся собрать на своих страницах наиболее полный объем информации по определенной тематике. Такие порталы могут рассматриваться как временное промежуточное решение проблемы структурирования «бардака», т.к. все равно они уже тоже не способны сконцентрировать всю информацию в рамках одной группы (за исключением очень специфичных и крайне узких областей знаний).

Ситуация с количеством информации в Сети в полной мере отражает давно оформившуюся тенденцию, что часто важно даже не владеть какой-либо информацией, а просто знать как ее найти. Это, конечно, достаточно утрированное утверждение, но тем не менее оно отражает и то, что даже эксклюзивное владение информацией отнюдь не гарантирует, что такая информация будет наиболее эффективно использована именно ее владельцем (автором). В этом отношении Интернет фактически меняет представление людей об информации, особенно в том, что касается прав использования информации.

Например, очень часто на сайтах можно встретить фразу о том, что «копирование материалов с сайта в любом виде запрещено». Конечно, автор прав, пытаясь защитить свои же авторские права (но нужно и четко различать случаи плагиата и случаи использования информации с соблюдением прав автора – хотя бы за счет указания банальной ссылки на источник или оформленного по всем правилам цитирования; а то может получиться как с насмешившим в 2002 г. Весь Рунет постановлением Правительства РФ о том, что на сайты министерств и ведомств нельзя поставить даже простую ссылку, не спросив у них разрешения!). Но в тоже время такой автор, видимо, не понимает, что, сделав принадлежащую себе информацию общедоступной в Сети, он уже даже при всем своем желании не сможет в полной мере контролировать ее использование и, скорее всего, останется «собакой на сене», которое уже всеми используется. Как сказал, один мой знакомый – «если информацию «жалко», то лучше держать ее в конверте под подушкой». Как известно, слово не воробей, а в Интернете его быстро размножат те же поисковые системы, способствуя дальнейшему увеличению своей индексируемой базы, а заодно и увеличению проблем с ранжированием результатов поиска.