Страниц: [1] 2 3
  Печать  
Автор Тема: Google  (Прочитано 11220 раз)
0 Пользователей и 1 Гость смотрят эту тему.
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
: Март 22, 2010, 12:28:05 �

//текст доступен после регистрации//


18 200 000 результатов за 0,14 сек.
Объясните, как это возможно!
Последнее редактирование: Март 22, 2010, 12:37:50 от lkob Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #1 : Март 22, 2010, 13:20:37 �

Поисковая система Google

Поисковая система Google представляет собой мощный механизм. Без таких поисковых систем найти информацию в глобальной сети Интернет было бы практически невозможно. Подобно всем поисковым серверам Google использует специальный поисковый алгоритм для получения результатов поиска. Некоторые основные характеристики алгоритма компания не скрывает, особенность же алгоритма является строгой тайной компании. Именно благодаря этому Google сохраняет свое лидерство в сети Интернет и не позволяет никому взломать ее систему.

Как и большинство поисковых серверов, Google использует программный поисковый механизм, называемый «паук» или «ползунок», для автоматического выбора всех документов, на которые есть ссылки в первом выбранном документе. Ключевые слова вписываются в специальную строку ввода, после чего начинается поиск. Особенность Google заключается в том, как и по какому критерию эта поисковая система классифицирует результаты поиска на своей странице. Используемый алгоритм PageRank сортирует все веб страницы по критерию смыслового соответствия.

Алгоритм PageRank зависит от нескольких факторов:

•   От частоты повторения и местоположения ключевых слов на веб странице – если искомое слово или фраза только один раз встречается на сайте, то страница получает низкий бал.
•   От времени существования страницы – каждый день в Интернете появляются новые сайты, но не многие задерживаются надолго. Поэтому преимущество отдается уже зарекомендовавшим себя сайтам, существующим долгое время.
•   От количества веб станиц, связанных с «главной страницей» - Google «смотрит» на количество веб страниц, относящихся к определенному сайту и определяет ее рейтинг среди всех остальных.
Самым главным фактором для отбора информации из трех выше перечисленных считается третий. Чтобы понять его принцип, давайте в качестве примера рассмотрим сайт "Planet Earth."

Чем больше веб страниц примыкает к сайту Discovery's Planet Earth, тем больше его «рейтинг», т.е. его номер в списке найденных страниц. Получив самый высший ранг, эта страница займет первое место среди результатов поиска.

Систему Google практически невозможно обхитрить, потому что все ссылки на веб страницы она воспринимает как «голоса». Самый лучший способ обеспечить своему сайту первые места, это напичкать его самой разнообразной информацией, которая будет привлекать больше людей. Чем больше ссылок на вашей веб странице, тем выше будет оценка поискового агента PageRank.

Ссылки

Компании Google постоянно приходится бороться с «жуликами», которые пытаются обмануть ее систему и повысить уровень своего сайта. Но для них Google припасла несколько трюков. Например, если на главной странице сайта размещается слишком много ссылок на другие веб-страницы, то ее рейтинг сильно падает. Даже веб-страница с высоким рейтингом PageRank и множеством исходящих ссылок на другие источники рискует потерять свое место в результатах поиска, отдав его менее ранжированной странице с меньшим количеством исходящих ссылок.

А вот тут интересная статья. //текст доступен после регистрации//
Последнее редактирование: Март 22, 2010, 13:40:26 от lkob Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #2 : Март 22, 2010, 22:57:22 �

подумать действительно есть над чем, просто полагаю времени потребует поболе, а его пока много нет, так что я думаю все будут писАть, если будет что сообщить. мне пока увы - нечего сообщить по существу Huh?

Суть-то какова? Постараюсь объяснить. Когда запускаешь поиск на своем ПК, то PC начинат сравнивать текст с имеющимися файлами. Попробуйте найти 111 на жестком диске С: у себя на компьютере. Это займет где-то 10-50 минут (зависит от объема ХДД, процессора и т.д.) Но если в гугле написать 111, то за 0,50 сек найдется 493 000 000 результатов. Учитывая, что в интернете информации не 50 Гигабайт, как диск С:, а ТЕРАБАЙТЫ (просто не знаю, что больше терабайта)... Появляется вопрос: КАКИМ ОБРАЗОМ?  Стена
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Маша
Гений-Говорун
*
Offline Offline

Сообщений: 1450

СПАСИБО
-вы поблагодарили: 239
-вас поблагодарили: 593


Я просто умница

617631966
Просмотр профиля Email
Ответ #3 : Март 22, 2010, 22:59:08 �

Я вообще не очень понимаю о чем вы  Tomato но у меня на запрос Википедия выдает
 
Цитировать
Результати 1 – 10 з приблизно 4 370 000 на запит Википедия. (0,25 сек)
Записан

Мама твердила мне, что самое важное в жизни — быть счастливой. Когда я пошла в школу, меня спросили, кем я хочу стать. Я написала "счастливой". Мне сказали " "ты не поняла задание", я им сказала — "вы не поняли жизнь".(с)
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #4 : Март 22, 2010, 23:04:39 �

Маша, давайте подумаем о том, как работает поисковик в интернете. По-теории он должен создать свою базу данных, в которой будет отмечено, что на таком-то сайте такая и такая информация. И если человек введет такое-то слово, то ему надо под его запрос вывести такие-то ссылки... Но вот вопрос в чем! Как можно за 0,25 сек проверить такую базу данных, в которой только 4 370 000 записей соответствовало нужному запросу? Как это сделать?
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #5 : Март 22, 2010, 23:20:42 �

Более того. Еще надо учесть, что в запросе можно написать и на английском + на русском + на испанском. И поисковик это тоже "скушает"...

Я думаю так, что он берет первое слово и раскладывает по буквам. Т.е. в слове "Википедия" первая буква "В", а значит можно не искать слова, которые начинаются с других букв. Это сокращает поиск до 1/33. Дальше вторая буква и т.д. Но это было бы слишком просто. И не так быстро.
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #6 : Март 22, 2010, 23:26:47 �

Но это для начала. Дальше можно придумыть более интересные вещи!  Стена
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
buka
Гений
*****
Offline Offline

Сообщений: 960

СПАСИБО
-вы поблагодарили: 4
-вас поблагодарили: 120



Просмотр профиля
Ответ #7 : Март 22, 2010, 23:36:17 �

Маша, давайте подумаем о том, как работает поисковик в интернете. По-теории он должен создать свою базу данных, в которой будет отмечено, что на таком-то сайте такая и такая информация. И если человек введет такое-то слово, то ему надо под его запрос вывести такие-то ссылки... Но вот вопрос в чем! Как можно за 0,25 сек проверить такую базу данных, в которой только 4 370 000 записей соответствовало нужному запросу? Как это сделать?
Давайте думать вместе.
Начнем с примитивнейшего поисковика, который может найти слово или совокупность слов, но не в состоянии найти фразу или, скажем совокупность слов в заданной последовательности.
А потом мы вместе будем думать дальше.
Такой примитивный поисковик действительно может работать быстро.
Естественно, он не будет по запросу заходить в миллионы сайтов и читать их.
Но он создаст несколько таблиц.
1. Таблица сайтов (блоков) где каждому блоку будет присвоен номер. Т.е. таблица с номером как индекс и линком на блок, как содержимое этого индекса.
Каждый новый блок получает свой номер, естественно.
2. Таблица слов.
Эта таблица - более сложная.
Индекс для неё - слово и все слова просортированы (для конкретного языка слов не так много - единицы миллионов)
А данными для каждого слова будет список номеров блоков, где это слово встречается. В принципе эту информацию можно сжать, введя, например, ещё и тип записи - если слово встречается редко - список номеров блоков, где встречается, если очень часто - список блоков, где не встреч ается, если средне - битвектор, где 1-ми будут помечены индексы, где встречаются, 0-ми - остальное.
Тогда слово в такой таблице найти просто и быстро...

Эти пользователи сказали вам СПАСИБО :

Lkob

За это сообщение 1 пользователь сказал спасибо!
Записан
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #8 : Март 22, 2010, 23:41:19 �

Это хорошая идея. Но вопрос - сколько ж тогда надо создать таких "блоков". Ведь такая таблица слов будет грандиозно громадная. А если говорить о таблице "слово+слово", либо "слово+слово+слово", либо "слово на русском+слово на укринском+слово на французком+цифры" - нереально! Smiley
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #9 : Март 22, 2010, 23:47:56 �

А теперь самое забавное. Сегодня я выкладывал задачки и в один момент мне надо было дать ответ на задачку. Печатать не сильно люблю - решил в гугле написать условие задачи, а дальше ctr;+c ctrl+v. Вот что забавно - первый сайт - форум НАЗВА. Т.е. что получается? Гугл нашел то сообщение, которое я оставил сегодня? Но ведь тогда ему набо проверить все сайты на всей нашей Земле? Но ведь это не реально! Более того - это не реально за 0,60 секунд!
Блин, как они это делают? Мистика?
Нет!
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Smith
Из мудрейших мудрейший
**
Offline Offline

Сообщений: 2950

СПАСИБО
-вы поблагодарили: 286
-вас поблагодарили: 305


PeAcE


Просмотр профиля
Ответ #10 : Март 22, 2010, 23:50:39 �

мне кажется, вы сейчас изобретаете велосипед. тот факт что мы не знаем, как это делается не означает конечно что мы не можем этого узнать. просто я предполагал завтра погуглить собственно этот вопрос.
можно попробовать рассуждать как предлагает buka и lkob, но тогда нужно как минимум разбираться в том, что, вот например, террабайт - это действительно много для современного мощного компьютера. или нет. и сколько байт займут те самые единицы миллионов слов, и перевести все это в частоту процессора или во что еще, чтобы оценить скорость обработки?!
потом попытаться оценить это всё (как? в сравнении с чем-то, вероятно??) и только потом робко вынести предварительное суждение - реально или не очень..)))
Последнее редактирование: Март 22, 2010, 23:52:23 от Smith Записан
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #11 : Март 22, 2010, 23:56:38 �

Цитировать
мне кажется, вы сейчас изобретаете велосипед. тот факт что мы не знаем, как это делается не означает конечно что мы не можем этого узнать. просто я предполагал завтра погуглить собственно этот вопрос.
можно попробовать рассуждать как предлагает buka и lkob, но тогда нужно как минимум разбираться в том, что, вот например, террабайт - это действительно много для современного мощного компьютера. или нет. и сколько байт займут те самые единицы миллионов слов, и перевести все это в частоту процессора или во что еще, чтобы оценить скорость обработки?!
потом попытаться оценить это ысе 9как? в сравнении с чем-то. вероятно?) и только потом робко вынести предварительное суждение - реально или не очень..)))

Все сложнее. Для того, чтобы понять, что это сложно, достаточно запустить на своём компьютере прямо сейчас поиск какого-либо файла на диске С:. Проверьте, но это займет много времени!

Smith, а я гуглил. Все, что нашел - это фразу: "Разработчики Гугл держат в секрете алгоритм своей програаммы. И вообще, только единицы знают, как это работает"

Я не предлагаю разгдать их алгоритм. Но считаю, что было бы классно подумать над этой темой и прийти к хотя бы приближенному пониманию, как это можно сделать....

P.S. Я без понятия, как это реально! Сдаюсь Очень надеюсь, что Вы, ребята,  предложите интересные алгоритмы!  Smiley
Последнее редактирование: Март 23, 2010, 00:10:25 от lkob Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Илья
Высший разум
*****
Offline Offline

Сообщений: 7695

СПАСИБО
-вы поблагодарили: 520
-вас поблагодарили: 1030


Терпение, мой друг, терпение...


Просмотр профиля
Ответ #12 : Март 23, 2010, 09:02:42 �

Интересно, а какова была скорость нахождения и количество результатов у первого кто ввел запрос на слово "Википедия"? Такая же как и у 100-го, 1000-го?
Записан

Рост воровства у нас  неудержим,
И мы кривою роста дорожим:
Раз все воруют, значит, все при деле!
На этом-то и держится режим!
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #13 : Март 23, 2010, 09:42:25 �

Интересно, а какова была скорость нахождения и количество результатов у первого кто ввел запрос на слово "Википедия"? Такая же как и у 100-го, 1000-го?

Из того, что удалось вычитать. Да, скорость запроса будет разной. Дело в том, что гугл расставляет приоритеты для каждого сайта: как давно он существует, как часто посещается, сколько полезных ссылок на другие ресурсы и какой рейтинг этих ресурсов! и т.д.

Но у меня появился другой вопрос. К примеру, берем 2 компьютера, которые находятся в разных местах (каждый имеет свой IP, естественно). В один и тот же момент задаем один и тот же запрос в гугле - ВИКИПЕДИЯ. Одинаково ли будет количество найденных ответов и одинаково ли будет время поиска?
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Lkob
Умник
****
Offline Offline

Сообщений: 625

СПАСИБО
-вы поблагодарили: 56
-вас поблагодарили: 62


Будь проще, и люди к тебе потянутся.

499789811
Просмотр профиля Email
Ответ #14 : Март 23, 2010, 09:44:34 �

А вот что написал в ответе знакомый true-программист:

вопревых там сервачины просто пиз**нуться какие. А во вторых он делает по сути(грубо говоря) два запроса первый: select TOP 10 ... from ... тут выбирает первые 10 для показа на первой странице. второй запрос делает вида: select COUNT(0) from - этот запрос вернет одну запись с количеством строк для текущего условия. На уровне сервера он отработает практически моментально. когда идем по страницам то запрос выбирает просто следующие 10 и т.д. В целом, так работает практически любой датасет в любом языке программирования...
Записан

Третий закон Ньютона даже наша партия не сумела отменить. Не успела. А зря...
Страниц: [1] 2 3
  Печать  
 
Перейти в: