?

Log in

google books: что произошло и что делать? - Игорь Петров
07.11.2016
15:49

[Link]

Previous Entry Share Next Entry
google books: что произошло и что делать?
1. Что такое Google Books?

Google Books (books.google.com) - предоставляемый компанией Google сервис полнотекстового поиска по (предварительно оцифрованным) книгам.
Для книг в Google Books существует четыре режима доступа.
Full view: полный показ книги (в-основном, для книг, копирайт на которые истек).
Preview: полный показ ограниченного числа страниц книги.
Snippet view: показ двух-четырех строчного отрывка (сниппета), который содержит искомое слово или последовательность слов.
No preview: книга еще не оцифрована или доступ к ней закрыт по каким-то иным причинам. В этом случае можно увидеть только описание книги, но не ее содержание.
Наиболее распространенный вид доступа - snippet view.

Google Books предоставляет возможности как для макро-поиска (по всему массиву книг), так и для микро-поиска (внутри одной книги). Для поиска определенной последовательности слов ее нужно закавычить.

Иллюстрация: сниппет с подсвеченными желтым цветом словом, по которому велся поиск.


Фактически Google Books предоставляет сервис суперкаталога (именного, предметного и пр.) для мегабиблиотеки (общее количество оцифрованных книг превышает 25 миллионов): с его помощью можно мгновенно, и не выходя из дома, получить общее (хотя и не полное) представление о том, в каких книгах использовалось определенное слово, последовательность слов, имя собственное, цитата и пр.

2. Что произошло с Google Books?

По всей видимости, около 4 недель назад разработчики внесли в код поисковой машины изменения, которые затронули определенные функции поиска. После этого количество результатов поиска (при неизменных запросах) уменьшилось в разы, или даже на порядки. В выдачу попадают, в основном, недавно изданные книги в режиме доступа preview.
Книги в режиме доступа snippet view в выдачу попадают в крайне ограниченном (по сравнению с ситуацией до октября 2016 года) количестве.

На микро-уровне проблема в том, что существенно ухудшился поиск внутри книг.
Иллюстрация: сама книга доступна по прежнему адресу.
Но поиск по большинству "часто встречающихся слов и выражений" в ней дает нулевой результат: 1, 2, 3 и т.д.
Запрос на имя автора неожиданно дает несколько случайных сниппетов, но поиск на встречающиеся в них слова (1, 2) снова дает пустой результат.

На макро-уровне это означает, что данная книга не попадет в поисковую выдачу при запросе по этим словам и последовательностям слов.

Отмечу, что изредка поиск по отдельным "часто встречающимся словам и выражениям" работает, но при этом возникает другой феномен: например, микро-поиск внутри книги по определенному выражению работает, а макро-поиск по нему же дает пустой ответ.

В целом, это означает, что на данный момент сервис Google Books вместо полной поисковой выдачи выдает какое-то незначительное и непредсказуемое подмножество результатов, что делает его практически бесполезным.

3. Что делать?

Насколько можно судить, попытки жаловаться на поломку уже неоднократно предпринимались: 1; 2; 3.

Как нетрудно видеть, работники сервиса просто не понимают, в чем проблема, считают ее частным случаем, возникшим у единичного пользователя, и вместо сообщения разработчикам о неправильной работе сервиса, пытаются перекладывать ответственность или учить пользователей азам поиска.
Конечно, играет свою роль и то, что Google Books это не Google Mail и не YouTube, это (к сожалению) не продукт массового пользования, поэтому нет массовых жалоб.

Следовательно, необходимо как-то довести информацию о поломке до разработчиков сервиса. Пользователи Google Books будут крайне благодарны за это, каким бы путем это ни было сделано: частным, официальным или даже с использованием СМИ (на мой взгляд, информация о том, что крупнейшая библиотека мира, мягко говоря, сломалась, вполне является новостным поводом).

Update. Меня попросили описать проблему на английском. За поправки и уточнения буду признателен.


To whom it may concern,

Recently I have noticed two (independent?) issues.

1. "Search inside the book" function does NOT work properly for the books with snippet view.

The problem seems to be that search queries containing infrequent proper nouns are returning no matches/no snippets, even if these proper nouns are on the list of "common terms and phrases" for these books.

Example No 1. (English)

No matches for John Boker
No matches for Oberursel
No matches for Critchfield

All these names are on the list of "common terms and phrases".

Example No 2. (Russian)

No matches for Травин
No matches for Вайгач
No matches for Галим

All these names are on the list of "common terms and phrases". Previously all these requests had returned snippets.

It seems that some sort of a "dictionary" is in use. If a search query contains a word from a "dictionary", request returns snippet(s). For the "unknown" words though request returns nothing.

The consequence for the global Google Books search is that the book CANNOT be found if such an infrequent proper noun is used as a keyword for the search (however, this book contains this proper noun).
For example, the word "Травин" occurs several times in a book "Снег и солнце", but one cannot find this book using "Травин" as a search query.

This is total nonsense, because people don't put frequently used words in a search bar, neither they are looking for them. Instead they are usually searching using names, places, geographic location, i.e. proper nouns.

2. Global Google Books search for the exact sequence of words (enclosed within double quotes) does NOT work properly at least for the books with snippet view.

The exact sequence of words can be found inside the book, but just the same sequence of words returns no matches for this book in the global Google Books search.

Example No 3. (English)

Search inside the book:

Global search.

Example No 4. (Russian)

Search inside the book:


Global search.

The search for the exact sequence of words (enclosed within double quotes) is an important search tool and it CANNOT be deprecated.

Thanks a lot for your time concerning this matter.

58 comments | Leave a comment

Comments
 
[User Picture]
From:yroslav1985
Date:07.11.2016 15:00 (UTC)
(Link)
Игорь полностью разделяю Вашу точку зрения по теме поста. Аналогично, как и Вы, уже недели три точно, как столкнулся с этой проблемой. Спасибо, что написали данный пост, очень важно действительно привлечь внимание к этой проблеме, так как в исследовательской работе гугл букс очень важная и нужная вещь.
[User Picture]
From:vova_belkin
Date:07.11.2016 15:11 (UTC)
(Link)
Идут бизнес-процессы:

"На Гугле был размещен трактат 17 века в открытом доступе. После появления репринта в одном из авторитетных издательств - ссылка на это репринт появилась, но доступа нет. А старый трактат из перечня книг Гугла исчез." (отсюда http://galea-galley.livejournal.com/190800.html#comments)

Имхо: весь бизнес гугля выстроен на манипулировании ссылками и результатами поиска на основании передовых исследований выдающихся ученых, так что ничего с этим поделать нельзя и дальше будет только еще более лучше.

Можно, впрочем помолиться святому Исидору Севильскому покровителю интернетов.
[User Picture]
From:stierliz
Date:07.11.2016 15:23 (UTC)
(Link)
как ваш коммент относится к изложенному в тексте?
[User Picture]
From:dimrub
Date:07.11.2016 15:22 (UTC)
(Link)
Игорь, можешь описать баг по-английски? Попытаюсь донести до разработчиков.
[User Picture]
From:labas
Date:07.11.2016 15:37 (UTC)
(Link)
Было бы замечательно.

В принципе, суть проблемы изложена здесь

Andrew Haggerty 17.10.16 14:48
и дан конкретный пример
Andrew Haggerty 18.10.16 13:16

Я попробую чуть позже еще формализовать.
[User Picture]
From:labas
Date:08.11.2016 07:10 (UTC)
(Link)
См. апдейт.
avva написал в фб, что еще вчера переправил правильным людям ссылку на этот мой пост, но в англ. версии симптомы несколько уточнены.

Edited at 2016-11-08 07:11 am (UTC)
[User Picture]
From:timur0
Date:07.11.2016 15:31 (UTC)
(Link)
Опечатка: "до октября 2106 года"
[User Picture]
From:labas
Date:07.11.2016 15:33 (UTC)
(Link)
Поправил, спасибо.
[User Picture]
From:libelli_nestor
Date:07.11.2016 15:56 (UTC)
(Link)
С коммерческой т. зр. тут все абсолютно корректно. Сужение ареала выдачи по запросам революционно сокращает время обработки запроса. А на некоммерческие запросы забить.
[User Picture]
From:romanet
Date:08.11.2016 04:51 (UTC)
(Link)
> С коммерческой т. зр. тут все абсолютно корректно.
Для бизнеса который специализируется на качестве поиска и у которого практически никогда не было проблем с обработкой большого количества запросов?
[User Picture]
From:lucas_v_leyden
Date:07.11.2016 17:16 (UTC)
(Link)
Я тоже это недавно заметил, но решил, что с московским IP теперь в иные общества не пускают вовсе и поплелся смиренно в библиотеку. А тут, оказывается, вот что творится. Вообще это фирменный стиль Гугля - истребить (или хотя бы сильно ухудшить) свой хороший работающий сервис (как бедную Пикасу), так что не удивлюсь, если это фича, а не баг, как говорили в старину.
[User Picture]
From:Az Nevtelen
Date:07.11.2016 18:12 (UTC)
(Link)
Пикасу жаль, но там есть альтернативы — а вот гуглобук, увы, единственный в своем роде.
Можно было бы выразиться и так: обычно нет нужды улучшать уже хоть как-то работающую систему.
Например, e-heritage — консерваторы, у них и сервер не всегда функционирует, да и поиск по каталогу никогда толком не работал и не работает, но и с этим можно жить, тем более, что они иногда оцифровывают исключительно редкие книги.
А вот РГБ пошла по кривой дорожке: сделали новый поиск, сравнительно неплохой, но тут же частично истребили доступ к периодике.
Или РНБ, где наверное решили, что читателям стоит нагадить, улучшив качество оцифровки газет — в результате одна полоса весит 100-200 мегабайт, что немного мешает чтению.
[User Picture]
From:vvagr
Date:07.11.2016 18:40 (UTC)
(Link)
Вот тут народ пытается организоваться https://www.facebook.com/therese.philosophe.3/posts/1130548673725600
[User Picture]
From:labas
Date:08.11.2016 10:08 (UTC)
(Link)
Спасибо, я там написал.
From:sstoyan
Date:07.11.2016 19:13 (UTC)
(Link)
Последний день работы по старому на Google Books был 7 октября.

Отключили поиск с кавычками и работу со сниппетами внутри книги.

[User Picture]
From:labas
Date:08.11.2016 08:41 (UTC)
(Link)
Спасибо за уточнение.
Да, насчет кавычек все верно.
Насчет сниппетов несколько заковыристее. Сниппеты с распространенными словами и именами собственными отдаются. Не отдаются сниппеты с редкими именами собственными.
Можно сказать, используется некий "словарь", и все запросы на сниппеты со словами за пределами этого словаря отфильтровываются.
Можно было бы сказать, что эти редкие имена собственные просто не проиндексированы, но это не так: для "часто встречающихся слов и выражений" на странице книги они вполне себе проиндексированы.
[User Picture]
From:chaource
Date:07.11.2016 21:13 (UTC)
(Link)
У меня было всегда ощущенiе, что Гуглу совершенно все равно, что будетъ съ google books. Этотъ ихъ проектъ никогда не былъ профильнымъ, работалъ, такъ сказать, на энтузiазмѣ. Поискъ по книгамъ никогда не сравнивался по эффективности, отсортированности и важности результатовъ съ общесѣтевымъ поискомъ на главной страницѣ Гугла. Поэтому я практически никогда не пользовался этимъ поискомъ.

Возможно, какiе-то алгоритмы помѣнялись, и теперь будетъ вотъ такъ. Возможно, черезъ полгода что-то исправятъ. Обращенiя въ техническую поддержку приведутъ только къ отпискамъ. Я увѣренъ, что инженеры и начальники въ соотвѣтствующемъ отдѣлѣ Гугла все прекрасно знаютъ. Но это, конечно же, не значитъ, что не надо продолжать бить тревогу. Надо собрать какъ можно больше данныхъ и разсылать ихъ всѣмъ подрядъ. Надо запостить это на сайтахъ reddit, ars-technica и прочихъ ведущихъ сайтахъ интернетъ-технологiй.

Edited at 2016-11-07 10:30 pm (UTC)
[User Picture]
From:romanet
Date:08.11.2016 05:15 (UTC)
(Link)
Не думаю, что Гуглу наплевать. Поиск по книгам отличный полигон для тестирования - очень много статической информации. Вполне возможно, что если алгоритм изменился, старые данные нужно проиндексировать заново - кто знает как долго строится такой индекс?.

в выше данной ссылке <1> https://productforums.google.com/forum/?_escaped_fragment_=topic/webmasters/nAWO0o5Np9A;context-place%3Dtopicsearchin/webmasters/category$3Astructured-data#!topic/webmasters/nAWO0o5Np9A;context-place=topicsearchin/webmasters/category$3Astructured-data


10/18/16 1:16 PM
> For example, this one book. Before the start of this problem it would be first for a google search for "Houlouf," now I must type in the subtitle for it to appear.

Сейчас писк показывает эту книгу первой
[User Picture]
From:Artem Vakhitov
Date:08.11.2016 11:43 (UTC)
(Link)
На Слэшдот, кстати.
[User Picture]
From:simankov
Date:08.11.2016 06:23 (UTC)
(Link)
Полностью согласен - и с хронологией, и с описанием проблемы.
Вероятно, "они что-то меняют" и, возможно, через некоторое время откатят назад.
Если же через месяц-другой ничего не изменится, тогда кирдык..
From:andybonhomme
Date:09.11.2016 12:50 (UTC)
(Link)
Именно.
Еще такая особенность наблюдается:
Я как-то искал, у кого именно Батюшков попятил на самом деле строку «Ум любит странствовать, а сердце жить на месте», которую он ошибочно приписал Дмитриеву. Ничего подходящего по времени не обнаружил, но нашел более позднюю параллель L'esprit s'amuse en voyage, mais le cœur s'ennuie.
Так вот теперь она сама по себе (а равно и по частям) не ищется, но если набрать имя автора (Hyppolite Rigault) и пару слов из цитаты, то находится. То есть книга-то есть, но по голой цитате не выдается.
[User Picture]
From:harding1989
Date:11.11.2016 04:32 (UTC)
(Link)
Где-то мы это уже видели, так что я довольно пессимистичен.
[User Picture]
From:core2duo
Date:11.11.2016 18:56 (UTC)
(Link)
Политически правильное решение: слишком много стали о себе понимать.
From:qvisq
Date:21.11.2016 22:50 (UTC)
(Link)
кажись починили
[User Picture]
From:labas
Date:22.11.2016 10:29 (UTC)
(Link)
Да, похоже, ура!
My Website Powered by LiveJournal.com