Создать аккаунт
Войти





20.1 MB

Twitter Facebook Google Livejournal Pinterest

Friends 1 учебник скачать


Описание: Friends 1 учебник скачать
Имя файла: friends-1-uchebnik
В прошлом посте, я пытался дать ответ на вопрос:

Есть ли альтернатива проприетарному books.google.com?

Однозначного ответа я не нашел, т.к. у простого читателя сегодня все таки есть доступ к большим и свободным электронным библиотекам, которые никак не ограничивают своих читателей:

1. "Худлит" - Либрусек (Флибуста)
2. "Наука и техника" - Либген 
3. "журналы" - magzdb.org
4. "научные публикации" - КиберЛенинка, Sci-Hub (поисковик) и даже scholar.google.ru (поисковик)

Но вот полноценного поиска по содержанию за исключением КиберЛенинки никто не предлагает. И это неудивительно, ведь для "худлита" эта функция особо и не нужна, а для книг и журналов из разряда "науки и техники" такую функцию "на коленке", даже при условии наличия электронных книг,  просто не сделать. Нет, сами текстовые слои огромных объемов  сегодня индексируют и свободно распространяемые поисковые движки (слышал, что Сфинксом индексируют текстовую базу размером до 1 Тбайта одного популярного ресурса), но вот где  взять сами текстовые слои книг, пока никто не знает. К сожалению, книги Либгена и журналы magzdb.org лишь в 40-50% случаев имеют текстовые слои, пригодные для индексации поисковыми системами. В свое время ABBYY сделала оценку производительности своего флагманского продукта распознавания символов и пришла к выводу, что для получения текстового слоя среднестатистической книги с 350 страницами за одну минуту, нужно задействовать около 50 процессорных ядер. Т.е. для выделения текстового слоя у половины книг Либгена кластером из 50 вычислительных ядер потребовалось бы 450 тыс. минут или 312,5 дней. Задача это конечно же решаемая, но не на коленке энтузиазма. А вот суперкомпьютер Ломоносов с 44000 вычислительными ядрами справился бы всего за 8-9 часов. Создатели сайта-поисковика ищущего в БД по  840 000 именам файлов, ждать не стали и проиндексировали ту часть текстовых слоев библиотеки Либгена, которая уже в ней была. Результат можно попрововать на том-же сайте по адресу http://dc-poisk.no-ip.org/yndex.html или прямо в этой форме поиска:


 Вот что они написали о данном поисковике.

 Поиск возможен по трем коллекциям документов:

 1.Основная коллекция (индексируются имена файлов и текстовые слои "как есть") - 1403450 документов, у около 50% проиндексированы текстовые слои.
 2. Коллекция постраничной аннотации (индексируются 10+5 страниц, страницы "строго OCR") - 1 525 794 страниц документов.
 3. Постраничная коллекция (индексируются 100% страниц книг и журналов, страницы "строго OCR") - 3060252 страниц документов.

 С помощью Yandex Serverа индексируются страницы книг (журналов) и их имена. Для этого первые 10 и последние 5 страниц книг и журналов принудительно подвергаются процедуре OCR (оптического распознавания), даже если текстовый слой у них существует (Коллекция 2). Некоторые книги и журналы полностью снова подвергаются процедуре оптического распознавания символов, полученный результатиндексируются (Коллекция 3). В Основной коллекции (1) индексируются различные варианты названия книг (журналов), вместе с их текстовым содержанием, тем, что создатель документа поместил в файлы в момент их создания.

 В результате поиска вы получаете магнет-ссылку на файл книги (журнала), и прямую http ссылку на файл расположенный в известных поисковику он-лайн библиотеках.

Магент-ссылки позволяют легко скачивать файл из пиринговых сетей, которые являются наиболее свободной средой распространения информации. Опытным путем установлено, что предпочтительной средой распространения отдельных книг является пиринговая сеть Direct Connect, она же является и самой распространенной пиринговой сетью в России. К сожалению BitTorrent не подходит для удобного распространения отдельных книг, но часто используется для распространения целых электронных библиотек или специализированных книжных коллекций.

Из он-лайн библиотек поддерживаются только те, которые позволяют скачивать книги по прямым http  ссылкам, и открыто распространяют свои базы данных таких ссылок на книги вместе с их хешами. Поэтому, пока поддерживается только самая большая в Рунете, удовлетворяющая этим условиям он-лай библиотека - Library Genesis. Library Genesis уникальна еще и тем, что хранит не один конкретный тип хэша книги, а сразу несколько вариантов хэшей для одной книги. Эта особенность, делает возможным скачивание найденной книги  практически из любых типов пиринговых сетей, из которых возможна индивидуальная раздача файлов книг.

Как видим  начало многообещающее. Давайте сравнимс books.google.com. Для примера поищем книгу, которая только недавно вышла в свет и скорее всего еще не оцифрована:

Орлов Ю.Н., Осминин К.П.

Методы статистического анализа литературных текстов 2012


Вот какие первые 10 ссылок на  книги выдала  тестируемая альтернатива гугл-букс на запрос

"Методы статистического анализа литературных текстов"

Ответ поисковика  http://dc-poisk.no-ip.org/yndex.html 
 :

Афифи А., Эйзен С. Статистический анализ с ЭВМ Мир, 1982
Беляков Ю.Н., Курмаев Ф.А., Баталов Б.В. Методы статистических расчетов микросхем на ЭВМ
Тюрин Ю.Н., Макаров А.А. - Статистический анализ данных на компьютере Под ред. В.Э.Фигурнова. 1998. 528 с
Дьяконова_С.В.-Макроэкономическая_статистика__метод._указ._к_выполнению_курсовой_работы-ГОУ_ОГУ(2005).pdf
Афифи А., Эйзен С. Статистический анализ с ЭВМ
Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. 2003г
Бубнов А.В. Лингвопоэтические и лексикографические аспекты палиндромии Автореферат 2003г
Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере 
Дж Купер, К. Макгиллем Вероятностные методы анализа сигналов и систем
Орлов А. И. Орлов А. И. - Прикладная статистика

Искомой книги нет, но все книги имеют отношение к статистике. Некоторые книги встречаются по 2 раза, в одном случае это "дубли" в другом разные года издания одной и той же книги.

Теперь гугл-букс:

Античность - это средневековье - Страница 688

Статистический анализ в Microsoft Office Excel. Профессиональная ... - Страница 17

Linguistica Uralica - 1995 - Страница 233

Мировой альманах фактов. 2008 - Страница 45

Большой психологический словарь: - Страница 237

Экспериментальная психология

Библейская Русь: русско-ордынская и Библия : новая математическая ... - Том 2 - Страница 581

Методы прикладных социальных исследований: [учеб. пособие для ... - Страница 169

Введение в спорово-пыльцевой анализ - Страница 160

Проблемы применения количественных методов анализа и классификации ...

Нельзя сказать, что гугл-букс выдал совсем не то что мы искали, но релевантность его ответа все-же несколько меньше. Мне кажется тест  http://dc-poisk.no-ip.org/yndex.html вполне выдержал, а нам остается пожелать ему дальнейшего накопления текстовых слоев книг для индексирования, что-бы результат был ещё лучше.



Cсылка для сайта (HTML):

Cсылка для форума (BBCode):