imho.ws |
![]() |
![]() |
![]() |
# 1 |
Junior Member
Регистрация: 10.07.2003
Адрес: г. Королев, Россия
Сообщения: 188
![]() ![]() |
Задачка для профессионалов (раздербанить pdf)
Собсно есть pdf. Надо вытащить из него текст. Кажется просто? Мне тоже так казалось. Через 5 часов мучений решил спросить совета у вас. Кажется, попробовал уже все, что можно... Самая большая проблема найти шрифт TimesPal...
Вобщем, кто сможет вытащить нормальный русский текст из второго абзаца (первый нормально и у меня копируется), тому будет от меня ОГРОМНОЕ спасибо. |
![]() |
![]() |
# 2 |
Newbie
Регистрация: 27.01.2004
Адрес: Moldova of Republic
Сообщения: 33
![]() |
Не знаю как начет проф-ов но ответ прост..
Исходить нужно из постановки задач.
Так вот при таком куске текста самое простое: 1. Открыть pdf 2. Нажать принт скрин 3. Открыть и обрезать в фотошопе или в другом редакторе и сохранить в jpg или другом совместимом формате. 4. Окрыть и распознать в FineReader 5. Экспортировать в ворд. и вот результат: "У каждой женщины бывают сны, пос¬ле которых не хочется просыпаться. Уж очень они лучезарные — на их фо¬не явь кажется до обидного серой, ни¬кчемной и безысходной. Остается только обнять подушку и попытаться вновь вызвать те фантастические ви¬дения, от которых горячо в сердце и солоно на щеках... Современная наука называет это эскапизмом — бегством от жизни. Но мир слишком велик и прекрасен, что¬бы просто взять и убежать. И потом — у санктпетербурженки Марины Шуто¬вой много обязательств перед ним. Большая семья — муж, четверо детей, два ротвейлера, сиамский кот, пара принадлежит самому главному муж¬чине на земле — американскому акте¬ру Джонни Деппу. Великая ДЕППрессия Все началось в 1992 году. Джонни Депп только что вернулся со съемок фильма "Сны Аризоны" и находился в состоянии очередного выяснения отношений с Вайноной Райдер. Во время "разборок" Джонни обычно не смотрел телевизоры — он их разбивал. И, конечно же, пропустил скандаль¬ный репортаж о процветании видео¬пиратства в странах третьего мира. Примерно в это же время на дру¬гом конце планеты тридцатилетняя" Да вот не понял причем тут шрифт. |
![]() |
![]() |
# 3 |
Junior Member
Регистрация: 10.07.2003
Адрес: г. Королев, Россия
Сообщения: 188
![]() ![]() |
Хм... Видимо, в час ночи голова уже совсем не варит... Я пробовал просто копи-паст (получается ì ͇ʉÓÈ ÊÂÌ˘ËÌ˚ ·˚‚‡˛Ú ÒÌ˚, ÔÓÒΠÍÓÚÓ˚ı Ì ıÓ˜ÂÚÒfl ÔÓÒ˚Ô‡Ú¸Òfl), пробовал открыть pdf в finereader (получается трудночитаемо, внутри слов пробелы, между словами пробелов нет... текста много, исправлять такое наверное дольше, чем заново набрать). Пытался также открывать разными программами и экспортировать в разные форматы...
Вобщем, не додумался только отпрнтскринить и картинку распознать. Спасибо, раз другого способа нет, попробую именно так. |
![]() |
![]() |
# 5 |
IMHO Ворчун-2006
Регистрация: 24.03.2003
Адрес: Москва
Пол: Male
Сообщения: 4 651
![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() |
FineReader читает PDF. так что достаточно скормить ему этот файл и на выходе получишь текст.
Правда если этот файл один, то проще текст набить ручками (5-10 минут от силы) ![]() Очень подозреваю, что справится тут и Kleptomania (программка такая - хватает любой текст, который увидит на экране, например, из виндовых менюх) ЗЫ: а пароли/защиту с PDF снимает детище элкомсофта Последний раз редактировалось vovik; 14.10.2005 в 19:30. |
![]() |
![]() |
# 6 |
Junior Member
Регистрация: 07.02.2005
Адрес: Ростов, ЮФО
Сообщения: 177
![]() ![]() |
Читает??? Несмотря на то, что там за кодировки???
Не всегда он может напрямую прочесть PDF-ку, к сожалению. А вот с офсайта текст: "FineReader 8.0 предварительно анализирует содержимое файла и для каждого текстового блока принимает решение: распознать его или извлечь соответствующий текст из текстового слоя. Таким образом удаётся увеличить качество распознавания и в 2 раза сократить время обработки". И вообще, для работы с PDF FineReader использует сторонний модуль GhostScript. ![]() |
![]() |