По делу была нужна база имен существительных русского языка нарицательных в именительном падеже. Нужен был именно список.
16.08.2015 15 комментариев 47 291 просмотров
По делу была нужна база имен существительных русского языка нарицательных в именительном падеже. Нужен был именно список. Ничего толкового не нашел. Пришлось парсить словарь.
Итак, под раздачу попал словарь «Толковый словарь Ефремовой». Из него удалил имена собственные и всё расположил по алфавиту. В итоге, получился список из 34 010 слов. Разумеется, что это не все имена существительные из русского языка. Тут нету многих заимствованных слов, компьютерной тематики, из других профессиональных областей и так далее.
Скачать словари
9. Большой психологический словарь. Б. Г. Мещеряков, В. П. Зинченко | Скачать DOC(RAR) [916 кБ];
10. Словарь практического психолога. Головин С.Ю. | Скачать DOC(RAR) [603 кБ];
11. Психологические термины и понятия. Барнесс Э. Мур и Бернард Д. Файн | Скачать DOC(RAR) [315 кБ];
12. Орфографический словарь русского языка Проф. Лопатин | Скачать DOC (RAR) [1,56 МБ];
13. Новый орфографический словарь русского языка Бурцева В.В. | Скачать PDF (RAR) [6,84 МБ];
14. Синонимы и антонимы — Словарь школьника Ушакова О.Д. | Скачать PDF [5,58 МБ];
15. Синонимов русского языка Александрова З.Е. | Скачать PDF [7,72 МБ];
16. Словарь — справочник: Экология человека| Скачать DOC (RAR) [1,16 МБ];
17.Краткий филосовско-религиозный словарь Василенко Л.И.| Скачать DOC[1,62 МБ] | PDF [2,52 МБ], FLACH [924 кБ];
18.Краткий словарь филосовских персоналейБлинникова Л.В.| Скачать DOC [1,76 МБ],PDF [8,08 МБ], FLACH [1,04 МБ];
19. Энциклопедия "История философии"| Скачать DOC (RAR) [1,59 МБ];
20. Новейший филосовский словарь А.А. Грицанова| Скачать DOC(RAR) [1,97 МБ];
Пароль к архивам: YAXY GROUP
21. Новый словарь методических терминов и понятий| Скачать PDF(RAR) [5,06 МБ];
22.Англо-русский словарь| Скачать CHM(RAR) [6,96 МБ];
23. Большой Энциклопедический Словарь (БЭС) | Скачать EXE(RAR) [37,7 МБ];
24. Энциклопедический словарь PR и Рекламы (I,II часть) С. Ильинский| Скачать DOC(RAR) [251 кБ];
25. Словарь бизнес сленга | Скачать PDF(RAR) [4,36 МБ];
26. Толковый словарь живого великорусского языка Даль В. И. | Скачать TXT(RAR) [5,31 МБ];
27. Большой толковый словарь (БТС)| Скачать DJVU(RAR) [63,1 МБ];
Скачать программу просмотра файлов DJVU можно тут (RAR) [1,8 МБ]
28.Словарь-справочник финансового менеджера — Бланк И.А |Скачать PDF(RAR) [5,2 МБ];
29.Педагогический словарь |Скачать DOC(RAR) [1 МБ];
30. Словарь ударений русского языка |Скачать DOC(RAR) [177 кБ];
31.Словарь терминов рынка Forex | Скачать CHM(RAR) [635 кБ];
32. Этимологический словарь русского языка| Скачать DJVU(RAR) [6,4 МБ];
33. Психологический словарь | Скачать CHM(RAR) [19,9 МБ];
34. Библейский словарь Эрика Нюстрема | Скачать CHM(RAR) [965 кБ];
35. Энциклопедия — Язык русской деревни | Скачать CHM(RAR) [1,5 МБ];
36. Энциклопедия наркотиков и галюциногенов | Скачать CHM(RAR) [1,1 МБ];
37. Словарь аналитической психологии — Зеленский В. | Скачать CHM(RAR) [217 кБ];
38.Словарь-Античные писатели | Скачать CHM(RAR) [639 кБ];
39.Словарик по сетевым технологиям | Скачать CHM(RAR) [65 кБ];
40. Словарь видеоэффектов| Скачать CHM(RAR) [19 кБ];
41. Словарь трудностей русского произношения Каленчук |Скачать PDF(RAR) [4,9 МБ];
42. Словаръ пiитико-историческихъ примъчанiй (1781 год) |Скачать PDF(RAR) [1,7 МБ];
43. Русско-английский словарь по прикладной математике и механике (2003) — Арушанян|Скачать PDF(RAR) [339 кБ];
44.Русско-английский словарь — Ротштейн — 1942|Скачать PDF(RAR) [19,2 МБ];
45.Словарь древнего славянского языка — 1899|Скачать PDF(RAR) [115,3 МБ];
46.Краткий англо-русский словарь |Скачать DOC(RAR) [2,1 МБ];
47. Русско-латинский словарь |Скачать DOC(RAR) [716 кБ];
48.Словарь иностранных слов|Скачать PDF(RAR) [62,2 МБ];
49. Орфоэпический словарь русского языка. Произношение. Ударение. Резниченко И.Л 2003 -1182 стр.|Скачать PDF(RAR) [7,8 МБ];
50. Русское словесное ударение. Словарь. Зарва М.В. 2001 — 600 стр.|Скачать PDF(RAR) [5,5 МБ];
51.Русско-английский однозначный словарь Драгункин и Драгункина|Скачать PDF(RAR) [1,7 МБ];
52. 3000 английских слов повседневного общения всего за пару дней — Л. Акимов|Скачать PDF(RAR) [558 кБ];
53.Кодрант- Словарь Библейских понятий — Слободяник В.|Скачать PDF(RAR) [608 кБ];
54.Современный Энциклопедический словарь |Скачать DOC(RAR) [1,6 МБ];
55.Технический авиационный англо-русский словарь|Скачать PDF(RAR) [2,2 МБ];
56. Новый политехнический словарь|Скачать PDF(RAR) [112,7 МБ];
57.Большой энциклопедический словарь 1999-2000 | Скачать TXT(RAR) [6,3 МБ];
58. Словарь редких и забытых слов В.П. Сомов| Скачать DJVU(RAR) [11,2 МБ];
59.Дизайн. Иллюстрированный словарь-справочник — Минервин| Скачать DJVU(RAR) [9,7 МБ];
60.Информатика. Новый систематизированный толковый словарь-справочник (Ф. С. Воройский)| Скачать DJVU(RAR) [5,6 МБ];
61. Современный толковый словарь |Скачать DOC(RAR) [7,8 МБ] |TXT(RAR) [6,3 МБ] ;
62. Литературный энциклопедический словарь |СкачатьPDF(RAR) [70,2 МБ];
63. Англо-русский словарь Мюллера | Скачать TXT(RAR) [1,9 МБ] | PDF(RAR) [8,2 МБ];
64. Словарь иностранных слов Комлева Н.Г. |Скачать DOC(RAR) [1,1 МБ];
Пароль к архивам: YAXY GROUP
Скачать программу просмотра файлов DJVU можно тут (RAR) [1,8 МБ]
Одной из самых полезных программ на ПК и смартфоне в моем понимании является электронный словарь. В те стародавние времена, когда я учил иностранный язык, каждое слово приходилось искать в бумажном словаре. Эту тривиальную операцию я проделывал сотни раз, а некоторые зловредные слова приходилось смотреть снова и снова, так как я успевал забыть их значение. Как это было обидно! То ли дело сейчас, вжух и перевод перед глазами на экране монитора. История поиска, на случай, если искомое слово не перешло из области кратковременной памяти в долгосрочную.
Давайте своими силами создадим электронный словарь для программ StarDict / GoldenDict. Для этого может понадобится много, или мало человеко-часов, в зависимости от качества исходного материала.
Шаг первый: OCR
В отличие от альпинизма при оцифровке словаря самый тяжелый шаг, не последний а первый. Если вам придется проводить OCR бумажного словаря с выцветшими страницами, напечатанного слишком мелко, с различными артефактами небрежного использования, или на экзотическом языке, то даже FineReader не сильно поможет. На некоторых страницах разница в длительности времени между ручным набором текста и OCR с корректировкой ошибок ничтожна.
Советую сохранять все в простых текстовых файлах, так как продвинутый поиск и исправление ошибок, расстановка тэгов, преобразование сортировки и прочие операции с текстовым массивом невообразимо осуществлять с бинарным фалом.
На этом шаге важно определиться со структурой словарных статей. В самом простом случае будет всего два поля: ключ и значение. Этого достаточно, но если нужна подсветка различных элементов статей, то тогда потребуется все такие элементы определенным образом маркировать.
Самое время немного поговорить о форматах. Существует много форматов электронных словарей, вот их список.
Все форматы мы здесь разбирать не будем, так как большинство из них проприетарные. Нас интересуют открытые стандарты и открытое ПО.
Dictd
Возникший в эпоху, когда сетевые TCP/IP протоколы беспрепятственно плодились и размножались dictd сейчас представляет лишь археологический интерес. Это клиент серверный протокол, использующий TCP порт 2628, определен в RFC 2229.
Исходный файл для словаря форматируется следующим образом.
Готовый файл для словаря создается командой dictfmt .
В результате образуются 2 файла: dict-name.index и dict-name.dict . Из них первый очевидно индексный файл, с ним ничего делать не нужно, а второй можно сжать командой dictzip . Данная команда сжимает *.dict файл с помощью утилиты gzip . Сразу же возникает вопрос: а зачем оно тогда нужно, если есть обычный gzip ?
Дело в том, что dictzip использует добавочные байты в заголовке архивного файлы для обеспечения псевдо-произвольного доступа к файлу.
Наконец файлы помещаются в профильные каталоги, т. к. /usr/lib/dict , перезагружаем службу dictd и вуаля. Синтаксис поиска прост, достаточно набрать
Пробежка по dictd ссылкам напоминает сафари по интернет сети 90-х, жив и еще лягается!
Sdict
Дерзкая попытка Алексея Семенова изменить мир к лучшему с помощью магии Perl в ту пору, когда Microsoft еще не крутил шашни с Linux и сообществом открытого ПО, а основной источник словарей были пиратки ABBYY Lingvo.
Заголовок исходного файла словаря.
Тело форматировано следующим образом:
Можно качнуть версию для ОС Symbian, если что. Проект более не жив, и даже сами словари можно почерпнуть лишь с Машины Времени.
Ну все, завязываем с археологией и переходим к словарным форматам и программам годным для использования IRL.
XDXF имеет все преимущества и недостатки XML формата, каковым и является. Весь синтаксис формата и примеры можно обозреть тут.
Скелет словарного файла выгладит следующим образом, состоит из 2-х частей: meta_info и lexicon .
Есть огромное количество словарей в этом формате. Большим достоинством формата является то, что далее нет надобности ничего конвертировать. Программа GoldenDict распознает XDXF файлы наряду с большим количеством других поддерживаемых форматов.
TSV / StarDict
StarDict и клоны его это не столько про формат электронного словаря, сколько про качественное ПО просмотра, конвертации и создания таковых.
Для создания электронного словаря с помощью StarDict достаточно TSV файла, что я и выбрал для цифровой копии армяно-русского словаря.
Тем не менее возможно и кое-какое форматирования и разметка файла словаря, однако не идет ни в какое сравнение с XDXF .
Формат определяет символ переноса строки
, в том случае, когда статья разбита на параграфы.
После первого шага скорее всего будут десятки, а то и сотни орфографических, грамматических и всяких прочих ошибок, странных символов и прочих артефактов OCR.
Особенность словарей в том, что проверка орфографии нужна одновременно по двум языкам. Даже сейчас в 2018-м удивительно мало текстовых редакторов и даже офисных пакетов умеют это нехитрое действие выполнять.
Не холивара для, рекомендую обработку теска производить с Vim. Если ваш любимый текстовый редактор справляется с этим не хуже, то и славно. С Vim достаточно команды.
для проверки орфографии по двум словарям, в данном случае русском и английском. Далее список граблей.
- Сортировка текста работает абы как для не латинских локалей, особенно плохо там, где написание буквы требует более одного символа, как армянская ու = ո + ւ . Необходимо в таких случаях самостоятельно сортировать список слов с помощью простенького Perl, или иного скрипта.
- Поиск по шаблону также может работать неожиданно для некоторых локалей, даже если сам текст и консоль в UTF-8.
- При оцифровке печатного словаря нужно быть готовым не только к ошибкам оцифровки, но и ошибкам в самом печатном словаре. Их там может содержаться немало!
- Если название статьи пишется заглавными, то возможно следует перевести при оцифровке в нижний регистр. Не все буквы имеют символы в верхнем регистре, собственно не для всех локалей даже есть верхний регистр.
Для формата XDXF , как уже было сказано, этот шаг не требуется. Просто запихнуть файл в папку /usr/share/goldendict , где программа подхватит его.
Для TSV файла, используется утилита stardict-editor , поставляемого с набором инструментов StarDict.
На выходе программа создает следующие файлы, наподобие древнего Dict.
- somedict.ifo
- somedict.idx либо somedict.idx.gz
- somedict.dict либо somedict.dict.dz
- somedict.syn (optional)
Файлы копируются в каталог /ysr/share/stardict/dic и на этом все.
P. S. Для мобильной платформы Android программа GoldenDict внезапно стал платной, однако в интернет сети все еще можно найти последнюю бесплатную версию программы.