Словарь в txt формате

Словарь в txt формате

По делу была нужна база имен существительных русского языка нарицательных в именительном падеже. Нужен был именно список.

16.08.2015 15 комментариев 47 291 просмотров

По делу была нужна база имен существительных русского языка нарицательных в именительном падеже. Нужен был именно список. Ничего толкового не нашел. Пришлось парсить словарь.

Итак, под раздачу попал словарь «Толковый словарь Ефремовой». Из него удалил имена собственные и всё расположил по алфавиту. В итоге, получился список из 34 010 слов. Разумеется, что это не все имена существительные из русского языка. Тут нету многих заимствованных слов, компьютерной тематики, из других профессиональных областей и так далее.

Скачать словари

9. Большой психологический словарь. Б. Г. Мещеряков, В. П. Зинченко | Скачать DOC(RAR) [916 кБ];

10. Словарь практического психолога. Головин С.Ю. | Скачать DOC(RAR) [603 кБ];

11. Психологические термины и понятия. Барнесс Э. Мур и Бернард Д. Файн | Скачать DOC(RAR) [315 кБ];

12. Орфографический словарь русского языка Проф. Лопатин | Скачать DOC (RAR) [1,56 МБ];

13. Новый орфографический словарь русского языка Бурцева В.В. | Скачать PDF (RAR) [6,84 МБ];

14. Синонимы и антонимы — Словарь школьника Ушакова О.Д. | Скачать PDF [5,58 МБ];

15. Синонимов русского языка Александрова З.Е. | Скачать PDF [7,72 МБ];

16. Словарь — справочник: Экология человека| Скачать DOC (RAR) [1,16 МБ];

17.Краткий филосовско-религиозный словарь Василенко Л.И.| Скачать DOC[1,62 МБ] | PDF [2,52 МБ], FLACH [924 кБ];

18.Краткий словарь филосовских персоналейБлинникова Л.В.| Скачать DOC [1,76 МБ],PDF [8,08 МБ], FLACH [1,04 МБ];

19. Энциклопедия "История философии"| Скачать DOC (RAR) [1,59 МБ];

20. Новейший филосовский словарь А.А. Грицанова| Скачать DOC(RAR) [1,97 МБ];

Пароль к архивам: YAXY GROUP

21. Новый словарь методических терминов и понятий| Скачать PDF(RAR) [5,06 МБ];

22.Англо-русский словарь| Скачать CHM(RAR) [6,96 МБ];

23. Большой Энциклопедический Словарь (БЭС) | Скачать EXE(RAR) [37,7 МБ];

24. Энциклопедический словарь PR и Рекламы (I,II часть) С. Ильинский| Скачать DOC(RAR) [251 кБ];

25. Словарь бизнес сленга | Скачать PDF(RAR) [4,36 МБ];

26. Толковый словарь живого великорусского языка Даль В. И. | Скачать TXT(RAR) [5,31 МБ];

27. Большой толковый словарь (БТС)| Скачать DJVU(RAR) [63,1 МБ];

Скачать программу просмотра файлов DJVU можно тут (RAR) [1,8 МБ]

28.Словарь-справочник финансового менеджера — Бланк И.А |Скачать PDF(RAR) [5,2 МБ];

29.Педагогический словарь |Скачать DOC(RAR) [1 МБ];

30. Словарь ударений русского языка |Скачать DOC(RAR) [177 кБ];

31.Словарь терминов рынка Forex | Скачать CHM(RAR) [635 кБ];

32. Этимологический словарь русского языка| Скачать DJVU(RAR) [6,4 МБ];

33. Психологический словарь | Скачать CHM(RAR) [19,9 МБ];

34. Библейский словарь Эрика Нюстрема | Скачать CHM(RAR) [965 кБ];

35. Энциклопедия — Язык русской деревни | Скачать CHM(RAR) [1,5 МБ];

Читайте также:  Взлом вк через логин

36. Энциклопедия наркотиков и галюциногенов | Скачать CHM(RAR) [1,1 МБ];

37. Словарь аналитической психологии — Зеленский В. | Скачать CHM(RAR) [217 кБ];

38.Словарь-Античные писатели | Скачать CHM(RAR) [639 кБ];

39.Словарик по сетевым технологиям | Скачать CHM(RAR) [65 кБ];

40. Словарь видеоэффектов| Скачать CHM(RAR) [19 кБ];

41. Словарь трудностей русского произношения Каленчук |Скачать PDF(RAR) [4,9 МБ];

42. Словаръ пiитико-историческихъ примъчанiй (1781 год) |Скачать PDF(RAR) [1,7 МБ];

43. Русско-английский словарь по прикладной математике и механике (2003) — Арушанян|Скачать PDF(RAR) [339 кБ];

44.Русско-английский словарь — Ротштейн — 1942|Скачать PDF(RAR) [19,2 МБ];

45.Словарь древнего славянского языка — 1899|Скачать PDF(RAR) [115,3 МБ];

46.Краткий англо-русский словарь |Скачать DOC(RAR) [2,1 МБ];

47. Русско-латинский словарь |Скачать DOC(RAR) [716 кБ];

48.Словарь иностранных слов|Скачать PDF(RAR) [62,2 МБ];

49. Орфоэпический словарь русского языка. Произношение. Ударение. Резниченко И.Л 2003 -1182 стр.|Скачать PDF(RAR) [7,8 МБ];

50. Русское словесное ударение. Словарь. Зарва М.В. 2001 — 600 стр.|Скачать PDF(RAR) [5,5 МБ];

51.Русско-английский однозначный словарь Драгункин и Драгункина|Скачать PDF(RAR) [1,7 МБ];

52. 3000 английских слов повседневного общения всего за пару дней — Л. Акимов|Скачать PDF(RAR) [558 кБ];

53.Кодрант- Словарь Библейских понятий — Слободяник В.|Скачать PDF(RAR) [608 кБ];

54.Современный Энциклопедический словарь |Скачать DOC(RAR) [1,6 МБ];

55.Технический авиационный англо-русский словарь|Скачать PDF(RAR) [2,2 МБ];

56. Новый политехнический словарь|Скачать PDF(RAR) [112,7 МБ];

57.Большой энциклопедический словарь 1999-2000 | Скачать TXT(RAR) [6,3 МБ];

58. Словарь редких и забытых слов В.П. Сомов| Скачать DJVU(RAR) [11,2 МБ];

59.Дизайн. Иллюстрированный словарь-справочник — Минервин| Скачать DJVU(RAR) [9,7 МБ];

60.Информатика. Новый систематизированный толковый словарь-справочник (Ф. С. Воройский)| Скачать DJVU(RAR) [5,6 МБ];

61. Современный толковый словарь |Скачать DOC(RAR) [7,8 МБ] |TXT(RAR) [6,3 МБ] ;

62. Литературный энциклопедический словарь |СкачатьPDF(RAR) [70,2 МБ];

63. Англо-русский словарь Мюллера | Скачать TXT(RAR) [1,9 МБ] | PDF(RAR) [8,2 МБ];

64. Словарь иностранных слов Комлева Н.Г. |Скачать DOC(RAR) [1,1 МБ];

Пароль к архивам: YAXY GROUP

Скачать программу просмотра файлов DJVU можно тут (RAR) [1,8 МБ]

Одной из самых полезных программ на ПК и смартфоне в моем понимании является электронный словарь. В те стародавние времена, когда я учил иностранный язык, каждое слово приходилось искать в бумажном словаре. Эту тривиальную операцию я проделывал сотни раз, а некоторые зловредные слова приходилось смотреть снова и снова, так как я успевал забыть их значение. Как это было обидно! То ли дело сейчас, вжух и перевод перед глазами на экране монитора. История поиска, на случай, если искомое слово не перешло из области кратковременной памяти в долгосрочную.

Читайте также:  Лужа под стиральной машиной причины

Давайте своими силами создадим электронный словарь для программ StarDict / GoldenDict. Для этого может понадобится много, или мало человеко-часов, в зависимости от качества исходного материала.

Шаг первый: OCR

В отличие от альпинизма при оцифровке словаря самый тяжелый шаг, не последний а первый. Если вам придется проводить OCR бумажного словаря с выцветшими страницами, напечатанного слишком мелко, с различными артефактами небрежного использования, или на экзотическом языке, то даже FineReader не сильно поможет. На некоторых страницах разница в длительности времени между ручным набором текста и OCR с корректировкой ошибок ничтожна.

Советую сохранять все в простых текстовых файлах, так как продвинутый поиск и исправление ошибок, расстановка тэгов, преобразование сортировки и прочие операции с текстовым массивом невообразимо осуществлять с бинарным фалом.

На этом шаге важно определиться со структурой словарных статей. В самом простом случае будет всего два поля: ключ и значение. Этого достаточно, но если нужна подсветка различных элементов статей, то тогда потребуется все такие элементы определенным образом маркировать.

Самое время немного поговорить о форматах. Существует много форматов электронных словарей, вот их список.

Все форматы мы здесь разбирать не будем, так как большинство из них проприетарные. Нас интересуют открытые стандарты и открытое ПО.

Dictd

Возникший в эпоху, когда сетевые TCP/IP протоколы беспрепятственно плодились и размножались dictd сейчас представляет лишь археологический интерес. Это клиент серверный протокол, использующий TCP порт 2628, определен в RFC 2229.

Исходный файл для словаря форматируется следующим образом.

Готовый файл для словаря создается командой dictfmt .

В результате образуются 2 файла: dict-name.index и dict-name.dict . Из них первый очевидно индексный файл, с ним ничего делать не нужно, а второй можно сжать командой dictzip . Данная команда сжимает *.dict файл с помощью утилиты gzip . Сразу же возникает вопрос: а зачем оно тогда нужно, если есть обычный gzip ?

Дело в том, что dictzip использует добавочные байты в заголовке архивного файлы для обеспечения псевдо-произвольного доступа к файлу.

Наконец файлы помещаются в профильные каталоги, т. к. /usr/lib/dict , перезагружаем службу dictd и вуаля. Синтаксис поиска прост, достаточно набрать

Пробежка по dictd ссылкам напоминает сафари по интернет сети 90-х, жив и еще лягается!

Sdict

Дерзкая попытка Алексея Семенова изменить мир к лучшему с помощью магии Perl в ту пору, когда Microsoft еще не крутил шашни с Linux и сообществом открытого ПО, а основной источник словарей были пиратки ABBYY Lingvo.

Заголовок исходного файла словаря.

Тело форматировано следующим образом:

Можно качнуть версию для ОС Symbian, если что. Проект более не жив, и даже сами словари можно почерпнуть лишь с Машины Времени.

Ну все, завязываем с археологией и переходим к словарным форматам и программам годным для использования IRL.

XDXF имеет все преимущества и недостатки XML формата, каковым и является. Весь синтаксис формата и примеры можно обозреть тут.

Читайте также:  Как узнать параметры айфона

Скелет словарного файла выгладит следующим образом, состоит из 2-х частей: meta_info и lexicon .

Есть огромное количество словарей в этом формате. Большим достоинством формата является то, что далее нет надобности ничего конвертировать. Программа GoldenDict распознает XDXF файлы наряду с большим количеством других поддерживаемых форматов.

TSV / StarDict

StarDict и клоны его это не столько про формат электронного словаря, сколько про качественное ПО просмотра, конвертации и создания таковых.

Для создания электронного словаря с помощью StarDict достаточно TSV файла, что я и выбрал для цифровой копии армяно-русского словаря.

Тем не менее возможно и кое-какое форматирования и разметка файла словаря, однако не идет ни в какое сравнение с XDXF .

Формат определяет символ переноса строки
, в том случае, когда статья разбита на параграфы.

После первого шага скорее всего будут десятки, а то и сотни орфографических, грамматических и всяких прочих ошибок, странных символов и прочих артефактов OCR.

Особенность словарей в том, что проверка орфографии нужна одновременно по двум языкам. Даже сейчас в 2018-м удивительно мало текстовых редакторов и даже офисных пакетов умеют это нехитрое действие выполнять.

Не холивара для, рекомендую обработку теска производить с Vim. Если ваш любимый текстовый редактор справляется с этим не хуже, то и славно. С Vim достаточно команды.

для проверки орфографии по двум словарям, в данном случае русском и английском. Далее список граблей.

  • Сортировка текста работает абы как для не латинских локалей, особенно плохо там, где написание буквы требует более одного символа, как армянская ու = ո + ւ . Необходимо в таких случаях самостоятельно сортировать список слов с помощью простенького Perl, или иного скрипта.
  • Поиск по шаблону также может работать неожиданно для некоторых локалей, даже если сам текст и консоль в UTF-8.
  • При оцифровке печатного словаря нужно быть готовым не только к ошибкам оцифровки, но и ошибкам в самом печатном словаре. Их там может содержаться немало!
  • Если название статьи пишется заглавными, то возможно следует перевести при оцифровке в нижний регистр. Не все буквы имеют символы в верхнем регистре, собственно не для всех локалей даже есть верхний регистр.

Для формата XDXF , как уже было сказано, этот шаг не требуется. Просто запихнуть файл в папку /usr/share/goldendict , где программа подхватит его.

Для TSV файла, используется утилита stardict-editor , поставляемого с набором инструментов StarDict.

На выходе программа создает следующие файлы, наподобие древнего Dict.

  1. somedict.ifo
  2. somedict.idx либо somedict.idx.gz
  3. somedict.dict либо somedict.dict.dz
  4. somedict.syn (optional)

Файлы копируются в каталог /ysr/share/stardict/dic и на этом все.

P. S. Для мобильной платформы Android программа GoldenDict внезапно стал платной, однако в интернет сети все еще можно найти последнюю бесплатную версию программы.

Ссылка на основную публикацию
Сервер не поддерживает символы не ascii
Многие из нас пользуются замечательным FTP сервером FileZilla Server. Думаю, не я один столкнулся с проблемой некорректного отображения русских букв...
Ресивер пионер vsx 528
5.1 канальный AV ресивер Pioneer VSX-528 с 6x HDMI, AirPlay, DLNA, MHL, сквозным сигналом Ultra HD 4K и Интернет-радио vTuner....
Ресивер для нтв плюс какой лучше
Телекомпания НТВ‑ПЛЮС гарантирует получение качественных услуг, а также обеспечение корректного доступа к каналам и дополнительным сервисам Телекомпании, только при условии...
Сервера для обновления nod32 бесплатно
Отличие полной версии от триальной Полные (не триальные) антивирусные базы и программные компоненты Eset Antivirus и Eset Smart Security! Отличия...
Adblock detector