24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна.
Подробности случившегося. Мы призываем всех неравнодушных
помочь нам с восстановлением утраченного контента!
В этом треде мы будем выкладывать результаты экспериментов по лингвистическому анализу досок сосача.
Дано:
- JSON API макабы
- Python
- NLTK
- филологическое образование
- EDX 6.00.1x & 6.00.2x
Что уже сделано:
- рабочая, хоть и примитивная объектная модель доски, тредов и постов, а также метод ее наполнения через джсон апи
- ежедневный дамп /б/ пока в текстовом режиме, думаем дампать джсон или при помощи python pickle
- процедура по подготовке текста и превращению его в текст NLTK токенизация, удаление стоп-слов, спецсимволов и прочего мусора
- генерация частотного словаря
- некоторые меры по адаптации функционала NLTK для работы с юникодом.
В тред призываются мамкины аналитики, лингвисты, кодеры и просто все заинтересованные. Принимаются пожелания. Обертка к апи сосача и код анализатора, возможно, будут выложены на гитхаб.