Дополнительные задания

Задание X1

01Соберите статистику по параграфам текста. Для этого разбейте текст на параграфы, а затем на предложения с помощью класса BreakIterator.

Исходный код/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные/gfs/bigdata-course/datasets/text
Вид вывода
количество предложенийколичество параграфов с таким количеством предложений
......

Задание X2

02Соберите статистику по предложениям. Для этого разбейте текст на предложения с помощью класса BreakIterator, и посчитайте количество строк файла, которое занимает каждое предложение.

Исходный код/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные/gfs/bigdata-course/datasets/text
Вид вывода
количество строк файлаколичество предложений с таким количеством строк
......

Задание X3

05Соберите статистику по связующим словам. Для этого разбейте текст на предложения с помошью класса BreakIterator. Затем для каждой пары предложений, идущих друг за другом, найдите слова, которые присутствуют в обоих предложениях, исключая стоп-слова, предлоги и т.п. (Для разбиения предложения на слова используйте библиотеку Lucene.) Далее посчитайте количество раз, которое встречается то или иное связующее слово. Результатом работы программы должна стать таблица следующего вида.

Исходный код/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные/gfs/bigdata-course/datasets/text
Вид вывода
связующее словоколичество связок с таким словом
......

Задание X4

03Соберите статистику по неудачным входам в систему. Для этого извлеките из системного журнала время неудачного входа в систему, имя пользователя и IP-адрес. Вас интересуют строчки следующего вида.

Oct 12 05:03:09 m12 sshd[11491]: Failed password for root from 122.225.109.119 port 55105 ssh2
Oct 14 01:56:34 m12 sshd[31698]: Failed password for invalid user ts from 186.42.173.203 port 57210 ssh2
Затем найдите IP-адреса, с которых было осуществлено по крайней мере три неудачных входа в течении 10 минут. В качестве временной метки можно взять любое значение времени из интервала, на котором было осуществлено нужное количество неудачных входов.
Исходный код/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/logs
Входные данные/gfs/bigdata-course/datasets/auth-logs-test
Вид вывода
IP-адрес, временная меткаколичество неудачных входов
......

Задание X5

04Соберите статистику по удачным и неудачным входам в систему. Для этого извлеките из системного журнала количество удачных и неудачных входов за конкретный день недели (понедельник, вторник и т.д.). Вас интересуют строчки следующего вида.

Oct 16 14:38:47 m12 sshd[19558]: Accepted password for drak_kin from 172.27.216.121 port 55594 ssh2
Oct 20 23:18:03 m12 sshd[13130]: Accepted publickey for root from 172.27.216.165 port 45704 ssh2
Oct 12 05:03:09 m12 sshd[11491]: Failed password for root from 122.225.109.119 port 55105 ssh2
Oct 14 01:56:34 m12 sshd[31698]: Failed password for invalid user ts from 186.42.173.203 port 57210 ssh2
Исходный код/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/logs
Входные данные/gfs/bigdata-course/datasets/auth-logs-test
Вид вывода
день неделиколичество удачных входов, количество неудачных входов
......