01Соберите статистику по параграфам текста. Для этого разбейте текст на параграфы, а затем на предложения с помощью класса BreakIterator.
Исходный код
/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные
/gfs/bigdata-course/datasets/text
Вид вывода
количество предложений
количество параграфов с таким количеством предложений
...
...
Задание X2
02Соберите статистику по предложениям. Для этого разбейте текст на предложения
с помощью класса BreakIterator, и посчитайте количество строк файла, которое
занимает каждое предложение.
Исходный код
/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные
/gfs/bigdata-course/datasets/text
Вид вывода
количество строк файла
количество предложений с таким количеством строк
...
...
Задание X3
05Соберите статистику по связующим словам. Для этого разбейте текст на предложения с помошью класса BreakIterator. Затем для каждой пары
предложений, идущих друг за другом, найдите слова, которые присутствуют в обоих предложениях, исключая стоп-слова, предлоги и т.п. (Для разбиения
предложения на слова используйте библиотеку Lucene.) Далее посчитайте
количество раз, которое встречается то или иное связующее слово. Результатом
работы программы должна стать таблица следующего вида.
Исходный код
/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/wordcount
Входные данные
/gfs/bigdata-course/datasets/text
Вид вывода
связующее слово
количество связок с таким словом
...
...
Задание X4
03Соберите статистику по неудачным входам в систему. Для этого извлеките из системного журнала время неудачного входа в систему, имя пользователя и
IP-адрес. Вас интересуют строчки следующего вида.
Oct 12 05:03:09 m12 sshd[11491]: Failed password for root from 122.225.109.119 port 55105 ssh2
Oct 14 01:56:34 m12 sshd[31698]: Failed password for invalid user ts from 186.42.173.203 port 57210 ssh2
Затем найдите IP-адреса, с которых было осуществлено по крайней мере три неудачных входа в течении 10 минут.
В качестве временной метки можно взять любое значение времени из интервала,
на котором было осуществлено нужное количество неудачных входов.
Исходный код
/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/logs
Входные данные
/gfs/bigdata-course/datasets/auth-logs-test
Вид вывода
IP-адрес, временная метка
количество неудачных входов
...
...
Задание X5
04Соберите статистику по удачным и неудачным входам в систему. Для этого
извлеките из системного журнала количество удачных и неудачных входов за конкретный день недели (понедельник, вторник и т.д.). Вас интересуют строчки
следующего вида.
Oct 16 14:38:47 m12 sshd[19558]: Accepted password for drak_kin from 172.27.216.121 port 55594 ssh2
Oct 20 23:18:03 m12 sshd[13130]: Accepted publickey for root from 172.27.216.165 port 45704 ssh2
Oct 12 05:03:09 m12 sshd[11491]: Failed password for root from 122.225.109.119 port 55105 ssh2
Oct 14 01:56:34 m12 sshd[31698]: Failed password for invalid user ts from 186.42.173.203 port 57210 ssh2
Исходный код
/gfs/bigdata-course/code/hadoop/wordcount
/gfs/bigdata-course/code/spark/logs
Входные данные
/gfs/bigdata-course/datasets/auth-logs-test
Вид вывода
день недели
количество удачных входов, количество неудачных входов