-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathindex.html
More file actions
130 lines (127 loc) · 7.25 KB
/
index.html
File metadata and controls
130 lines (127 loc) · 7.25 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, user-scalable=no">
<title>PolySE Presentation</title>
<link rel="stylesheet" href="dist/reset.css">
<link rel="stylesheet" href="dist/reveal.css">
<link rel="stylesheet" href="dist/theme/black.css" id="theme">
<link rel="stylesheet" href="plugin/highlight/monokai.css" id="highlight-theme">
<link rel="icon" type="image/png" href="images/logo.png" />
</head>
<body>
<div class="reveal">
<div class="slides">
<section data-background-image="images/logo.png">
<h2>Polytech Search Engine</h2>
<aside class="notes">
Я Дружинин Арсений, представляю команду поисковика по новостям.
</aside>
</section>
<section>
<section>
<h2>Цель проекта 😎</h2>
</section>
<section>
<p>Целью проекта являлось написание сервиса для поиска релевантых сайтов и статей по поисковым словам.</p>
<p>В некотором роде идеей нашего проекта было написать...</p>
</section>
<section data-background-image="images/killer.gif">
<h3>убийцу "Яндекс.Новостей"<h3>
</section>
</section>
<section>
<section>
<h2>Что мы сделали? 🤔</h2>
</section>
<section id="fragments">
<p>
<b>Наш проект длился почти два месяца. За это время мы:</b>
</p>
<p class="fragment fade-in-then-semi-out">Разработали поисковую базу данных, поддерживающую вставку, фильтрацию и поиск сайтов по релевантным словам</p>
<p class="fragment fade-in-then-semi-out">Разработали поискового паука, который умеет обходить заданные страницы в интернете и доставать из них только полезное содержимое</p>
<p class="fragment fade-in-then-semi-out">Разработали пользовательский интерфейс для нашего сервиса</p>
</section>
</section>
<section>
<section id="fragments">
<h2>Что мы не сделали? 😢</h2>
<p class="fragment">но надеемся доделать</p>
</section>
<section>
<ul>
<li>Поддержка коллекций в базе данных</li>
<li>Более умные и быстрые алгоритмы поиска релевантных сайтов</li>
<li>Машинное обучение для улучшения фильтрации полезного содержимого сайта</li>
<li>Более удобная логика для добавления новых сайтов для индексирования</li>
<li>Пагинация результатов</li>
</ul>
</section>
</section>
<section>
<section>
<h2>Техническое описание 🤖</h2>
</section>
<section data-background="#dddddd" data-background-transition="zoom">
<p>Диаграмма проекта</p>
<img data-src="images/polyse.png">
<aside class="notes">
PolySE Spider - класер пауков обходящий сайты в поисках полезного содержимого.
Мы отправляем запрос к кластеру пауков на обработку сайта.
Как только один из инстансов паука заходит на указанный url, он атомарно записывает в Redis, что страница с заданным URL взята на индексацию.
После того, как содержимое сайта было извлечено, так же мы извлекаем даты, оно записывается в очередь сообщений RabbitMQ.
Далее у нас стоит PolySE Listner, который в свою очередь прослушивает RabbitMQ и как только накапливается достаточное количество сообщений либо по таймауту, Listener отправляет пачку данных для записи в базу данных PolySE Database. В свою очередь, база данных с помощью заданным фильтров, таких как фильтрация стоп слов и стемминг, обрабатывает и сохраняет входящие данные.
Пользователь в свою очередь может зайти на наш фронтенд (PolySE Frontend), и ввести ключевые слова, по которым он хочет найти подходящие ему статьи. С помощью разработанной нами SDK для PolySE DB, мы отправляем запрос на поиск в базе данных. База данных так же фильтрует запрос и возвращает список URL всех подходящих статей, отсортированный по дате либо написания либо добавления в наш сервис (при отсутсвии даты написания).
</aside>
</section>
</section>
<section>
<section>
<h2>О нас 😉</h2>
</section>
<section>
<ul>
<li>
Никита Герасимов - Product Manager - Team Guru - <a href="https://github.com/tariel-x">https://github.com/tariel-x </a>
</li>
<li>
Кирилл Кудинов - Developer - <a href="https://github.com/KudinovKV">https://github.com/KudinovKV</a>
</li>
<li>
Никита Кузьмин - Developer - <a href="https://github.com/K1ta">https://github.com/K1ta</a>
</li>
<li>
Иван Тарасов - Developer - <a href="https://github.com/TarIvAl">https://github.com/TarIvAl</a>
</li>
<li>
Анна Брусницина - Developer - <a href="https://github.com/AnBrusn">https://github.com/AnBrusn</a>
</li>
<li>
Арсений Дружинин - Developer - <a href="https://github.com/senyast4745">https://github.com/senyast4745</a>
</li>
</ul>
</section>
</section>
<section style="text-align: left;">
<h1>Конец 🎉</h1>
<p>
- <a href="http://polyse.online">Ссылка на сервис</a> <br>
- <a href="https://github.com/polyse">Source code & documentation</a>
</p>
</section>
</div>
</div>
<script src="dist/reveal.js"></script>
<script src="plugin/zoom/zoom.js"></script>
<script src="plugin/notes/notes.js"></script>
<script src="plugin/markdown/markdown.js"></script>
<script src="plugin/highlight/highlight.js"></script>
<script>
Reveal.initialize({
hash: true,
plugins: [ RevealMarkdown, RevealHighlight, RevealNotes ]
});
</script>
</body>
</html>