Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
825 changes: 825 additions & 0 deletions ArunavD/nltk_test/.ipynb_checkpoints/nltk_run.py-checkpoint.ipynb

Large diffs are not rendered by default.

Binary file added ArunavD/nltk_test/nltk_data/corpora/stopwords.zip
Binary file not shown.
32 changes: 32 additions & 0 deletions ArunavD/nltk_test/nltk_data/corpora/stopwords/README
Original file line number Diff line number Diff line change
@@ -0,0 +1,32 @@
Stopwords Corpus

This corpus contains lists of stop words for several languages. These
are high-frequency grammatical words which are usually ignored in text
retrieval applications.

They were obtained from:
http://anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/

The stop words for the Romanian language were obtained from:
http://arlc.ro/resources/

The English list has been augmented
https://github.com/nltk/nltk_data/issues/22

The German list has been corrected
https://github.com/nltk/nltk_data/pull/49

A Kazakh list has been added
https://github.com/nltk/nltk_data/pull/52

A Nepali list has been added
https://github.com/nltk/nltk_data/pull/83

An Azerbaijani list has been added
https://github.com/nltk/nltk_data/pull/100

A Greek list has been added
https://github.com/nltk/nltk_data/pull/103

An Indonesian list has been added
https://github.com/nltk/nltk_data/pull/112
248 changes: 248 additions & 0 deletions ArunavD/nltk_test/nltk_data/corpora/stopwords/arabic
Original file line number Diff line number Diff line change
@@ -0,0 +1,248 @@
إذ
إذا
إذما
إذن
أف
أقل
أكثر
ألا
إلا
التي
الذي
الذين
اللاتي
اللائي
اللتان
اللتيا
اللتين
اللذان
اللذين
اللواتي
إلى
إليك
إليكم
إليكما
إليكن
أم
أما
أما
إما
أن
إن
إنا
أنا
أنت
أنتم
أنتما
أنتن
إنما
إنه
أنى
أنى
آه
آها
أو
أولاء
أولئك
أوه
آي
أي
أيها
إي
أين
أين
أينما
إيه
بخ
بس
بعد
بعض
بك
بكم
بكم
بكما
بكن
بل
بلى
بما
بماذا
بمن
بنا
به
بها
بهم
بهما
بهن
بي
بين
بيد
تلك
تلكم
تلكما
ته
تي
تين
تينك
ثم
ثمة
حاشا
حبذا
حتى
حيث
حيثما
حين
خلا
دون
ذا
ذات
ذاك
ذان
ذانك
ذلك
ذلكم
ذلكما
ذلكن
ذه
ذو
ذوا
ذواتا
ذواتي
ذي
ذين
ذينك
ريث
سوف
سوى
شتان
عدا
عسى
عل
على
عليك
عليه
عما
عن
عند
غير
فإذا
فإن
فلا
فمن
في
فيم
فيما
فيه
فيها
قد
كأن
كأنما
كأي
كأين
كذا
كذلك
كل
كلا
كلاهما
كلتا
كلما
كليكما
كليهما
كم
كم
كما
كي
كيت
كيف
كيفما
لا
لاسيما
لدى
لست
لستم
لستما
لستن
لسن
لسنا
لعل
لك
لكم
لكما
لكن
لكنما
لكي
لكيلا
لم
لما
لن
لنا
له
لها
لهم
لهما
لهن
لو
لولا
لوما
لي
لئن
ليت
ليس
ليسا
ليست
ليستا
ليسوا
ما
ماذا
متى
مذ
مع
مما
ممن
من
منه
منها
منذ
مه
مهما
نحن
نحو
نعم
ها
هاتان
هاته
هاتي
هاتين
هاك
هاهنا
هذا
هذان
هذه
هذي
هذين
هكذا
هل
هلا
هم
هما
هن
هنا
هناك
هنالك
هو
هؤلاء
هي
هيا
هيت
هيهات
والذي
والذين
وإذ
وإذا
وإن
ولا
ولكن
ولو
وما
ومن
وهو
يا
Loading