2026-1-6
This commit is contained in:
285
venv/Lib/site-packages/whoosh/lang/stopwords.py
Normal file
285
venv/Lib/site-packages/whoosh/lang/stopwords.py
Normal file
@@ -0,0 +1,285 @@
|
||||
# coding=utf-8
|
||||
|
||||
from __future__ import unicode_literals
|
||||
|
||||
# Stopwords Corpus
|
||||
#
|
||||
# This module contains lists of stop words for several languages. These
|
||||
# are high-frequency grammatical words which are usually ignored in text
|
||||
# retrieval applications.
|
||||
#
|
||||
# They were obtained from:
|
||||
# anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/
|
||||
|
||||
|
||||
# =====
|
||||
# This module was generated from the original files using the following script
|
||||
|
||||
#import os.path
|
||||
#import textwrap
|
||||
#
|
||||
#names = os.listdir("stopwords")
|
||||
#for name in names:
|
||||
# f = open("stopwords/" + name)
|
||||
# wordls = [line.strip() for line in f]
|
||||
# words = " ".join(wordls)
|
||||
# print '"%s": frozenset(u"""' % name
|
||||
# print textwrap.fill(words, 72)
|
||||
# print '""".split())'
|
||||
# print
|
||||
|
||||
|
||||
stoplists = {
|
||||
"da": frozenset("""
|
||||
og i jeg det at en den til er som på de med han af for ikke der var mig
|
||||
sig men et har om vi min havde ham hun nu over da fra du ud sin dem os
|
||||
op man hans hvor eller hvad skal selv her alle vil blev kunne ind når
|
||||
være dog noget ville jo deres efter ned skulle denne end dette mit
|
||||
også under have dig anden hende mine alt meget sit sine vor mod disse
|
||||
hvis din nogle hos blive mange ad bliver hendes været thi jer sådan
|
||||
""".split()),
|
||||
|
||||
"nl": frozenset("""
|
||||
de en van ik te dat die in een hij het niet zijn is was op aan met als
|
||||
voor had er maar om hem dan zou of wat mijn men dit zo door over ze zich
|
||||
bij ook tot je mij uit der daar haar naar heb hoe heeft hebben deze u
|
||||
want nog zal me zij nu ge geen omdat iets worden toch al waren veel meer
|
||||
doen toen moet ben zonder kan hun dus alles onder ja eens hier wie werd
|
||||
altijd doch wordt wezen kunnen ons zelf tegen na reeds wil kon niets uw
|
||||
iemand geweest andere
|
||||
""".split()),
|
||||
|
||||
"en": frozenset("""
|
||||
i me my myself we our ours ourselves you your yours yourself yourselves
|
||||
he him his himself she her hers herself it its itself they them their
|
||||
theirs themselves what which who whom this that these those am is are
|
||||
was were be been being have has had having do does did doing a an the
|
||||
and but if or because as until while of at by for with about against
|
||||
between into through during before after above below to from up down in
|
||||
out on off over under again further then once here there when where why
|
||||
how all any both each few more most other some such no nor not only own
|
||||
same so than too very s t can will just don should now
|
||||
""".split()),
|
||||
|
||||
"fi": frozenset("""
|
||||
olla olen olet on olemme olette ovat ole oli olisi olisit olisin
|
||||
olisimme olisitte olisivat olit olin olimme olitte olivat ollut olleet
|
||||
en et ei emme ette eivät minä minun minut minua minussa minusta minuun
|
||||
minulla minulta minulle sinä sinun sinut sinua sinussa sinusta sinuun
|
||||
sinulla sinulta sinulle hän hänen hänet häntä hänessä hänestä
|
||||
häneen hänellä häneltä hänelle me meidän meidät meitä meissä
|
||||
meistä meihin meillä meiltä meille te teidän teidät teitä teissä
|
||||
teistä teihin teillä teiltä teille he heidän heidät heitä heissä
|
||||
heistä heihin heillä heiltä heille tämä tämän tätä tässä
|
||||
tästä tähän tallä tältä tälle tänä täksi tuo tuon tuotä
|
||||
tuossa tuosta tuohon tuolla tuolta tuolle tuona tuoksi se sen sitä
|
||||
siinä siitä siihen sillä siltä sille sinä siksi nämä näiden
|
||||
näitä näissä näistä näihin näillä näiltä näille näinä
|
||||
näiksi nuo noiden noita noissa noista noihin noilla noilta noille noina
|
||||
noiksi ne niiden niitä niissä niistä niihin niillä niiltä niille
|
||||
niinä niiksi kuka kenen kenet ketä kenessä kenestä keneen kenellä
|
||||
keneltä kenelle kenenä keneksi ketkä keiden ketkä keitä keissä
|
||||
keistä keihin keillä keiltä keille keinä keiksi mikä minkä minkä
|
||||
mitä missä mistä mihin millä miltä mille minä miksi mitkä joka
|
||||
jonka jota jossa josta johon jolla jolta jolle jona joksi jotka joiden
|
||||
joita joissa joista joihin joilla joilta joille joina joiksi että ja
|
||||
jos koska kuin mutta niin sekä sillä tai vaan vai vaikka kanssa mukaan
|
||||
noin poikki yli kun niin nyt itse
|
||||
""".split()),
|
||||
|
||||
"fr": frozenset("""
|
||||
au aux avec ce ces dans de des du elle en et eux il je la le leur lui ma
|
||||
mais me même mes moi mon ne nos notre nous on ou par pas pour qu que
|
||||
qui sa se ses son sur ta te tes toi ton tu un une vos votre vous c d j l
|
||||
à m n s t y été étée étées étés étant étante étants étantes
|
||||
suis es est sommes êtes sont serai seras sera serons serez seront
|
||||
serais serait serions seriez seraient étais était étions étiez
|
||||
étaient fus fut fûmes fûtes furent sois soit soyons soyez soient
|
||||
fusse fusses fût fussions fussiez fussent ayant ayante ayantes ayants
|
||||
eu eue eues eus ai as avons avez ont aurai auras aura aurons aurez
|
||||
auront aurais aurait aurions auriez auraient avais avait avions aviez
|
||||
avaient eut eûmes eûtes eurent aie aies ait ayons ayez aient eusse
|
||||
eusses eût eussions eussiez eussent
|
||||
""".split()),
|
||||
|
||||
"de": frozenset("""
|
||||
aber alle allem allen aller alles als also am an ander andere anderem
|
||||
anderen anderer anderes anderm andern anderr anders auch auf aus bei bin
|
||||
bis bist da damit dann der den des dem die das daß derselbe derselben
|
||||
denselben desselben demselben dieselbe dieselben dasselbe dazu dein
|
||||
deine deinem deinen deiner deines denn derer dessen dich dir du dies
|
||||
diese diesem diesen dieser dieses doch dort durch ein eine einem einen
|
||||
einer eines einig einige einigem einigen einiger einiges einmal er ihn
|
||||
ihm es etwas euer eure eurem euren eurer eures für gegen gewesen hab
|
||||
habe haben hat hatte hatten hier hin hinter ich mich mir ihr ihre ihrem
|
||||
ihren ihrer ihres euch im in indem ins ist jede jedem jeden jeder jedes
|
||||
jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner
|
||||
keines können könnte machen man manche manchem manchen mancher manches
|
||||
mein meine meinem meinen meiner meines mit muss musste nach nicht nichts
|
||||
noch nun nur ob oder ohne sehr sein seine seinem seinen seiner seines
|
||||
selbst sich sie ihnen sind so solche solchem solchen solcher solches
|
||||
soll sollte sondern sonst über um und uns unse unsem unsen unser unses
|
||||
unter viel vom von vor während war waren warst was weg weil weiter
|
||||
welche welchem welchen welcher welches wenn werde werden wie wieder will
|
||||
wir wird wirst wo wollen wollte würde würden zu zum zur zwar zwischen
|
||||
""".split()),
|
||||
|
||||
"hu": frozenset("""
|
||||
a ahogy ahol aki akik akkor alatt által általában amely amelyek
|
||||
amelyekben amelyeket amelyet amelynek ami amit amolyan amíg amikor át
|
||||
abban ahhoz annak arra arról az azok azon azt azzal azért aztán
|
||||
azután azonban bár be belül benne cikk cikkek cikkeket csak de e
|
||||
eddig egész egy egyes egyetlen egyéb egyik egyre ekkor el elég ellen
|
||||
elõ elõször elõtt elsõ én éppen ebben ehhez emilyen ennek erre ez
|
||||
ezt ezek ezen ezzel ezért és fel felé hanem hiszen hogy hogyan igen
|
||||
így illetve ill. ill ilyen ilyenkor ison ismét itt jó jól jobban
|
||||
kell kellett keresztül keressünk ki kívül között közül legalább
|
||||
lehet lehetett legyen lenne lenni lesz lett maga magát majd majd már
|
||||
más másik meg még mellett mert mely melyek mi mit míg miért milyen
|
||||
mikor minden mindent mindenki mindig mint mintha mivel most nagy nagyobb
|
||||
nagyon ne néha nekem neki nem néhány nélkül nincs olyan ott össze
|
||||
õ õk õket pedig persze rá s saját sem semmi sok sokat sokkal
|
||||
számára szemben szerint szinte talán tehát teljes tovább továbbá
|
||||
több úgy ugyanis új újabb újra után utána utolsó vagy vagyis
|
||||
valaki valami valamint való vagyok van vannak volt voltam voltak
|
||||
voltunk vissza vele viszont volna
|
||||
""".split()),
|
||||
|
||||
"it": frozenset("""
|
||||
ad al allo ai agli all agl alla alle con col coi da dal dallo dai dagli
|
||||
dall dagl dalla dalle di del dello dei degli dell degl della delle in
|
||||
nel nello nei negli nell negl nella nelle su sul sullo sui sugli sull
|
||||
sugl sulla sulle per tra contro io tu lui lei noi voi loro mio mia miei
|
||||
mie tuo tua tuoi tue suo sua suoi sue nostro nostra nostri nostre vostro
|
||||
vostra vostri vostre mi ti ci vi lo la li le gli ne il un uno una ma ed
|
||||
se perché anche come dov dove che chi cui non più quale quanto quanti
|
||||
quanta quante quello quelli quella quelle questo questi questa queste si
|
||||
tutto tutti a c e i l o ho hai ha abbiamo avete hanno abbia abbiate
|
||||
abbiano avrò avrai avrà avremo avrete avranno avrei avresti avrebbe
|
||||
avremmo avreste avrebbero avevo avevi aveva avevamo avevate avevano ebbi
|
||||
avesti ebbe avemmo aveste ebbero avessi avesse avessimo avessero avendo
|
||||
avuto avuta avuti avute sono sei è siamo siete sia siate siano sarò
|
||||
sarai sarà saremo sarete saranno sarei saresti sarebbe saremmo sareste
|
||||
sarebbero ero eri era eravamo eravate erano fui fosti fu fummo foste
|
||||
furono fossi fosse fossimo fossero essendo faccio fai facciamo fanno
|
||||
faccia facciate facciano farò farai farà faremo farete faranno farei
|
||||
faresti farebbe faremmo fareste farebbero facevo facevi faceva facevamo
|
||||
facevate facevano feci facesti fece facemmo faceste fecero facessi
|
||||
facesse facessimo facessero facendo sto stai sta stiamo stanno stia
|
||||
stiate stiano starò starai starà staremo starete staranno starei
|
||||
staresti starebbe staremmo stareste starebbero stavo stavi stava stavamo
|
||||
stavate stavano stetti stesti stette stemmo steste stettero stessi
|
||||
stesse stessimo stessero stando
|
||||
""".split()),
|
||||
|
||||
"no": frozenset("""
|
||||
og i jeg det at en et den til er som på de med han av ikke ikkje der
|
||||
så var meg seg men ett har om vi min mitt ha hadde hun nå over da ved
|
||||
fra du ut sin dem oss opp man kan hans hvor eller hva skal selv sjøl
|
||||
her alle vil bli ble blei blitt kunne inn når være kom noen noe ville
|
||||
dere som deres kun ja etter ned skulle denne for deg si sine sitt mot å
|
||||
meget hvorfor dette disse uten hvordan ingen din ditt blir samme hvilken
|
||||
hvilke sånn inni mellom vår hver hvem vors hvis både bare enn fordi
|
||||
før mange også slik vært være båe begge siden dykk dykkar dei deira
|
||||
deires deim di då eg ein eit eitt elles honom hjå ho hoe henne hennar
|
||||
hennes hoss hossen ikkje ingi inkje korleis korso kva kvar kvarhelst
|
||||
kven kvi kvifor me medan mi mine mykje no nokon noka nokor noko nokre si
|
||||
sia sidan so somt somme um upp vere vore verte vort varte vart
|
||||
""".split()),
|
||||
|
||||
"pt": frozenset("""
|
||||
de a o que e do da em um para com não uma os no se na por mais as dos
|
||||
como mas ao ele das à seu sua ou quando muito nos já eu também só
|
||||
pelo pela até isso ela entre depois sem mesmo aos seus quem nas me esse
|
||||
eles você essa num nem suas meu às minha numa pelos elas qual nós lhe
|
||||
deles essas esses pelas este dele tu te vocês vos lhes meus minhas teu
|
||||
tua teus tuas nosso nossa nossos nossas dela delas esta estes estas
|
||||
aquele aquela aqueles aquelas isto aquilo estou está estamos estão
|
||||
estive esteve estivemos estiveram estava estávamos estavam estivera
|
||||
estivéramos esteja estejamos estejam estivesse estivéssemos estivessem
|
||||
estiver estivermos estiverem hei há havemos hão houve houvemos
|
||||
houveram houvera houvéramos haja hajamos hajam houvesse houvéssemos
|
||||
houvessem houver houvermos houverem houverei houverá houveremos
|
||||
houverão houveria houveríamos houveriam sou somos são era éramos
|
||||
eram fui foi fomos foram fora fôramos seja sejamos sejam fosse
|
||||
fôssemos fossem for formos forem serei será seremos serão seria
|
||||
seríamos seriam tenho tem temos tém tinha tínhamos tinham tive teve
|
||||
tivemos tiveram tivera tivéramos tenha tenhamos tenham tivesse
|
||||
tivéssemos tivessem tiver tivermos tiverem terei terá teremos terão
|
||||
teria teríamos teriam
|
||||
""".split()),
|
||||
|
||||
"ru": frozenset("""
|
||||
и в во не что он на я с со как а то все она
|
||||
так его но да ты к у же вы за бы по только
|
||||
ее мне было вот от меня еще нет о из ему
|
||||
теперь когда даже ну вдруг ли если уже
|
||||
или ни быть был него до вас нибудь опять
|
||||
уж вам ведь там потом себя ничего ей
|
||||
может они тут где есть надо ней для мы
|
||||
тебя их чем была сам чтоб без будто чего
|
||||
раз тоже себе под будет ж тогда кто этот
|
||||
того потому этого какой совсем ним
|
||||
здесь этом один почти мой тем чтобы нее
|
||||
сейчас были куда зачем всех никогда
|
||||
можно при наконец два об другой хоть
|
||||
после над больше тот через эти нас про
|
||||
всего них какая много разве три эту моя
|
||||
впрочем хорошо свою этой перед иногда
|
||||
лучше чуть том нельзя такой им более
|
||||
всегда конечно всю между
|
||||
""".split()),
|
||||
|
||||
"es": frozenset("""
|
||||
de la que el en y a los del se las por un para con no una su al lo como
|
||||
más pero sus le ya o este sí porque esta entre cuando muy sin sobre
|
||||
también me hasta hay donde quien desde todo nos durante todos uno les
|
||||
ni contra otros ese eso ante ellos e esto mí antes algunos qué unos yo
|
||||
otro otras otra él tanto esa estos mucho quienes nada muchos cual poco
|
||||
ella estar estas algunas algo nosotros mi mis tú te ti tu tus ellas
|
||||
nosotras vosostros vosostras os mío mía míos mías tuyo tuya tuyos
|
||||
tuyas suyo suya suyos suyas nuestro nuestra nuestros nuestras vuestro
|
||||
vuestra vuestros vuestras esos esas estoy estás está estamos estáis
|
||||
están esté estés estemos estéis estén estaré estarás estará
|
||||
estaremos estaréis estarán estaría estarías estaríamos estaríais
|
||||
estarían estaba estabas estábamos estabais estaban estuve estuviste
|
||||
estuvo estuvimos estuvisteis estuvieron estuviera estuvieras
|
||||
estuviéramos estuvierais estuvieran estuviese estuvieses estuviésemos
|
||||
estuvieseis estuviesen estando estado estada estados estadas estad he
|
||||
has ha hemos habéis han haya hayas hayamos hayáis hayan habré habrás
|
||||
habrá habremos habréis habrán habría habrías habríamos habríais
|
||||
habrían había habías habíamos habíais habían hube hubiste hubo
|
||||
hubimos hubisteis hubieron hubiera hubieras hubiéramos hubierais
|
||||
hubieran hubiese hubieses hubiésemos hubieseis hubiesen habiendo habido
|
||||
habida habidos habidas soy eres es somos sois son sea seas seamos seáis
|
||||
sean seré serás será seremos seréis serán sería serías seríamos
|
||||
seríais serían era eras éramos erais eran fui fuiste fue fuimos
|
||||
fuisteis fueron fuera fueras fuéramos fuerais fueran fuese fueses
|
||||
fuésemos fueseis fuesen sintiendo sentido sentida sentidos sentidas
|
||||
siente sentid tengo tienes tiene tenemos tenéis tienen tenga tengas
|
||||
tengamos tengáis tengan tendré tendrás tendrá tendremos tendréis
|
||||
tendrán tendría tendrías tendríamos tendríais tendrían tenía
|
||||
tenías teníamos teníais tenían tuve tuviste tuvo tuvimos tuvisteis
|
||||
tuvieron tuviera tuvieras tuviéramos tuvierais tuvieran tuviese
|
||||
tuvieses tuviésemos tuvieseis tuviesen teniendo tenido tenida tenidos
|
||||
tenidas tened
|
||||
""".split()),
|
||||
|
||||
"sv": frozenset("""
|
||||
och det att i en jag hon som han på den med var sig för så till är
|
||||
men ett om hade de av icke mig du henne då sin nu har inte hans honom
|
||||
skulle hennes där min man ej vid kunde något från ut när efter upp
|
||||
vi dem vara vad över än dig kan sina här ha mot alla under någon
|
||||
eller allt mycket sedan ju denna själv detta åt utan varit hur ingen
|
||||
mitt ni bli blev oss din dessa några deras blir mina samma vilken er
|
||||
sådan vår blivit dess inom mellan sådant varför varje vilka ditt vem
|
||||
vilket sitta sådana vart dina vars vårt våra ert era vilkas
|
||||
""".split()),
|
||||
|
||||
"tr": frozenset("""
|
||||
acaba ama aslında az bazı belki biri birkaç birşey biz bu çok
|
||||
çünkü da daha de defa diye eğer en gibi hem hep hepsi her hiç için
|
||||
ile ise kez ki kim mı mu mü nasıl ne neden nerde nerede nereye niçin
|
||||
niye o sanki şey siz şu tüm ve veya ya yani
|
||||
""".split()),
|
||||
}
|
||||
Reference in New Issue
Block a user