Table of Contents
Spokes PL
This page contains the documentation for the Spokes PL conversational search engine. Spokes PL currently gives access to a corpus of 2 319 291 words (247 580 utterances) of conversational Polish, which makes it a unique resource for scholars, researchers and engineers interested in the spoken register of Polish.
Please make sure you cite Spokes properly:
Here is a BibTeX record:
@inproceedings{pezik_spokes_2015, series = {Linköping {Electronic} {Conference} {Proceedings}}, title = {Spokes – a search and exploration service for conversational corpus data}, copyright = {CC-BY-NC}, isbn = {978-91-7685-954-4}, url = {http://www.ep.liu.se/ecp_article/index.en.aspx?issue=116;article=009}, abstract = {Spokes is an online service for conversational corpus data search and exploration, currently developed as part of CLARIN-PL – the Polish CLARIN infrastructure. This paper describes the data sets currently available through Spokes, the architecture of the service and the data and metadata search functionality it provides to its users. We also introduce some of the more experimental features which have been developed to facilitate more advanced research on multimodal conversational corpora.}, booktitle = {Selected {Papers} from {CLARIN} 2014}, publisher = {Linköping University Electronic Press, Linköpings universitet}, author = {Pęzik, Piotr}, year = {2015}, pages = {99--109} }
SlopeQ syntax
Spokes uses the SlopeQ 2 query syntax. The examples below are customized to show how the SlopeQ syntax can be used for searching the Polish conversational data sets we provide through Spokes. For practical reasons the number of examples illustrating each query in this presentation is very limited. However, a link to a page with all the results is given for each query.
Surface queries
This is the simplest type of queries. You input words in plain written form in the query box. The results are occurrences of the particular forms submitted in the query. Compare the query and a selection of results:
# | Left | Match | Right |
---|---|---|---|
1 | ale to nie ale to jest naprawdę niepotrzebne | mamo | |
2 | tak | mamo | przyznam oczywiście |
3 | wiesz co | mamo | zadzwonię za jakieś dwadzieścia minut dobra |
4 | daj mi | mamo | keczupku |
5 | ale | mamo | ale to to jest już prawie czyste ta miska |
Queries of this kind can include a sequence of terms (positions in the query). A series of words is put in query box and the results will show occurrences of the whole sequence, e.g.:
# | Left | Match | Right |
---|---|---|---|
1 | a teraz | wiesz co | jest taka sprawa pan był załatwiać tam ten ten Leszek tak |
2 | latanie bardzo mi się podoba start lądowanie | wiesz co | prawda a później to tak wiesz |
3 | wiesz co | ja skończę ten | |
4 | no | wiesz co | właśnie tak ale są nie podobni wiesz |
5 | no no bo | wiesz co | to nawet jest włóczka taka fajna do takich to musi być |
6 | nie wiem bo | wiesz co | tylko wystawy widziałem że przecenione rzeczy |
7 | no nie wiem właśnie co się stało z tą kasetą ze się | wiesz co | |
8 | wiesz co | że może nie o to chodzi że nie jest taka w naszym wieku | |
9 | Kaśka | wiesz co | w tym są moje włosy nie bierz tego |
10 | wiesz co | ze tak od trzydziestu do pięćdziesięciu |
This type of queries is useful with set phrases and some collocations.
Base form queries
These queries make use of the lexical annotation of the data in the Spokes corpus. The results are the occurrences of different forms of the given word. The query is written in triangular brackets as an equation “lemma=”. After the equation mark you put the base form of the word.
The base form of the word is: the infinitive for verbs, nominative singular for nouns (except for pluralia tantum), nominative singular masculine for adjectives.
# | Left | Match | Right |
---|---|---|---|
1 | to | pal | pierwsza o co ci chodzi |
2 | tutaj | palą | kominkiem |
3 | jak nie palą przecież teraz | palisz | i teraz idź na całe osiem godzin nie pal to bycie tam pokręciło |
4 | ale na jakiś czas ale jak ona codziennie | pali | to |
5 | no skumała nie no bo przecież może | palić | nie tam wszyscy palą |
6 | a paliła i babcia | paliła | i dziadek |
7 | mów dalej bo to kurwa ciekawe jest czemu ja wtedy zioła nie | paliłem |
This kind of query is obviously very useful in languages like Polish where nouns and verbs have numerous grammatical forms. It is a simple way to research the use of the word in all its forms.
Note: some grammatically possible forms of a searched word may not appear in the data.
Note: the results illustrate different meanings of the queried word – compare the first example of palić above with the others.
You may also put several base forms in the query box. The occurrences of combinations of various forms of the words found as a sequence will appear in the results, e.g.
# | Left | Match | Right |
---|---|---|---|
1 | Kaśka dopóki nie będziemy miały internetu to nie | ma szans | |
2 | to tak a bez matury to nie | ma szans | |
3 | dlatego ponieważ opisywali to wszystko że ten ma szanse ten | ma szanse | i i ten wiesz |
4 | przecież jeszcze z planem rozłożonym wiesz mam | mam szansę | zaj spojrzeć wiesz nikt mi nie wyskoczy |
5 | to | miał szansę | być typowany trzy miejsca w klasie do sz przez szkołę na studia |
6 | i trudno było a ja w zakładzie kupiłam bo | miałam szansę | |
7 | misiu nie | mają szansy | żadnej misiu o teraz będzie metalika |
This is a very useful and productive type of queries for investigating particular collocations. The order of the terms in the above query is fixed (see below [link] for queries with any order of the elements).
It is also possible to put a surface form and a base form as two terms in one query. The example shows what forms of the pronoun ja follow the form słuchaj in the corpus:
# | Left | Match | Right |
---|---|---|---|
1 | słuchaj ja | pogadam z nim bo niewykluczone że on tam zna kogoś no | |
2 | słuchaj mnie | czy ty masz może klucz | |
3 | a już ci przody robię ale ty wiesz jak ja siedzę do godziny dziesiątej siedzę i robię na drutach bo | słuchaj mi | się teraz zwaliło roboty |
4 | a to się tak rzadko zdarza żeby było w mieszkaniu takie miejsce na taki pawlacz tutaj było wszystko załadowane ten cały pokój był zagracony rzeczami ja mówię | słuchaj ja | nie wiem gdzie my to pochowamy no i pawlacz rozwiązał sytuacje wszystko się zmieściło |
5 | ale ja nie | słuchaj ja | nie ściągałam urządzeniem |
6 | bo to jest właśnie to że | słuchaj ja | to w ogóle właśnie jak gadam i tak dalej robię z siebie taką niesamowitą językoznawczynię i jeżeli chodzi o akcenty i o metodykę i o to że ona jest taka bardzo mocno British i tak dalej |
Operators
Alternative
This operator is represented by the pipe sign “|”. The words separated by the operator are variants of the query term. The results are occurrences of all of them, e.g.:
# | Left | Match | Right |
---|---|---|---|
1 | Marek kiedyś przejechał pamiętasz nie bo jak byłam mała mama | tutaj | nam przywiozła takiego |
2 | no i mówię ci ciotka dulczyła tutaj ciotka | tu | dulczyła żeby Gośka nakręciła nie |
3 | bo teraz pasjoniści nasi też tu mają że | tutaj | też się uczą podobno y w seminarium tutaj a kto wykłada to nie wiem |
4 | nie wiem czy to jest seminarium czy tylko jest taki po prostu że oni | tu | są mieszkają może |
5 | ale chwileczkę bo późni polecisz a | tu | nic może bym ze trzy kartofle starła i placki |
It is possible to combine more than two options in a query, e.g.:
# | Left | Match | Right |
---|---|---|---|
1 | tak | wokół | rury |
2 | to jest dosyć skomplikowana taka taka dziewczyna zresztą bardzo ładna i dlatego wykorzystuje wszystkich | dookoła | |
3 | obeszliśmy to jeziorko | dokoła | |
4 | odpowiedni robi | wokół | tego a wszystkim zależy urzędasom żeby wiesz tam tego a rzeczywistość jest niestety mało ekologiczna |
5 | i to był taki dom co się | dookoła | chodziło i była taka sypialnia Piotrek z Rafałem byli mali |
The variants in the query can also be base forms. In that case, occurrences of all forms of all the words will appear in the results, e.g.
# | Left | Match | Right |
---|---|---|---|
1 | miśku to o czyją wolność on walczył o wolność | facetów | |
2 | taki obraz taki obraz | kolesia | wyłania się z szałasa opowieści |
3 | on jest taki śmieszny ten | koleś | |
4 | ja współczuję temu | facetowi | |
5 | ogłoszenie | facet | dał ze wynajmie mieszkanie |
6 | no bo później jakichś dwóch | kolesi | było którzy maja chyba dziekankę wzięli i się nie będą bronić no i jeszcze jedną laskę co ten co się broni we wrześniu |
7 | no i jak zaczęła się szafa zgadaliśmy się że | faceci | robią zabudowy okna no to też zrobimy |
8 | Przemek mi opowiadał że jakiś | koleś | podrabiał pięciozłotówki nie i nie wiedzą teraz co z nim zrobić bo okazało się za za te monety płacił dzieciom za posiłki w szkole no i normalnie za podrabianie pieniędzy jest dożywocie ponoć |
As the examples show, the most natural application of such queries is with synonymic words.
It is also possible to use the alternative operator for one of the terms in a longer query. In the example below, the results are occurrences of the sequences:
# | Left | Match | Right |
---|---|---|---|
1 | o na tym podwórzu to było tyle dzieci i było tyle tylu tych lokatorów nie było tak znowuż | bardzo dużo | |
2 | tych banków to | bardzo dużo | w Kaliszu jest czy w Łodzi też tyle jest |
3 | francuski nie dużo jest | bardzo dużo | |
4 | teraz dopiero odkryłem że nawet zdaje się wiesz zanim się wyrwiesz z gdzieś za miasto to musisz przejechać tutaj kurde w tym smrodzie dymie tymi ulicami | strasznie dużo | |
5 | strasznie dużo | szkód im ten pies robi taki | |
6 | strasznie dużo | książek macie |
Slop factor
This important functionality allows to search for a discontinuous string of words. The query specifies how many words may intervene between the terms of the query. This parameter is known as the slop factor and it is now set in the search menu, e.g.:
# | Left | Match | Right |
---|---|---|---|
1 | myślałem wiesz już znaczy wiesz | ta kobita | przez nich właśnie trafiła do tego depeesu przez tą żonę tego faceta no i jego samego bo tam wiesz była granda taka |
2 | a ona poszła i mówi tak mnie molestuje mówi | ta Andrzeja kobita | bo ma tyle pieniędzy kredytu |
3 | i jest wiesz no ale mówię i ta i | ta jego kobita | też jest niegłupia chyba i taka wiesz sensowna i tam wiesz |
4 | tak jak przy tej poprzedniej zusowskiej kontroli ja mam nadzieję że tutaj wiesz specjalnie chociaż | ta kobita | jest taka ostra |
Note: the provided number is the maximum number of intervening words. Strings with fewer or no intervening words will also appear in the results.
Slop factor queries can have query terms other than surface forms. For example, you can also use base forms, e.g.
jechać** tam (Slop factor = 2)
# | Left | Match | Right |
---|---|---|---|
1 | czy | jechać sprawdzić tam | na tego Limanowskiego |
2 | to bez sensu my wypijmy tą kawę i | jedźmy się tam | przywitać i po drodze po chleb wejdziemy |
3 | w sensie żeby nie czekać do wakacji tylko już teraz na przykład na wakacje | jedziesz sobie tam | i żywego języka słuchasz i już wiesz |
4 | czyli nie tutaj gdzieś tam jak się na to Skrzyczne | jedzie tylko tam | dalej gdzieś jeszcze |
5 | jak | jadą tam | twój to tam nie ma siedzeń ani nic to tam żeby były siedzenia to |
6 | a samochodem nie | jechałem pociągiem raz tam | jechałem |
Slop factor with relaxed order
These queries allow intervening words up to the specified number and the query terms may appear in any order. This parameter is now set in the search menu, e.g.:
jest sprawa (Slop factor = 2, Unordered terms)
# | Left | Match | Right |
---|---|---|---|
1 | a teraz wiesz co | jest taka sprawa | pan był załatwiać tam ten ten Leszek tak |
2 | albo | sprawa jakaś jest | w toku czy coś myślę że oni wtedy też nie są w domu dziecka tylko właśnie w tym pogotowiu |
3 | trzy miesiące ostanie w tej szkole rodzenia ale to | jest bardzo fajna sprawa | naprawdę wiesz |
4 | to tak sobie pomyślałam co ty pierdolisz no jak nie swoje sprawy że to w sumie | jest jej sprawa | jest moją przyjaciółką no to |
5 | jej nie pasuje tak to nie chodziło o to że | jest sprawa | nie do załatwienia i tak mnie to wkurwia na każdym kroku i właśnie chodzę taka sfrustrowana |
6 | bo to ciekawa | sprawa jest | nie |
7 | inna | sprawa to jest | taka że oni są dosyć dziecinni oni |
The relaxed order in pure form is available with the number 0, i.e. with no intervening words:
no nie (Slop factor = 0, Unordered terms)
# | Left | Match | Right |
---|---|---|---|
1 | że masz już z głowy | nie no | to super |
2 | nie no | jeszcze nabiorę sobie sama | |
3 | tak samo właściwie na ciepło można by podać z tym ryżem no | nie no | co |
4 | co | no nie | jest to mało na pewno nie jest to mało ale |
5 | znaczy tak planujemy na długość | no nie | |
6 | i raczej tak | no nie | powiem grzeczni są |
Relaxed order may be combined with other functionalities, for example with that of alternative:
dziś|dzisiaj jest (Slop factor = 0, Unordered terms)
# | Left | Match | Right |
---|---|---|---|
1 | a co | dzisiaj jest | |
2 | dziś jest | pięknie najładniejszy dzień dzisiaj | |
3 | no może | jest dzisiaj | za gorąco ej są takie podkładki chłodzące nie coś takiego jest |
4 | weź go tyknij może się ruszy właśnie nie wiem co | jest dziś | tak właśnie wiesz bo nawet jeszcze wczoraj tak nie robił a dzisiaj no kurde |
In the next example, the base form query, multiple term input, and slop factor with relaxed order are used together. As a result, the searched sequences contain various forms of the verb czekać, the two query terms appear in different orders and there may be one intervening word between them:
<lemma=czekać> na (Slop factor = 1)
# | Left | Match | Right |
---|---|---|---|
1 | ale już wczoraj wczoraj | czekałam na | film bo zawsze modę na sukces oglądam |
2 | czekam na | kontrakt | |
3 | ból był straszny już mi tam podkładali różne rzeczy bo ja tydzień | na operację czekałam | bo miałam tu krwiak straszny musiał zejść |
4 | czekając na | przykład do lekarza po lipne zwolnienie na egzamin bo jesteś bardzo chory a tak naprawdę zapiłaś się dzień wcześniej i masz po prostu kaca | |
5 | no bo my wtedy babcia jak weszłyśmy do tej rodziny oni się pytaja chce pani dzisiaj to my tak i | czekała babcia na | zabiegi |
6 | no jemu byłoby raźniej myślę miałby | na kogo czekać | miałby opiekę jakby coś tam gorzej to chyba z takim dziadkiem |
Negation
This operator excludes specified variants of query terms from the results. Consequently, it must be combined with query types that produce variation in the results. Negation is marked by a pipe sign with an exclamation mark “|!”, which is to be read as “but not”. The example shows how it is used with a base form query. The specified form of the word is excluded from the results:
# | Left | Match | Right |
---|---|---|---|
1 | mówiła że ona tylko młodych | prosi | a starych nie chce widzieć |
2 | mogę cię | prosić | |
3 | sam powinien zrezygnować a nie jeszcze żeby go | prosili | |
4 | jak ja go się | prosiłam | żeby zlazł |
5 | proszą | się o robotę | |
6 | no no | prosze | was przecież co się je z waciki nasączone sokiem owocowym i to na tydzień masz jedzenie z głowy |
Queries of this kind may be used to exclude word forms that have special properties or particularly high frequencies and thus skew the data like the form proszę excluded in the example.
Regex queries
Queries of this type make use of special symbols and quantifiers. Each query is a formula describing a whole set of possible strings of signs (words, sequences of words). The results are occurrences of all predefined strings found in the data.
Wild card and quantifiers
A full stop “.” is a wild card, it stands for any sign.
A plus “+” is a quantifier: the preceding sign can appear one or more times.
An asterisk “*” is another quantifier: the preceding sign can appear zero or more times.
These symbols can be used directly with standard signs, but the most fruitful use in queries is to combine the wild card with one of the quantifiers.
“.+” means that in this part of the query any sign or sequence of signs may appear.
“.*” means that in this part of the query any sign or sequence of signs or nothing may appear.
Note the difference between the quantifiers. If you use the plus, the preceding symbol (which may be any symbol if you use the wild card) needs to appear at least once in each item found. With the asterisk it may not appear at all.
Compare the examples:
# | Left | Match | Right |
---|---|---|---|
1 | bieg takiej a takiej rzeki poprzez budowę takiej a takiej | tamy | czy tam przeniesienie koryta nie |
2 | Oleńka | tamta | miała |
3 | ty żeś już jedną żeśta chałupę w prezencie dostali co drugą chcesz dostać mówię | tamtą | ojciec tobie zostawił |
4 | syn gospodarza | tamtego | tego domu |
5 | tamto | mi puściło listki na razie | |
6 | jedno jabłko musiałem wykroić bo już zaczęło gnić tylko tyle się zostało z | tamtych | jabłek które chcesz |
7 | rodzeństwem bo | tamci | po kryjomu podobno dzwonią tam czasami przed tamtymi rodzicami ale |
The above query searches any word starting with “tam” but not plain tam because at least one sign must appear after these three letters. To include plain tam in the results, the other quantifier has to be used:
# | Left | Match | Right |
---|---|---|---|
1 | nie teraz były kiedyś | tam | |
2 | tak żeśmy się popisywały ja tobą a ona | tamtą | |
3 | Ewelina teraz ma kolegę Karola i jak opowiada o tym Karolu to ciągle sobie nie mogę jeszcze przestawić się na Karola | tamtego | |
4 | a co coś | tam | a może argo |
5 | a później idę z kościoła i ta leci za mną i Lolcia Lolcia bo ona tu ma syna w | tamtym | bloku pod dwójką |
6 | ta | tama | w Włocławku to samo lichutka już tyż ją chcą remontować |
7 | poszedł na dwór to te pchły gdzieś | tam | by poodskakiwały pozlatywały by z niego |
The use of wild card without quantifiers allows for crossword-like queries which yield word forms of a set number of letters, containing set letters at certain positions, e.g.:
# | Left | Match | Right |
---|---|---|---|
1 | ale mieliście | karty | bankomatowe tam można normalnie tak płacić kartą |
2 | teraz jak masz | kartę | kochana to za kartą jeszcze musisz mieć konto oczywiście |
3 | teraz jak masz kartę kochana to za kartą jeszcze musisz mieć | konto | oczywiście |
4 | no i masz no i | klatę | robisz jeszcze w dipsach nie na poręczach |
5 | są też klity takie wiesz stare gdzie płacisz wiesz sto złotych czy tam a są te nowe bloki gdzieś kurcze na Powiślu czy gdzieś | kwoty | kosmiczne |
6 | to jest sprytny wynalazek że ona ma trzy | knoty |
You can use the wild card and a quantifier several times in one query, e.g.
# | Left | Match | Right |
---|---|---|---|
1 | ale może to z zamianą | tego babci | mieszkania tak ale nie wiem na czym to polega czy można to zamienić czy nie można |
2 | ale jak ona miała na imię to nie pamiętam taka już wiesz co no koło czterdziestki | też babeczka | też bardzo sympatyczna |
3 | słuchaj taka była | ta baba | no ja myślałam że wyleci |
4 | on wyjechał do Anglii jego córka ta mała | ta babcia | |
5 | no tak ta wyższa byłaby lepsza do | takiej babki | |
6 | ale jeszcze gorsi od | tych bab | są nie prawdziwi niedzielni kierowcy |
7 | a jak to było z | tym babunem | |
8 | niedaleko naszego domu | taka babeczka | nam sprzedawała to wiesz zawsze jak tam byłyśmy to |
The wild card and quantifiers can also be combined with other functionalities. You can use them in a base form query. The results are occurrences of all forms of all words allowed by the formula in the query, e.g.
# | Left | Match | Right |
---|---|---|---|
1 | w łazience to zimno jest w łazience | pobiegła | gdzie jesteś w sypialni no tu masz cieplej aj i tam słyszę zaraz znalazła |
2 | wiecie co szczur zdobył się na heroiczny czyn | podbiegł | tam pod pod blok i przy ścianie biegł ten ptak tam wiesz |
3 | mi się to już wolę iść spać i rano | przebiec | dziesięć kilometrów |
4 | no coś nam | przebiegło | chyba nie |
5 | i na pewno | przybiegnie | na pewno przybiegnie zawsze przybiegają Adama zobaczyliśmy po jakiejś pół godzinie |
In the next example two formulae using wild card and quantifiers are variants in a query with the alternative operator.
# | Left | Match | Right |
---|---|---|---|
1 | w tym akurat temacie to jest dosyć dużo bo muszę cały koncert | przygotować | na pierwszy dyplom |
2 | no przecież ja się | przygotowałam | na in-class się można przygotować |
3 | bo oni mają tam potencjał ogromny przecież ta sztuka rosyjska ten balet ta opera ta architektura przecież oni maja | przygotowaną | kadrę taką jak nie wiem |
4 | taki do | przygotowania | samodzielnego |
5 | w sensie żeby oni | przygotowywali | prezentacje |
6 | no przynajmniej nie straciłaś czasu na | przygotowywanie | się |
7 | ale dużo stałam no bo ten obiad tez | szykowaliśmy | |
8 | gdzieś tam słyszałem że będzie lepsze stanowisko | szykowane | |
9 | szykowanie | się na imprezy i właśnie stroje tak facet i |
In the example below, the query with wild card and quantifier is restricted by the negation operator:
# | Left | Match | Right |
---|---|---|---|
1 | tak no trzeba by mieć przepisy trzeba by pogadać z kimś kto się na tym | zna | no bo wiesz zero jakiejkolwiek reakcji no i nic nie możesz zrobić |
2 | ale patrz jak już ty | znasz | to cała Polska go zna |
3 | i jeszcze chciał żebyśmy napisali zdania z tymi czasownikami że wiemy co | znaczą | nie a ja w ogóle zapomniałam o tym kole i się w ogóle nie nauczyłam |
4 | idzie raczek nieboraczek jak ugryzie będzie | znaczek | |
5 | to ma duże | znaczenie | no a ona się wykuje po prostu recytować i potem to pisze w słowo w słowo |
6 | no zaraz ci ich | znajdę | |
7 | sami | znajomi | tutaj jest mama |
8 | jakiś tam terenowy samochód się | znalazł | gdzieś tam Mariusza zawiózł do lekarza |
9 | aaa ja tam go nie | znałam | nawet |
10 | jak | znam | życie |
Grammatical queries
The format of the grammatical annotation
The Spokes corpus makes use of the tagset developed for the NKJP. The grammatical distinctions made in the tagset are fairly detailed and not necessarily obvious at first. This presentation deals only with the basic issues relevant for queries in the Spokes corpus.
A comprehensive description of the tagset and the categories used in the annotation can be found in the NKJP handbook (Ł.Szałkiewicz and A. Przepiórkowski 2012. “Anotacja morfoskładniowa.” In: Przepiórkowski et al. Narodowy Korpus Języka Polskiego. Warszawa: PWN) on pages 62-67, further relevant details are discussed on pages 69-81 [link]. The help page for the Poliqarp search engine also provides information on the categories and values in the tagset .
In order to submit successful grammatical queries, you must know how the grammatical information in the corpus is organised.
This is an example of a short sentence fragment (podszedłem do gościa) from Spokes as it is tagged and stored in the database. As can be seen, the surface form, the grammatical information and the base form are three key components of the annotation.
Grammatical queries search for specified sequences of signs in the grammatical part of the annotation. It is essential to know what is the order in which grammatical categories appear there. Quite naturally, different parts of speech have different sets of grammatical categories.
The following is the grammatical tagging of the noun form from the example (gościa). Pay attention to the order of the items of grammatical information:
“subst:sg:gen:m1”
part-of-speech:number:case:gender
Note: the labels in the tagset are fine-grained, e.g. “subst” covers most nouns, but not the “depreciative” forms like chłopy or komuchy, “m1” is masculine personal gender.
Note: all noun forms can be searched with the alias “noun” as the part-of-speech label instead of more detailed labels.
Note: grammatical words with syntactic properties of nouns (e.g. coś, kto) are classified as nouns.
Here is an example of the grammatical tagging of an adjective form (ewidentnym):
“adj:sg:inst:n:pos”
part-of-speech:number:case:gender:degree
Note: grammatical words with syntactic properties of adjectives (e.g. ten, taki) are classified as adjectives.
The grammatical annotation of verbs is most complex. Particular sets of verb forms have different categories associated with them. We will start with the past tense form (podszedłem) from the above example:
“praet:sg:m1:perf”
part-of-speech:number:gender:aspect
This is the annotation of a present tense form (mówię):
“fin:sg:pri:imperf”
part-of-speech:number:person:aspect
This is the annotation of an infinitive (odpisywać):
“inf:imperf”
part-of-speech:aspect
Note: because the relevant grammatical categories vary so much between different classes of verb forms, particular sets of forms (only three of them are shown above) are technically treated as different parts of speech in the tagset.
Note: all verb forms can be searched with the alias “verb” as the part-of-speech label instead of more detailed labels.
Note: verbal nouns (like czytanie, spanie) are tagged as gerunds, they are covered by the alias “noun”, but not by the alias “verb”.
Simple grammatical queries
Grammatical queries are put in triangular brackets and have the form of an equation with the label “pos=” (standing for “part of speech”) used in all of them. What is searched for is the whole string of grammatical information (see examples in the preceding section [link]). Since most grammatical queries are concerned with selected features only, they must make use of wild cards and quantifiers (see Regex queries [link]). The wild cards stand for the categories whose values are not specified in the given query.
Note: an obvious exception are words that do not have any grammatical information specified (many adverbs, conjunctions, interjections, etc.). However, not all uninflected words belong here (e.g. infinitives have aspect marked, prepositions have case marked, etc.)
In order to find all noun forms in plural, we must specify the part-of-speech information and the information about number and mark the rest of the grammatical annotation as unspecified using the wild card and quantifier:
# | Left | Match | Right |
---|---|---|---|
1 | może mi wreszcie ku ktoś kupi mówi kozaczki bo przecież nie będę zimą w | adidasach | chodziła |
2 | wziła ci | alimenty | bezczelnie i mówi że tego |
3 | nie ma kolejki | Austriacy | powiedzieli że nie uruchomią jej |
4 | myślała że ja zadzwonię dzisiaj z | życzeniami | no bo wiedziała że mam dzieci to nie mogę przyjść i chciała mnie jak zadzwonię |
5 | u znajomych teraz byliśmy taki gostek z biura turystycznego i mówi że we Włoszech właśnie jego znajomi byli na nartach on zresztą chyba w tym roku zacznie organizować | wyjazdy | też w do w Dolomity |
6 | znaczy n na niektórych | odcinkach | jeszcze można se łańcuchy wypożyczyć jak ich nie będziesz używał to ci oddadzą z powrotem pieniądze nie |
7 | perfumami | skropiła nas |
The next query yields occurrences of noun forms in the instrumental case. The formula must mark unspecified information twice – for number (placed between part of speech and case) and gender (after case) – see the format of the tagging of nouns in the previous section.
# | Left | Match | Right |
---|---|---|---|
1 | może praca oświatowa z | Aborygenami | |
2 | albo | bokiem | tak |
3 | tak albo że że ona nadrabia twarzą że są lepsze figury tylko jak ona | buzią | bardzo nadrabia |
4 | z tymi | dzieciakami | to ci mówię |
5 | przyjechał chłopaszek do niego | hondą | mu się zapomniało i za pięćdziesiąt tysięcy przyjechał nie |
6 | nie będziesz miał siły do wracania z | powrotem | |
7 | i ta kuratorka franca panie za | przeproszeniem | do mnie łazi i nie wim po co |
8 | no a tutaj ta książka to się | wszystkim | podobała |
9 | bo to wiesz | zimą | wszyscy poubierani tak wielowarstwowo no |
10 | po | czym | poznać że słoń był w lodówce |
The above queries makes use of the part-of-speech label “subst”, which accounts for most nouns, but not the “depreciative” forms like chłopy or komuchy. There is a general label (alias) “noun” which covers depreciative nouns, non-depreciative nouns as well as verbal nouns in the results.
A version of the previous query with the alias is shown below:
# | Left | Match | Right |
---|---|---|---|
1 | tak no trzeba by mieć przepisy trzeba by pogadać z | kimś | kto się na tym zna no bo wiesz zero jakiejkolwiek reakcji no i nic nie możesz zrobić |
2 | słuchaj może też za jego | plecami | to załatwili |
3 | y my jechaliśmy drugą | trasą | przez Rumunię Bułgarię |
4 | w ogóle nie przepadam za | wodą | szczerze mówiąc |
5 | tak moim | zdaniem | |
6 | zawsze tak z | gotowaniem | mówiłaś |
7 | BASIA przed | wyjściem | sobie powiedzmy że wychodzi o 21 wszystkie transakcje do 20 sobie już odznaczyła |
8 | to jest bez sensu z tym | spaniem | no ale jak my mamy o czwartej dopiero jechać to co ja mam robić znowu tak jeszcze druga trzecia to jeszcze pół biedy |
As can be seen, there examples with verbal nouns lacking in the previous set of results. There are no examples of depreciative nouns because these are distinguished in the nominative case and not in the instrumental.
The next example shows a query for verbal forms in the present tense and the plural number.
# | Left | Match | Right |
---|---|---|---|
1 | gdzie się Jula schowała jest chowamy się | bawimy | się w chowanego |
2 | kasę | biją | jak nie wiem i mówi do niego naprzeciwko tak siedzieliśmy jak my przy stole |
3 | to jak | chcecie | lodziku |
4 | ale wtedy widać że że że wiesz | idą | seryjnie recepty że |
5 | ja Karolina właśnie | musimy | iść do do biura podróży jutro idziemy się zapytać ja Karolina Samanta Roksana i Aśka |
6 | a zbiórkę to | macie | tu i tu i o tej godzinie ja mówię no tak mamy nie i wiesz tak popatrzyłam |
7 | twierdzą że jest to w ogóle fa fajnie ekstra a okazuje się że no robią tak przez to | są | są podobni do do tych ludzi którzy tam przychodzą |
8 | różnie bo to wiesz ludzie usłyszą babcia wiesz usłyszy leki | tanieją | o osiemnaście procent |
The query uses the detailed part-of-speech label “fin”, which marks non-past forms of verbs. The alias “verb” can be used, it covers past tense forms, non-past tense forms, impersonal past, infinitive, imperative, and all the participles.
Note: the tense distinction in verbs is shown by part-of-speech labels only. If the desired query is supposed to specify tense, the detailed part-of-speech labels are to be used. If tense is irrelevant for the query, the alias “verb” is probably the best label to use.
The part-of-speech label can be left unspecified like other parts of the grammatical annotation. In the next query, all occurrences of plural genitive forms are found:
# | Left | Match | Right |
---|---|---|---|
1 | bo tam nie ma tych takich ekonomicznych pewnie | barier | |
2 | bo tam nie ma tych takich | ekonomicznych | pewnie barier |
3 | a | ćwiczeń | nie zrobił wczoraj |
4 | ale ja myślę że w ciągu | dwóch | dni go skończę więc |
5 | przecież wszystko się robi dla swoich | dzieci | no czego się nie robi |
6 | tak potrafił jakoś mu się przypodobać że on zamiast iść do tych gdzie tamten go kierował do | tych | jakiś tam |
7 | no i tutaj też tak razem no razem jest mało jest | takich | małżeństw że tak razem przychodzą do kościoła ale oni byli i jeszcze jedno takie małżeństwo do |
8 | to były pomidory a ty nie nie byłaś Gosiu wtedy u | nas | |
9 | po | wszystkich | świętych to nie jest takie pilne |
Let us stress again that in grammatical queries it is essential to get the order of information right. It is also essential to mark the irrelevant items of information as unspecified. Here are examples of queries that contain mistakes and yield no results:
<pos=noun> - no noun is marked just as noun, it has further grammatical information, which is not marked in the query <pos=noun:subst:inst:.+> - wrong order: case information does not come directly after part of speech information <pos=noun:subst:.+:f.+> - gender information comes last for nouns and is not followed by any signs
Grammatical queries combined with other functionalities
You may need to submit pure grammatical queries, but in many cases grammatical information will only be a part of the query you want to make. Here, we present combinations of grammatical queries with other possibilities of the query syntax of Spokes.
For example, you can combine base form query with grammatical query for a single term. The labels “lemma=” and “pos=” need to be taken in the same pair of brackets. Here, the feminine forms of the word niezły are searched for:
# | Left | Match | Right |
---|---|---|---|
1 | ale ale po chwili już będzie więcej niż dwie jeszcze dwie o | niezła | mina uuu |
2 | no i to | niezła | |
3 | ale imprezę mieliście | niezłą | ej |
4 | no tam tam tam całkiem | niezłą | ekipę mieli |
5 | ale generalnie i tam wiesz ma całkiem chyba | niezłe | oceny |
The query above does not specify the part of speech, but this is not necessary since niezły is unambiguously an adjective.
The next query yields occurrences of all singular forms of the verb zdać:
<lemma=zdać pos=verb:fin:sg:.*>
# | Left | Match | Right |
---|---|---|---|
1 | sama przy tym nie będzie tylko tamta później nie wiem | zda | raport kurwa o mnie |
2 | tak te stare też już mają miały miedziane wiesz te te no i ma ten zapalnik pizoelektryczny trochę się obawiam czy | zda | egzamin |
3 | i przez ciebie nie | zdał | |
4 | a Karolina | zdała | |
5 | ja mówię aha nie mówię że no tak że | zdałam | sobie sprawę że później dopiero jak już wysłałam że to do ciebie doszło nie |
6 | dostałem się na studia | zdałem | egzaminy to co chciałem i te na które poszedłem to trzeba zaznaczyć że na tych na których byłem to zdawałem je |
7 | jest do zaliczenia na egzaminie najprościej kurwa męczyłam się męczyłam się tak z łaciną że nawet na w yyy na wrzesień miałam łacinę nie więc nie wiem jak ja to | zdam | nie po prostu jestem antytalencie jeżeli chodzi o łacinę |
8 | znaczy całkiem niezły no nie wiem B1 certyfikat miałem | zdany | na sehr gut |
You can also combine the same two functionalities for two separate query terms. For this you need to take the appropriate labels in brackets separately. The example query shows occurrences of sequences of an adjective followed by any form of the word temat:
# | Left | Match | Right |
---|---|---|---|
1 | stary ale zobacz jaki to jest chory w chuj temat jaki to jest w chuj | chory temat | chory temat nie pas koronowski w chuj szeroka no bo pas nie lotniczy y wojskowy |
2 | fajne były te teksty z angielskiego bo były na różne takie | ciekawe tematy | że można się było dowiedzieć różnych rzeczy no ale ten akurat był bardziej śmieszny niż jakiś |
3 | nie zupełnie nie | ten temat | miałem zupełnie powiedzieć na zupełnie inny temat tylko zapomniałem już w tym momencie |
4 | czy coś konkretnego było na przykład że z | jakiegoś tematu | się mieliśmy przygotować |
5 | nie sieciowi znajomi to może być | poważniejszy temat | niż się wydaje wszystko |
6 | ci sami ludzie to samo do porozmawiania ten | sam temat | |
7 | no takie wiesz no tam ludzie podchodzą do | tego tematu | poważnie a tutaj nie |
8 | bardzo | trudny temat | wybrałam nie |
This kind of query can be used to show collocations, the results of example query show adjectival collocations of the word temat.
Queries containing several terms can be further refined by using slop factor. The next example yields occurrences of any form of the word słuchać and a form in the genitive case with one intervening word possible:
<lemma=słuchać> <pos=.*:gen:.*> (Slop=1)
# | Left | Match | Right |
---|---|---|---|
1 | i właśnie nie wiem dlaczego nie ale czytałem że jak się jeździ na dużo koncertów właśnie i jak się to przyjmuje i się | słucha dużo muzy | głośno to później się już nie czuje takiego |
2 | ciocia | słucha Radia | Maryja |
3 | i chce sobie kupić sobie tego takiego jamnika będzie se stało koło yyyy łóżka mojego będę sobie | słuchać | muzyki kiedy będę chciała nie no mi się to podoba |
4 | no i | słuchaj do końca | i był sobie ten Leszek co Leszek Leszka w ogóle widywaliśmy mama w takich dziwnych miejscach że wiesz idziesz nagle parkiem i tu Leszek |
5 | co ty tam nie | słuchaj nikogo | nie słuchaj nikogo |
6 | nie Zuźka jest odporna jak | słuchaj od | Marcela i Patrycji się nie zaraziła a one non stop chore są w domu osiemnaście stopni mam a ze na wierzchu śpi nogi jak lodek zimne |
7 | no i | słuchaj poprosiłam studentów | z pierwszego roku no i parę osób mi wysłało no i tak jak mi parę osób wysłało no to wiesz |
REST API
The REST API of Spokes PL makes it possible to search and extract the entire contents of the corpus.
- To get the complete list of transcriptions see this link
- Here is how you can get the |list of all utterance turns in this text.