The paper describes our submissions to the task on PoS tagging for Italian Social Media Texts (PoSTWITA) at Evalita 2016. We compared two ap-proaches: a traditional HMM trigram Pos tagger and a Deep Learning PoS tagger using both character-level and word-level embeddings. The character-level embed-dings performed better proving that they can provide a finer representation of words that allows coping with the idiosyncrasies and irregularities of the lan-guage in microposts.
Questo articolo descrive la nostra partecipazione al task di PoS tagging for Italian Social Media Texts (PoSTWITA) di Evalita 2016. Abbiamo confrontato due approcci: un PoS tagger tradizionale basato su HMM a trigrammi e un PoS Tagger con Deep Learning che usa embeddings sia a livello di caratteri che di parole. Gli embedding a caratteri hanno fornito un miglior risultato, dimostrando che riescono a fornire una rappresentazione più fine delle parole che consente di trattare le idiosincrasie e irregolarità del linguaggio usato nei micropost.
Character Embeddings PoS Tagger vs HMM Tagger for Tweets
ATTARDI, GIUSEPPE;SIMI, MARIA
2016-01-01
Abstract
The paper describes our submissions to the task on PoS tagging for Italian Social Media Texts (PoSTWITA) at Evalita 2016. We compared two ap-proaches: a traditional HMM trigram Pos tagger and a Deep Learning PoS tagger using both character-level and word-level embeddings. The character-level embed-dings performed better proving that they can provide a finer representation of words that allows coping with the idiosyncrasies and irregularities of the lan-guage in microposts.File | Dimensione | Formato | |
---|---|---|---|
PoSTWITA_unipi.pdf
accesso aperto
Descrizione: Articolo principale
Tipologia:
Versione finale editoriale
Licenza:
Creative commons
Dimensione
343.39 kB
Formato
Adobe PDF
|
343.39 kB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.