nnaku
I'm object-oriented!
- Liittynyt
- 28.11.2016
- Viestejä
- 779
Mikäs olisi kätevin tapa jalostaa ts. yhtenäistää CSV tiedostoon kerättyä dataa (tekstiä)?
Data on tällä hetkellä 4 sarakkeessa, joista kukin sisältää tekstiä, jonka voisi vielä jakaa omiin sarakkeisiin.
Datassa esiintyy eri kirjoitusasulla, mutta samalla merkityksellä olevia sanoja tai lyhenteitä:
esim. vrk ja vuorokausi, turkulainen ja paikkakuntalainen (haastavampi), h ja tuntia ym.
Ajanmääreet olisi hyvä muuntaa ja yhtenäistää vaikka tunneiksi tai jopa minuuteiksi.
Kannattaako tähän edes ajatella mitään esim. pythonin nltk kirjastoa vai tekeekö itse jonkin listauksen ja spaghettikriptin, jolla putsaa?
Rivi määrä noin 1200.
Itse varmaan tollasen määrän vetäisin exceliin ja tekisin käsipelillä. Jos tämä on ns. kerran tehtävä operaation ja tuo variaatioiden esiintyminen loppuu tähän pisteeseen.
Ja jos mahdollista niin validoi ja sanitoi käyttäjän syöte tulevaisuudessa.