perjantai 22. toukokuuta 2009

Merkittävä NLP-hanke pian nettiin

Wolfram Alpha on saanut paljon julkisuutta. Minäkin kokeilin, mutta en ollut kovin myyty, vielä. N. kuukauden päästä on toinen, pienempi, mutta jännittävämpi projekti, "the Texai bootstrap dialog system" tulossa nettiin. Sen tarkoitus on chatbot- periaattella harjoittaa ja kehittää Texai-hankkeen englanninkielen taitoja.

Luonnollisen kielen hallinta on paljon vaativampaa kuin lojbanin hallinta. En odota vakuuttavaa suoritusta vielä vuosiin, ja siksi odotan erittäin suurella mielenkiinnolla Texain julkaisuversiota, joka siis on "vain" "bootstrap dialog system".

Mutta on todettava, että alueella tapahtuu paljon. Kerron lähiaikoina taas lisää omista lojbanissa pysyvissä kokeiluistani.

sunnuntai 10. toukokuuta 2009

Monimuotoisuutta lojbaniin

Blogissaan Ben Goertzel ehdottaa ihmisen ja delfiinien välikieleksi "Delphic-Lojban" -kieltä, joka noudattaisi virallisen lojbanin syntaksia, mutta jonka foneettinen rakenne olisi toteutettu delfiinien äänenmuodostuksen ehdoilla.

Koska ihminen aivan ilmeisesti ei pystyisi tuottamaan "Delphic-Lojban" lauseita omalla äänenmuodostuksellaan, ihmisen olisi syntetisoitava oma keskusteluosuutensa tietokonetta käyttäen. Jos synteesin lähdekielenä olisi varsinainen lojban, tehtävä oli kohtuullisen suoraviivainen. Kaikille kielen rakenteen yksityiskohdille olisi suorat vastineensa. Samoin olisi tehtävä tulkittaessa delfiinin lausumia ilmauksia, todennäköisesti tietokonekäännös välissä olisi välttämätön.

Tätä samaa ajatusta voisi edelleen kehittää toteuttamalla virallisen, "ylikultturellisen lojbanin" lisäksi muita, suppean kielialueen lojbaneita, joissa lojbanin fonetiikka ja ehkä myös gismujen rakenteet ym. olisi korvattu kielialueelle paremmin sopivilla muoto- ja foneettisilla valinnoilla. Tällaisten lojbanin variaatioiden etuna olisi madaltaa oppimiskynnystä, mutta säilyttää lojabnin korvaamattomat ominaisuudet, sekä suora, helppo koneellinen, jopa reaaliaikainen käännettävyys lojban-variaatiosta toiseen. Tällaisia variaatiota voisivat olla:
- Euro-Lojban, Euroopan pääkielistä
- Latin-Lojban, lähteinä: italia, romania, ranska, espanja, portugali
- Slavo-Lojban, slaavilaisista kielistä
- Uralic-Lojban, omille kielisukulaisillemme
- Hindic-Lojban, Intian alueen monista kielistä yhdistettynä
- African-Lojban, Afrikan pääkielistä
- Kiina-Lojban, kiinan kielen eri versioista koottuna
- Viittoma-Lojban?

ym. Näille kielille säilysi etuna suoraviivainen käännettävyys ja siten kaikkien yhteisten resulssien käyttö, jolloin kokonaisresulssit ja lojbanin käyttäjien määrä voisi moninkertaistua.

lauantai 9. toukokuuta 2009

Uudet sanalistat

Lisäsin alla mainittulle työkalulle seitsemän uutta sanalistaa. Kävin läpi Lojban-Englanti-Lojban-sanakirjan (jonka myös lisäsin mukaan) gismut ja poimin niistä runsaat 500 itseäni miellyttävää käsitettä. Miellyttävyyden kriteerinä ovat: (1) käsitteen hyvä tuki opetuksellisille esimerkkilauseille, (2) käsitteiden kuvauskyky käytettäessä lojban-ilmaisuja "harjoitusmaailmojen" kuvaamiseen.

Jaoin nuo runsaat 500 sanaparia seitsemään runsaat 70 käsitettä sisältävään "opiskeluerään" ohjelmallisesti "korttienjakelualgoritmilla" siten, että jokainen lista käsittää tasaisesti sanoja koko lojbanin aakkosalueelta. Listojen sisällöllä ei siis ole mitään loogista rakennetta tai merkityksellistä yhteyttä, päinvastoin.

Listoja käytetään siten kuin skriptin ohjeissa kerrotaan, ajetaan ensin "init" komento jne.

Sanojen opiskelu