Projekti MBnet Apaja

Tuolta voisi kanssa löytyä jotain Amiga-aiheista. Index of /turran/FTP/Collection/BBS

Tosin nämähän on vähän eri tavalla nimetty ja kootkaan ei aivan tavulleen Apajan tiedostolistaa vastaa, mutta ei varmaankaan mitään todellista olennaista eroa kuitenkaan MBNetissä aikanaan olleissa paketeissa näihin.
Helpottaisi jos nimi täsmäisi. Koko ei minustakaan liene niin kriittinen noissa.

Tuli tuossa Fish levyjä metsästäessa vastaan tälläinenkin sivusto Telnet BBS Guide Paljon vanhoja BBS purkkeja elvytetty ja saavutettavissa telnetillä. Näitäkin kun hetken kahlailisi läpi, niin varmasti löytyisi Apajaan lisättävää.
Joskus seikkailin purkissa, missä oli varsin laaja Fidonet -kokoelma. Mahtaako liittyä: IFDC FileGate: All Areas
 
Tuolta voisi kanssa löytyä jotain Amiga-aiheista. Index of /turran/FTP/Collection/BBS


Helpottaisi jos nimi täsmäisi. Koko ei minustakaan liene niin kriittinen noissa.


Joskus seikkailin purkissa, missä oli varsin laaja Fidonet -kokoelma. Mahtaako liittyä: IFDC FileGate: All Areas
Pidettiinköhän Amiga-puolella vähemmän tosta 8+3 tiedostonnimirajoituksesta kiinni ja sitä kautta voisi olla useammin eroavia nimiä? Nimen täsmääminen on kyllä ihan hyvä lähtökohta ollut etsinnälle, mutta mietin että mitenköhän usein noikin sitten on aikanaan silti vaihdellut samalle datalle lopulta.

Itse ehkä pääpiirteittäin pitäisin kuvausta luotettavimpana vertailukohtana jos se on käytettävissä, sitten tiedostonnimeä ja kolmantena kokoa. Kaikkia tietysti kokonaisuutena paras katsoa... luulen että jokaisessa noista voi olla eroakin jossain määrin ja silti käytännössä kyseessä täysin sama sisältö. Itse kannattaisin sitä että otetaan ainakin joku versio ja korvataan sitten paremmalla jos löytyy täydellinen vastaava tai tarkemmin oikea versio tms. myöhemmin. Työsarkaa noiden haalimisessa kuitenkin riittää varmaan joka tapauksessa. Täsmäosumienkin etsiminen on toki ihan arvokasta siinä rinnalla.
 
Pidettiinköhän Amiga-puolella vähemmän tosta 8+3 tiedostonnimirajoituksesta kiinni ja sitä kautta voisi olla useammin eroavia nimiä? Nimen täsmääminen on kyllä ihan hyvä lähtökohta ollut etsinnälle, mutta mietin että mitenköhän usein noikin sitten on aikanaan silti vaihdellut samalle datalle lopulta.

Itse ehkä pääpiirteittäin pitäisin kuvausta luotettavimpana vertailukohtana jos se on käytettävissä, sitten tiedostonnimeä ja kolmantena kokoa. Kaikkia tietysti kokonaisuutena paras katsoa... luulen että jokaisessa noista voi olla eroakin jossain määrin ja silti käytännössä kyseessä täysin sama sisältö. Itse kannattaisin sitä että otetaan ainakin joku versio ja korvataan sitten paremmalla jos löytyy täydellinen vastaava tai tarkemmin oikea versio tms. myöhemmin. Työsarkaa noiden haalimisessa kuitenkin riittää varmaan joka tapauksessa. Täsmäosumienkin etsiminen on toki ihan arvokasta siinä rinnalla.
Juu, paino sanalla helpottaisi. Apajalistassahan on käytössä kommentti 'renamed' ja useampi kokomerkintä selitettynä infosivulla. Voin lisäillä sivustolle sellaisia paketteja, joihin saa samoja kommentteja noista poikkeuksista. Eli jos löytyy esim. noista Fisheistä sopiva paketti, niin ne voi uudelleennimetä vaikka jollain skriptillä ja toimittaa minulle, niin lisäilen ne sitten kommentin kera. Korvataan sitten alkuperäisillä jos tulee joskus vastaan.

Kommenteista puheenollen, @jad toimitti listan tuplaksi merkatuista nimikkeistä kokovertailun kera. Seuloin sieltä 409 tuplatiedostoa, joissa on eroja ilmoitetussa koossa. Silmäilen noita nyt läpi ja merkkaan sen perusteella, onko eroa koon lisäksi myös kuvauksessa. Täytyy miettiä vielä, että tekeekö noille 409 nimikkeelle omat id-kansiot vai ryhmitteleekö noita nyt isommin muutenkin. Noille Fisheille voisi ainakin kokeilla tehdä oman kansion, jos niitä löytyy ja varmaan myös trakkerimusiikeille ja demoskenelle, kun alkaa tuo pääkansio turvota.
Demoskenejuttuja löytyisi todennäköisesti täältä: prodlist :: pouët.net
 
Mikrobitin sivuilla näyttää olevan julkaistu 9.5.2024 artikkeli purkin rakentamisesta, tosin näyttää olevan maksumuurin takana. Alkaisikohan sen myötä löytyä enemmänkin kiinnostusta projektille.

 
Osasto Mikroilu aiheuttaa päänvaivaa. Siellä on suuri osa kategorioista tuplia PC-osaston vastaavien kanssa, kuten Mikroilu / Tietoliikenne / DOS-ohjelmat (tiedostoja 9 kpl) - PC / DOS / Tietoliikenne (tiedostoja 201 kpl). Toisaalta siellä on sitten
Mikroilu / Tietoliikenne / Muut tiedostot millä ei ole oikein paikkaa muualla.
1996-listassa ei ole koko Mikroilua, mutta siellä on Tietoliikenne: 5) Amiga-tietoliikenne, mutta DOS tavara onkin sitten pelkästään PC-DOS: 12) Tietoliikenne.
Waybackmachinella kun selaa MBnetin sivua, niin tuo PC-alueen osasto ohjautuu kuitenkin Mikroiluun.

Pitäisikö nuo Mikroilun tuplaosastot poistaa? Jos etsin Windows 98:lle kuvankäsittelyohjelmaa, etsisin sitä kyllä osastolta PC / Windows 95/98/NT/2000 / Grafiikka ja kuvankäsittely, missä muutkin ohjelmat löytyy, enkä Mikroilu / Grafiikka / Windows 95/98/NT/2000 -kuvankäsittely. Vai kunnioittaako vanhan listauksen epämääräisyyttä ja yhdistee noita vähän sikinsokin? Vai antaako olla miten ovatkaan?

Linkkaaminen olisi sivuston luonteesta johtuen hieman haastavaa, kun kaikki nuo listat luetaan suoraan tietokannasta ja en välittäisi rikkoa datan yhtenäisyyttä lisäämällä sekaan linkkejä, tai pelkkiä osastojen nimiä.
 
Osasto Mikroilu aiheuttaa päänvaivaa. Siellä on suuri osa kategorioista tuplia PC-osaston vastaavien kanssa, kuten Mikroilu / Tietoliikenne / DOS-ohjelmat (tiedostoja 9 kpl) - PC / DOS / Tietoliikenne (tiedostoja 201 kpl). Toisaalta siellä on sitten
Mikroilu / Tietoliikenne / Muut tiedostot millä ei ole oikein paikkaa muualla.
1996-listassa ei ole koko Mikroilua, mutta siellä on Tietoliikenne: 5) Amiga-tietoliikenne, mutta DOS tavara onkin sitten pelkästään PC-DOS: 12) Tietoliikenne.
Waybackmachinella kun selaa MBnetin sivua, niin tuo PC-alueen osasto ohjautuu kuitenkin Mikroiluun.

Pitäisikö nuo Mikroilun tuplaosastot poistaa? Jos etsin Windows 98:lle kuvankäsittelyohjelmaa, etsisin sitä kyllä osastolta PC / Windows 95/98/NT/2000 / Grafiikka ja kuvankäsittely, missä muutkin ohjelmat löytyy, enkä Mikroilu / Grafiikka / Windows 95/98/NT/2000 -kuvankäsittely. Vai kunnioittaako vanhan listauksen epämääräisyyttä ja yhdistee noita vähän sikinsokin? Vai antaako olla miten ovatkaan?

Linkkaaminen olisi sivuston luonteesta johtuen hieman haastavaa, kun kaikki nuo listat luetaan suoraan tietokannasta ja en välittäisi rikkoa datan yhtenäisyyttä lisäämällä sekaan linkkejä, tai pelkkiä osastojen nimiä.
Se tuli mieleen että mitenköhän sitten siihen vaikuttaa jos joskus saisi täydennettyä vielä listoja. Kategoriat on varmasti apajan olemassaolon aikana muuttuneet useaan kertaan ja eri versioissa sitten vähän erilaiset kategorisoinnit, oletettavasti uusimmissa kuitenkin aina kaikki aiemmat tiedostot tai ainakin melkein... Ainakin joku kokonaisuutta selkeyttävä "piilota tuplatkategoriat" -moodi saattaisi olla kyllä hyödyllinen.
 
Se tuli mieleen että mitenköhän sitten siihen vaikuttaa jos joskus saisi täydennettyä vielä listoja. Kategoriat on varmasti apajan olemassaolon aikana muuttuneet useaan kertaan ja eri versioissa sitten vähän erilaiset kategorisoinnit, oletettavasti uusimmissa kuitenkin aina kaikki aiemmat tiedostot tai ainakin melkein... Ainakin joku kokonaisuutta selkeyttävä "piilota tuplatkategoriat" -moodi saattaisi olla kyllä hyödyllinen.
Tulihan nuo 1996 kategoriatkin käytyä ihan manuaalisesti läpi ja etsittyä niille vastaavia pareja. Pitää siis perehtyä vähän tarkemmin kun seuraavan kerran yhdistelee listoja, tai selkeyttää listaa jo ennen siirtoa.

Minusta nykytilanteessa on isoin ongelma, että noissa on vain osittain samat tiedostot. Eli jos etsii vaikka nettiselainta niin osa tarjonnasta jää näkemättä, kun ei katso molemmista. Eli pitäisi joko lisätä tuplatiedostojen määrää, tai sitten poistaa nuo. Välimuoto olisi jättää tietokantaan rivi "siirretty.on", jossa on kuvauksessa linkki uuteen sijaintiin.
 
Sivusto päivitetty versioon 0.82.
Päivitys oli lähinnä tietokannan korjailua.
Tietokantaan eritelty samannimiset tiedostot, joissa on eri sisältö, merkinnällä "eritupla" ja "eritupla¹" ja niihin liittyvät tiedostot siirretty id-kansioihin. Sivusto osaa nyt tiedostoa ladattaessa erotella nämä.
Joitain pieniä bugikorjauksia myös, kuten väärät kategoriat pois osastorajauksesta.
Trackeribiiseissä oli jokunen kymmenen "ESCAPE.ZIP" ja "ESCAPE(1).ZIP" -tyyliin nimettyä tiedostoa, joissa toisessa oli musiikkikappale ja toisessa jotain muuta. Tarkistin 1996-listasta ja siellä todella on kaksi erillistä "ESCAPE.ZIP" tiedostoa, toisessa joku demo ja toisessa s3m. Jätin tuollaiset nyt lataamatta, koska sivusto ei noita osaa erotella.
Kävin nämä myös läpi ja lisäilin sivustolle. 105 (edit) 63 tiedostoa tuli ladattavaksi, joista noin puolet modeja yms. ja loput muuta softaa.
Aiemmassa tiedostolisäyksessä (Ratsnest, Metropoli) oli jäänyt tuplat merkkaamatta ladattaviksi. Korjattu myös tämä.

Palvelimella on nyt 10 937 tiedostoa ja kannassa 11 356 kohdetta merkattu olemassaoleviksi.
Lähiaikoina tulee lisää tavaraa Metropoli-tiedostoista..

Ajantasainen tietokantadumppi tästä.
 
Viimeksi muokattu:
699 uutta Metropoli-tiedostoa lisätty sivustolle. Näissä ei ole kokoeroja kommentoitu, mutta muutamissa kommentoitu versioiden eroavaisuuksista. Kiitoksia @amblik paketin koostamisesta (paketista jäi 39 tiedostoa laittamatta, kun olivat jo olemassa, johtuen merkkaamattomista tuplista).
Tietokantadumppi tästä.

Jos on muita innokkaita tiedostojen metsästäjiä, niin minulle saa läheää yksittäisiäkin tiedostoja lisättäväsi jos löytyy. Alkuperä olisi hyvä kommentoida.

Perustin Matrixiin ja irkkiin kanavat, niin voi sieltäkin tulla juttelemaan projektista, jos ei halua foorumille kirjoitella.
ircnet: #apaja
Matrix: #Apaja:pikaviestin.fi
 
Sivusto päivitetty versioon 0.9.
-Lisätty hakuominaisuus.
-Paranneltu koodia jotta sivut latautuisivat nopeammin.
-Korjailtu lisää kuvauksissa näkyviä rivinvaihtomerkkejä.
118 tiedostoa lisätty ladattavaksi. Lähinna Amiga-tavaraa ja purkkisoftaa.
CSV-dumppi
 
Hitto, varastolevyltä paria tiedostoa metsästäessä tuli vastaan oletettavasti hirveä kasa kaikenlaisia sekalaisia purkeista (MBnet, Metropoli, ...) ladattuja tiedostoja, pääsääntöisesti zippipaketteina. Olisikohan mitään kätevää kikkaa jolla voisi käydä läpi automaattisesti satoja ellei tuhansia tiedostoja ja kansioita ja verrata olisiko tuossa samoja tiedostoja mitä tuolta apaja-sivulta puuttuu? Tietty voisinhan minä itsekin koodailla jonkun skriptinpätkän joka vertailisi tiedostolistoja mutta jos jollakin olisi jo joku vastaava valmiina niin ei tarvitsisi keksiä pyörää uudelleen.
 
Hitto, varastolevyltä paria tiedostoa metsästäessä tuli vastaan oletettavasti hirveä kasa kaikenlaisia sekalaisia purkeista (MBnet, Metropoli, ...) ladattuja tiedostoja, pääsääntöisesti zippipaketteina. Olisikohan mitään kätevää kikkaa jolla voisi käydä läpi automaattisesti satoja ellei tuhansia tiedostoja ja kansioita ja verrata olisiko tuossa samoja tiedostoja mitä tuolta apaja-sivulta puuttuu? Tietty voisinhan minä itsekin koodailla jonkun skriptinpätkän joka vertailisi tiedostolistoja mutta jos jollakin olisi jo joku vastaava valmiina niin ei tarvitsisi keksiä pyörää uudelleen.
Olisi kyllä. Minä tuota apajaindekseriä juuri sillä silmällä koodailin, että periaatteessa minkä tahansa hakemston voi sille antaa aloituspisteeksi ja siitä sitten indeksoi kaikki alihakemistot, purkaa zipit, kerää file_id.diz kommentit yms. Ja sitten kun on tidot sqlite kannassa, niin vertailu onnistuu @Alfh csv dumppia vasten.

Edit: Ei siis vielä ole missään git repossa ladattavissa, mutta eipä sille mitään estettä ole, ettenkö voisi pistää julki. PHP:lla väkästelty ja vaatii liudan binäärejä linux pannulle. (unzip, rar, b3sum, ...)
 
Viimeksi muokattu:
Olisi kyllä. Minä tuota apajaindekseriä juuri sillä silmällä koodailin, että periaatteessa minkä tahansa hakemston voi sille antaa aloituspisteeksi ja siitä sitten indeksoi kaikki alihakemistot, purkaa zipit, kerää file_id.diz kommentit yms. Ja sitten kun on tidot sqlite kannassa, niin vertailu onnistuu @Alfh csv dumppia vasten.

Edit: Ei siis vielä ole missään git repossa ladattavissa, mutta eipä sille mitään estettä ole, ettenkö voisi pistää julki. PHP:lla väkästelty ja vaatii liudan binäärejä linux pannulle. (unzip, rar, b3sum, ...)
No, ehkä mä ensin vähän kurkkailen mitä tuolta mun arkistoista löytyy, teen jonkun tiedostolistan jos näyttää että olisi enemmänkin potentiaalisia tiedostoja ja sitten rupeaisi ihmettelemään tarkemmin. Parin viikon päästä alkaa kesäloma niin siten ehkä jaksaa/kerkiää vaikka virittelemään jonkun virtuaalikoneen mihin nuo työntäisi prosessoitavaksi.

Nopealla vilkaisulla ainakin näyttäisi olevan vähän siellä sun täällä tuolla mun arkistolevyllä kaikenlaisia 8+3 -merkkisiä tiedostonimiä jotka vaikuttaisivat joistakin purkeista ladatuilta tai jostain kavereiden kokoelmalevyiltä kopioiduilta fileiltä. Joukossa vaan on ihan pirusti kaikkea muutakin niin pitää ensin vähän miettiä miten tuota lähestyisi.
 
Hitto, varastolevyltä paria tiedostoa metsästäessä tuli vastaan oletettavasti hirveä kasa kaikenlaisia sekalaisia purkeista (MBnet, Metropoli, ...) ladattuja tiedostoja, pääsääntöisesti zippipaketteina. Olisikohan mitään kätevää kikkaa jolla voisi käydä läpi automaattisesti satoja ellei tuhansia tiedostoja ja kansioita ja verrata olisiko tuossa samoja tiedostoja mitä tuolta apaja-sivulta puuttuu? Tietty voisinhan minä itsekin koodailla jonkun skriptinpätkän joka vertailisi tiedostolistoja mutta jos jollakin olisi jo joku vastaava valmiina niin ei tarvitsisi keksiä pyörää uudelleen.
Oma primitiivinen taktiikka on laatia hakemiston tiedostoista listaus komennolla ls > listaus.txt ja käyttää vertaa.py skriptiä siihen. Skripti tekee uuden listauksen osumista, joita voi sitten tutkia tarkemmin. Tässä on listaus puuttuvista tiedostoista mihin voi verrata.
Tuo ls toimii Linuxissa, mutta Windowsin powershellissä on varmaan joku vastaava komento.

Taulukkolaskentaan voi sitten laittaa vaikka filtterin tuohon CSV-dumppiin, jossa näkyy pelkät osumat, niin helpottaa seulomista. Ja onhan sivustollakin nyt hakuominaisuus.

ls -R voi käyttää jos haluaa alihakemistot mukaan. Rsyncillä voi sitten keräillä mätsänneitä tiedostoja yhteen kansioon.. Pitäisi varmaan tehdä joku wiki aiheesta.
 
Oma primitiivinen taktiikka on laatia hakemiston tiedostoista listaus komennolla ls > listaus.txt ja käyttää vertaa.py skriptiä siihen. Skripti tekee uuden listauksen osumista, joita voi sitten tutkia tarkemmin. Tässä on listaus puuttuvista tiedostoista mihin voi verrata.
Tuo ls toimii Linuxissa, mutta Windowsin powershellissä on varmaan joku vastaava komento.

Taulukkolaskentaan voi sitten laittaa vaikka filtterin tuohon CSV-dumppiin, jossa näkyy pelkät osumat, niin helpottaa seulomista. Ja onhan sivustollakin nyt hakuominaisuus.

ls -R voi käyttää jos haluaa alihakemistot mukaan. Rsyncillä voi sitten keräillä mätsänneitä tiedostoja yhteen kansioon.. Pitäisi varmaan tehdä joku wiki aiheesta.
Winukassa dir > c:\filu.txt eli juurikin samalla lailla mutta dir :)
 
Oma primitiivinen taktiikka on laatia hakemiston tiedostoista listaus komennolla ls > listaus.txt ja käyttää vertaa.py skriptiä siihen. Skripti tekee uuden listauksen osumista, joita voi sitten tutkia tarkemmin. Tässä on listaus puuttuvista tiedostoista mihin voi verrata.
Tuo ls toimii Linuxissa, mutta Windowsin powershellissä on varmaan joku vastaava komento.

Taulukkolaskentaan voi sitten laittaa vaikka filtterin tuohon CSV-dumppiin, jossa näkyy pelkät osumat, niin helpottaa seulomista. Ja onhan sivustollakin nyt hakuominaisuus.

ls -R voi käyttää jos haluaa alihakemistot mukaan. Rsyncillä voi sitten keräillä mätsänneitä tiedostoja yhteen kansioon.. Pitäisi varmaan tehdä joku wiki aiheesta.
Linuxia olen pääsääntöisesti käyttänyt varmaan viimeiset 15-20v, joten sen kanssa touhuaminen on tuttua. Töissäkin linuxia tulee käytettyä yli 90% ajasta.

Varmaan aika samantyylisen python-skriptin olisin itsekin kötöstellyt kasaan mutta säästyipä koodaamisen vaivalta :D Pitää varmaan jossain välissä pistää johonkin virtuaalikoneen kulmalle oma tiedostolista ja tuo puuttuvien listaus sekä tuo skripti ja pistää yöksi pureskelemaan, näyttäisi olevan tuolla omalla tiedostolistalla sen verran kokoa ettei ihan muutamassa minuutissa sitä pureskele läpi. Olisi pitänyt varmaan suoraan pistää joku regex-filtteri jo tuohon tiedostolistan generointiinkin niin olisi jäänyt suurin osa kaikesta muusta tauhkasta listaamatta :D
 
Linuxia olen pääsääntöisesti käyttänyt varmaan viimeiset 15-20v, joten sen kanssa touhuaminen on tuttua. Töissäkin linuxia tulee käytettyä yli 90% ajasta.

Varmaan aika samantyylisen python-skriptin olisin itsekin kötöstellyt kasaan mutta säästyipä koodaamisen vaivalta :D Pitää varmaan jossain välissä pistää johonkin virtuaalikoneen kulmalle oma tiedostolista ja tuo puuttuvien listaus sekä tuo skripti ja pistää yöksi pureskelemaan, näyttäisi olevan tuolla omalla tiedostolistalla sen verran kokoa ettei ihan muutamassa minuutissa sitä pureskele läpi. Olisi pitänyt varmaan suoraan pistää joku regex-filtteri jo tuohon tiedostolistan generointiinkin niin olisi jäänyt suurin osa kaikesta muusta tauhkasta listaamatta :D
Tuolla repossa on myös parseri.py jolla voi kokeilla karsia listasta muut kuin 8+3 pituutta noudattavat ja muun ylimääräisen tekstin. Omat puutteensa tuossakin, mutta noita voi jatkokehitellä vapaasti.
 
Edit: Ei siis vielä ole missään git repossa ladattavissa, mutta eipä sille mitään estettä ole, ettenkö voisi pistää julki. PHP:lla väkästelty ja vaatii liudan binäärejä linux pannulle. (unzip, rar, b3sum, ...)
Kiinnostaisi kyllä perehtyä tähän tarkemmin. Yritän käydä läpi BBS Shareware : Free Download, Borrow, and Streaming : Internet Archive ja totesin, että kokovertailijaa tarvisi. Pelkän nimen perusteella tuli 565 osumaa ja tuolla on paljon ns. erituplia, joihin tuo oma metodi ei oikein veny. En tosin usko tuossa olevan liiemmin oikeita osumia kun tavara näkyy olevan pitkälti 1980-luvulta ja tiedostonimet ovat aika geneerisiä: BBS-Shareware osumat - Pastebin.com
 
Tuolla repossa on myös parseri.py jolla voi kokeilla karsia listasta muut kuin 8+3 pituutta noudattavat ja muun ylimääräisen tekstin. Omat puutteensa tuossakin, mutta noita voi jatkokehitellä vapaasti.
Itse hoidin tuon muiden kuin 8+3 karsimisen ihan perinteisesti grepillä eilenillalla. Tänään voisi kokeilla iltasella laittaa oman tiedostolistan vertautumaan noihin puuttuvien fileiden listaan ja katsoa jos niiden joukosta löytyisi jotain. Eilen tuota sivustoa ajankulukseni selaillessani huomasin että ainakin Palm-laitteelle olleita tiedostoja puuttui aika reippaasti ja niitä minulla saattaisi ainakin olla jotakin kun kaverilta aikanaan kopsasin CD-levyllisen Palmin ilmais- ja shareware-softia.
 
Noniin, nyt on tuolla vertaa.py -skriptillä käyty oma tiedostolista läpi ja tulos on: "Löydetyt yhteensä: 281" eli pitää varmaan kopsata nuo tiedostot yhteen kasaan ja ruveta katselemaan josko nuo olisivat oikeasti tuolta puuttuvia tiedostoja. Nopeasti tiedostolistaa vilkaisemalla voisin veikata että ainakin jokunen huti tuossa on ihan suorilta, mutta katsotaan...

edit:
Ensimmäisen pikaisen läpikäynnin jälkeen ehdokkaita on enää 228kpl, tuolla puuttuvien listassa oli aika paljon kaikkea tyyliin readme.txt, readme.1st, readme.doc jne jotka ei erittäin suurella todennäköisyydellä ole oikeita versioita.

edit2:
Näköjään omalle listalle jäi vielä kaksoiskappaleita eli 212kpl tiedostoa jäljellä.
 
Viimeksi muokattu:
Sivusto oli vajaan vuorokauden alhaalla kun virtuaalikone meni solmuun ja se piti palauttaa backupeista. Viimeisimmät käyttäjäkommentit katosivat tosin. Nyt on taas ylhäällä ja versiotakin on päivitetty:
Versio 0.92
-Lisätty mahdollisuus ladata tietokantadumppi.
-Hakuvalikot muistaa nyt edellisen asetuksen.
-Muita pieniä bugikorjauksia.

Eli nyt voi koska tahansa hakea tuoreen listan esim. puuttuvista tiedostoista ja valita mitä kenttiä siihen tulee.

edit:
Ja niin, aiemmin puheena olleet Amiga Fish -levyt ja Saku-levykelehdet ovat nyt ladattavissa. Lisäksi myös tavaraa mm. Funetista. Latauskansiossa on nyt 13,057 kohdetta.

edit2:
Julkinen IP muuttui tuossa hässäkässä, joten jos sivusto ei aukea, voi olla, ettei DNS-tietueet ole vielä päivittyneet joka paikkaan.
 
Viimeksi muokattu:
Kerkisin nyt viimein käymään omat tiedostot läpi ja nimien perusteella olisi osumia reilu 200 tiedostoa, yhteensä zipattuna 336MB edestä. Katselin käsin noita sen verran läpi ettei joukossa ole mitään sattumalta samalla tavalla nimettyä privaattidataa ja ainakin suurin osa sisälsi esim file_id.diz -tiedoston. Itse olen lähdössä kohta kesälomareissulle enkä hetkeen ehdi tekemään noille ihmeempää mutta voinko mahdollisesti latailla tuon kasan tiedostoja johonkin josta joku muu voi katsella ovatko nuo oikeasti tuolta puuttuvia tiedostoja? Vahva veikkaus olisi että ainakin osa noista on noita MBnet Apajalta puuttuvia fileitä.
 
Kerkisin nyt viimein käymään omat tiedostot läpi ja nimien perusteella olisi osumia reilu 200 tiedostoa, yhteensä zipattuna 336MB edestä. Katselin käsin noita sen verran läpi ettei joukossa ole mitään sattumalta samalla tavalla nimettyä privaattidataa ja ainakin suurin osa sisälsi esim file_id.diz -tiedoston. Itse olen lähdössä kohta kesälomareissulle enkä hetkeen ehdi tekemään noille ihmeempää mutta voinko mahdollisesti latailla tuon kasan tiedostoja johonkin josta joku muu voi katsella ovatko nuo oikeasti tuolta puuttuvia tiedostoja? Vahva veikkaus olisi että ainakin osa noista on noita MBnet Apajalta puuttuvia fileitä.
Jos saat jonnekin yhtenä pakettina ladattavaksi, niin voisin turauttaa komparaattorin läpi.
 
Eli nyt voi koska tahansa hakea tuoreen listan esim. puuttuvista tiedostoista ja valita mitä kenttiä siihen tulee.
Tuli näköjään hieman hätäisesti turautettua tuo ominaisuus, kun huomasin nyt, ettei kaikkien tiedostojen sisältävän listauksen muodostaminen toiminut ja lainausmerkitkin olisi hyvä olla tekstikentissä.
Tein pikakorjauksen tuohon. Kertokaa jos on jotain ongelmia tuon kanssa, tai toiveita millainen tuon pitäisi olla.
 
Laitoin yhteydenottolomakkeeseen mahdollisuuden lähettää liitetiedostoja. Ne menee sähköpostitse, joten ei mitään megapaketteja kannata varmaan laittaa, mutta yksittäisiä tiedostoja voi nyt lähettää lisättäväksi tuotakin kautta.
 
Huvi- ja hyötylevyiltä löytyi vielä 355 puuttuvaa tiedostoa. Mistä lie tullut käsitys että sama tavara olisi MBCD-levyillä.. Myös mm. Funetista ja scene.orgista lisätty tavaraa.

Paljon olisi myös tarkistettavia jonossa, kuten Aminetistä ladatut ~1800 tiedostoa. Meinaako @jad julkaista vertailijansa lähitulevaisuudessa? Voisi myös miettiä, saisiko tekoälyä jotenkin hyödynnettyä vertailuissa.

Palvelimella on nyt 14 413 ladattavaa tiedostoa.
 
Onkohan @jad kerinnyt minun 25.6. hänelle linkkaamaa pakettia kurkkimaan, sielläkin olisi saattanut jokunen puuttuva tiedosto olla.
 
Tällainen ryhmä on myös ollut 2020 lähtien jossa kartoitettu tiedostoja ja jonka jäsenet ovat jutelleet mm. Kansalliskirjaston arkistointitiimin kanssa myös vestialueiden viestien arkistoinnista: MBnet-pelastusryhmä | Facebook
Harmi kun toimivat Facebookissa. Olen sen verran jäärä etten klikkaa tuota. :( Hienoa kuitenkin että löytyy aiheesta kiinnostuneita.

Onkohan @jad kerinnyt minun 25.6. hänelle linkkaamaa pakettia kurkkimaan, sielläkin olisi saattanut jokunen puuttuva tiedosto olla.
Ei nuo ainakaan minulle asti ole päätynyt.
 
Meinaako @jad julkaista vertailijansa lähitulevaisuudessa? Voisi myös miettiä, saisiko tekoälyä jotenkin hyödynnettyä vertailuissa.
Tässä vielä pari viikkoa pitäisi jaksaa painaa töitä ja sitten 5 vk kesäloma, niin aikaa vähän harrastuksillekin.
Ei nuo ainakaan minulle asti ole päätynyt.
Nyt on :) 163 uutta tiedostoa.
 
Harmi kun toimivat Facebookissa. Olen sen verran jäärä etten klikkaa tuota. :( Hienoa kuitenkin että löytyy aiheesta kiinnostuneita.
1720964468902.png

ei siellä kovin verkkaista keskustelua ole ollut, ja nyt päässyt tämäkin lanka jo sinne mukaan :)
muoks ton elo 23 julkasun jälkeen seuraava on tammikuu 2020... tai mitä ainakin näen ko en ryhmässä ole... muoks taas, jaa onkin täysin julkinen, eli aika vähän siellä on ollut toimintaa...
 
Viimeksi muokattu:
ei siellä kovin verkkaista keskustelua ole ollut, ja nyt päässyt tämäkin lanka jo sinne mukaan :)
muoks ton elo 23 julkasun jälkeen seuraava on tammikuu 2020... tai mitä ainakin näen ko en ryhmässä ole...
Joo FB on varsin huono alusta informaation keräämiseen (paitsi mainostajille), koska algoritmi päättää mitä näytetään kenellekin.
--
Muihin uutisiin: Kävin tuossa Pelit CD:t läpi ja niistäkin löytyi 50 tiedostoa lisättäväksi tiedostonimen perusteella. Archivesta löytyi kolmen levyn paketti (1997?), sekä 1999, 2000, 2001 ja 2002 levyt. Tietääkö joku ilmestyikö vuonna 1998 levyä ja paljonko noita levyjä oli kaikkiaan?
 
Joo FB on varsin huono alusta informaation keräämiseen (paitsi mainostajille), koska algoritmi päättää mitä näytetään kenellekin.
--
Muihin uutisiin: Kävin tuossa Pelit CD:t läpi ja niistäkin löytyi 50 tiedostoa lisättäväksi tiedostonimen perusteella. Archivesta löytyi kolmen levyn paketti (1997?), sekä 1999, 2000, 2001 ja 2002 levyt. Tietääkö joku ilmestyikö vuonna 1998 levyä ja paljonko noita levyjä oli kaikkiaan?
Pelipakki nimellä näyttäisi ainakin olevan 1998 levy olemassa:
 
Onkohan @jad kerinnyt minun 25.6. hänelle linkkaamaa pakettia kurkkimaan, sielläkin olisi saattanut jokunen puuttuva tiedosto olla.
Nyt on lisätty 163 tiedostoa palvelimelle alkuperällä #hyrava. Osa oli tässä välissä löytynyt mm. HHCD-levyiltä ja jokunen huti oli väärällä versiolla, mitä noita jadin pois raakkaamia katselin. 7 tiedostoa jäi vielä vähän roikkumaan kun ei ole varmuutta ovatko samoja.
Kiitoksia kontribuutiosta. :)

Uppasin samalla nuo mainitut Pelit CD -osumat ja vähän jotain muutakin. Palvelimella on nyt 14 645 ladattavaa tiedostoa.
 
Nyt on lisätty 163 tiedostoa palvelimelle alkuperällä #hyrava. Osa oli tässä välissä löytynyt mm. HHCD-levyiltä ja jokunen huti oli väärällä versiolla, mitä noita jadin pois raakkaamia katselin. 7 tiedostoa jäi vielä vähän roikkumaan kun ei ole varmuutta ovatko samoja.
Kiitoksia kontribuutiosta. :)

Uppasin samalla nuo mainitut Pelit CD -osumat ja vähän jotain muutakin. Palvelimella on nyt 14 645 ladattavaa tiedostoa.
Hienoa että sain olla avuksi projektissa :D
 
Hieman tilannetietoja projektin etenemisestä. Tein jokin aika sitten infosivulle tilastointia tiedostojen määrästä. Noin 28 % Apaja(listan) tiedostoista on "löydetty" (16828 / 59826).

Tässä on ollut taktiikka se, että on ladattu Internet Archivesta paketti, seulottu skripteillä saman nimiset tiedostot ja lähinnä silmämääräisesti tarkasteltu mahtaisiko kyseessä olla sama tiedosto. Tässähän olisi hyvää vertailuaineistoa kouluttaa tekoälyä tekemään vertailutyötä lopuille tiedostoille?

Latasin juuri Discmasterista skriptin avulla pari tuhatta tiedostoa, joiden koko on listassa ilmoitettu tavuina. Hakuehtoina nimi ja koko +- 10 tavua, eli kyseessä on todennäköisesti osumia. Eli tutkittavaa riittää kunhan saisi työkaluja aikaiseksi.
 
Työkaluja saatu aikaiseksi ja 2200 tiedostoa lisätty sivulle.
Skripti purkaa kansiollisen tiedostoja, vertaa zip-tiedoston kokoa Apajan listassa olevaan, vertaa puretun tiedoston tekstisisältöjä Apaja-kuvaukseen ja valikoi mielestään parhaan osuman (similarity) ja laatii taulukon lopputuloksesta.
Toinen, koneoppimista hyödyntävä skripti, tekee sitten vielä omat arvionsa kuvauksista (predicted).

Melko hyvin nuo arpoo osumia vaikka kehitettävääkin vielä on. Saman nimikkeen eri versionumerot menee herkästi osumina. Skripti kyllä yrittää poimia niitäkin, mutta ei poimi aina oikeaa numeroa. Siksi jätin ne kentät vielä pois koneoppimisesta.

Nopeuttaa tuo silti paljon. Similarity-arvon ollessa 1 kyseessä on jokseenkin varma osuma, samoin kuin koon ollessa viiden tavun sisään sama. Arvot silti heittää suuressa osassa, kun mukana voi olla jonkun purkin mainos tuomassa 5-15 kt lisää kokoa ja teksteistä ei aina selviä mitään. Tai stten Apaja-kuvaus on suomeksi ja tiedostossa englanniksi / saksaksi.
Kuvan Aminet-tiedostoista noin puolet nimikkeistä sai hyväksyä suorilta, loput on vähän epävarmoja.

Minkälaista virhemarginaalia sallitaan? Korvaako määrä laadun, vai pitäisikö näitä käydä vielä manuaalisesti läpi? Haluaako joku osallistua tarkistustalkoisiin?

vertailua.png
 
Tl;dr: oliko joillekin MBitin rompuille vielä tarvetta? Kävin tänään isäukon jäämistöä tarkemmin läpi ja vähemmän yllättäen nuokin tilaajaromput oli säästetty.
 
Tl;dr: oliko joillekin MBitin rompuille vielä tarvetta? Kävin tänään isäukon jäämistöä tarkemmin läpi ja vähemmän yllättäen nuokin tilaajaromput oli säästetty.
Ne pitäisi kaikki olla jo archive.orgissa ja on jo käyty läpi. 1996 korppu taitaa puuttua, mutta se on luultavasti 1995 korpun uusintapainos.
Pistä huutonettiin myyntiin jos et tarvi, kyllä ne joku ostaa.
 
Jaottelin palvelimen tiedostot alihakemistoihin osastoittain skriptin avulla. Erituplakansiot jäi vielä juurihakemistoon. Palvelimella on nyt 26 331 tiedostoa, yhteensä 17 Gt. Latauslinkki löytyy noin 42 % listan nimikkeistä. Muutama gigatavu lisää olisi vielä tarkistettavana.

Tämä kun alkaa olla ihan kohtuu merkittävä tiedostokokoelma, niin mietin, että haluaisiko joku peilata tätä esim. ajastetulla rsyncilla? Että olisi useampi kopio kuin vain minun hallussa olevat.
 
On ollut tarkoitus hommata taas VPS, ja jos sille palvelimelle olisi tällä kertaa järkevää käyttöäkin, niin mikäs sen hienompaa! Muistuttakaa ensi viikolla, jos en ole siiheksi palannut asiaan :D
 
Pelkän sivuston tiedostoineen saisi muuten varmaan (esim. kotipalvelimelle, jollainen itselläkin tuossa hurisee) talteen wgetilläkin – tokikaan siinä ei säily sivustoa pyörittävä koodi, mutta vierailtava sivu tiedostoineen kyllä.

Varmaan jotain tämän suuntaista, kännykällä paha kokeilla: wget --mirror --convert-links --adjust-extension --page-requisites --no-parent --wait=7 --random-wait <url>

Pitääpä tutkia ja koestaa paremmalla ajalla.:hmm:
 
Pelkän sivuston tiedostoineen saisi muuten varmaan (esim. kotipalvelimelle, jollainen itselläkin tuossa hurisee) talteen wgetilläkin – tokikaan siinä ei säily sivustoa pyörittävä koodi, mutta vierailtava sivu tiedostoineen kyllä.
Joo en tiedä kun tuo tiedostojen latausproseduuri on melkoinen purkkaviritys. Varmaan helpommalla pääsee kun synkkaa koko latauskansion.
Spagetit löytyy tuolta jos haluaa pyörittää sivustosta paikallista versiota: apajalista
 
Joo en tiedä kun tuo tiedostojen latausproseduuri on melkoinen purkkaviritys. Varmaan helpommalla pääsee kun synkkaa koko latauskansion.
Spagetit löytyy tuolta jos haluaa pyörittää sivustosta paikallista versiota: apajalista
Eli koodit ovat jo netissä, tiedostojen varmuuskopiointi riittäisi? Jeps, kokeilen ehtiessäni, pitäisi tosiaan onnistua ilman pääsyä palvelimellesi. (Tai jos joku muu ehtii kokeilemaan ensin, niin hyvä vaan!)
 
Unohtui pitkäksi aikaa, ja on ollut muutakin hulinaa yli tarpeen, mutta tuolla se wget nyt vihdoin latailee Apajalistaa (--wait 7 oli muuten täysin ylilyöty, lyhensin sitä). Tulokset vaikuttavat rohkaisevilta; sivuja voi lukea, tiedostojakin on jokunen valunut, ja vaikka ne hassusti tallentuvatkin "sivuina", ne vaikuttavat olevan ihan toimivia paketteja. Katselen tarkemmin jahka tuo on edennyt pidemmälle.

EDIT! Päivitys 16.9. klo 15.37: yhä lataa, nyt on 3,1 gigaa tiedostoja valunut levynkulmalle. Hyvää kamaa näyttäisi olevan seassa:
Koodi:
Want to make a demo in 16-bit screen mode without sacrificing the speed?

    .:##:.       .+
############## +###               ######:.                   .+####.
#####'###. '~' ####           ###  ##########.             .#########
      ####     ####          ####     +#########.        ####     ###
      ####    .####        .#####   :###'  '+#####.    .##+       ###
      ####    :####+      ######:   ####      :####:   ##'       ####
     :###     ######.   +## :###   .###:        ####  ##'       .###'
     +###     ###+###,###'  ###:   +###         '### +##        ####
     ###:     ### +####'    ###    ###+          ### ##'        ###
     ###     :###   ~~     :##:    ###'         :## .##         ~
     ###     :##:          ###     ###         +##  ###
     ##:     +##'          ##:    .##'        ###   '##.
    :##      ###          :##     :##       ###      ###.
     ##      ##:          ###     ##'     #####:     '####       .#
     ##      ##           #       +. .######'         '##########'
                                   '#####'               '#####' [Sol]

                        Text Mode Demo Competition
Harmillisesti kilpailun deadline meni jo vuonna 1996. :confused2:
 
Viimeksi muokattu:
Unohtui pitkäksi aikaa, ja on ollut muutakin hulinaa yli tarpeen, mutta tuolla se wget nyt vihdoin latailee Apajalistaa (--wait 7 oli muuten täysin ylilyöty, lyhensin sitä). Tulokset vaikuttavat rohkaisevilta; sivuja voi lukea, tiedostojakin on jokunen valunut, ja vaikka ne hassusti tallentuvatkin "sivuina", ne vaikuttavat olevan ihan toimivia paketteja. Katselen tarkemmin jahka tuo on edennyt pidemmälle.

EDIT! Päivitys 16.9. klo 15.37: yhä lataa, nyt on 3,1 gigaa tiedostoja valunut levynkulmalle. Hyvää kamaa näyttäisi olevan seassa:
Koodi:
Want to make a demo in 16-bit screen mode without sacrificing the speed?

    .:##:.       .+
############## +###               ######:.                   .+####.
#####'###. '~' ####           ###  ##########.             .#########
      ####     ####          ####     +#########.        ####     ###
      ####    .####        .#####   :###'  '+#####.    .##+       ###
      ####    :####+      ######:   ####      :####:   ##'       ####
     :###     ######.   +## :###   .###:        ####  ##'       .###'
     +###     ###+###,###'  ###:   +###         '### +##        ####
     ###:     ### +####'    ###    ###+          ### ##'        ###
     ###     :###   ~~     :##:    ###'         :## .##         ~
     ###     :##:          ###     ###         +##  ###
     ##:     +##'          ##:    .##'        ###   '##.
    :##      ###          :##     :##       ###      ###.
     ##      ##:          ###     ##'     #####:     '####       .#
     ##      ##           #       +. .######'         '##########'
                                   '#####'               '#####' [Sol]

                        Text Mode Demo Competition
Harmillisesti kilpailun deadline meni jo vuonna 1996. :confused2:
Tuolla oli yöllä erinäisten bottien toimesta niin kova liikenne, että minulle tarjosi selaimessa bad gatewayta. Että mahtaako olla kaikki sitten kokonaisena latautunut.. Nostin Gunicorn-workereiden määrää ja muutenkin sörkin asetuksia, joten siinäkin tuli pari katkosta. Niin ja lisäsin ~tuhat uutta tiedostoakin samalla. :p Latauskansion koko on nyt 23 Gt, yhteensä 28 565 tiedostoa.
Wgetillä ei taida saada synkattua pelkästään muuttunutta sisältöä, vaan aina pitäisi aloittaa alusta saadakseen ajantasaisen kopion?
 
Tuolla oli yöllä erinäisten bottien toimesta niin kova liikenne, että minulle tarjosi selaimessa bad gatewayta.
Mä ainakin alkuun pommitin Apajalistaa sarjatulella jonkin aikaa, kun unohdin ensin laittaa wgetille sen wait-parametrin. Sori siitä!

Wgetillä ei taida saada synkattua pelkästään muuttunutta sisältöä, vaan aina pitäisi aloittaa alusta saadakseen ajantasaisen kopion?
Saa sillä, mutta ilmeisesti HTML-sivusi eivät palauta Last-Modified-headeria, joten wget lataa sivut aina uusiksi. Tiedostoista se tuon tiedon saa, ja osaa olla lataamatta niitä.

Tää on kyllä ihan hirveän hidasta touhua tällä wgetillä, eli jos haluat mun peilaavan sivustoa, olisi aiheellista miettiä ennemmin jotain rsync-ratkaisua. Laita viestiä ketjuun tai privana, jos olet avoin moiselle, niin keksitään jotain. En ole kummoinenkaan ekspertti noiden työkalujen käytössä, mutta onhan Google keksitty. :)
 

Statistiikka

Viestiketjuista
257 000
Viestejä
4 465 826
Jäsenet
73 879
Uusin jäsen
Torvelo

Hinta.fi

Back
Ylös Bottom