Path in SIP samenstellen of extraheren

Hoe kan ik de dossiernamen in het veld ‘Path in SIP’ invullen in het importsjabloon dat ik heb gedownload? Welke hulpmiddelen kan ik gebruiken? Welke stappen zet ik?

Overzicht:

Uitlezen van mappenstructuur via Windows Verkenner

In Windows Verkenner zit een functionaliteit die van pas komt.

Selecteer de mappen (dossiers) waarvan je de padnamen wil kopiëren en plakken in het importsjabloon. Kies vervolgens voor Pad kopiëren in de menubalk.

Windows Verkenner > Start > Pad kopiëren

PadKopierenWindVerk2.png

Open een lege werkmap in Excel. Je neemt bij voorkeur een leeg werkblad en niet het importsjabloon dat je hebt gedownload, omdat je nog enkele bewerkingen moet uitvoeren.

Plak de gekopieerde padnamen in het nieuwe Excel-werkblad:

PlakExcel1.PNG

Ga in cel A1 staan en plak de gekopieerde dossiernamen. Excel toont nu een lijst.

De dossiernamen zijn achteraan in de padnamen zichtbaar. Nu is het zaak de prefix van de padnamen te verwijderen, aangezien we enkel deze dossiermappen 2015_001, 2016_001, … in de rootfolder gaan opnemen.

Ga naar cel A1. Je kunt deze prefix bekomen door in cel A1 te gaan staan en in de ‘Formulebalk’ de volledige prefix te kopiëren die de dossiernaam voorafgaat, dus tot en met de laatste backslash ‘\’. In ons voorbeeld is dat
‘C:\Users\bovyst\OneDrive - Vlaamse overheid - Office 365\Digitaal Archief Vlaanderen\Opleidingsdata\SIP Doss Gn Ext1\’

Selecteer vervolgens het volledige werkblad of de ingevulde cellen A1 t.e.m. A12:

Ga in cel A1 staan en klik op CTRL-A of
klik in het werkblad op dit symbool

Nu de selectie is uitgevoerd, klik op CTRL-H of
klik in de menubalk van Excel: Start > Bewerken > Zoeken en selecteren > Vervangen.

Ga in het tabblad ‘Vervangen’ met je cursor in het veld ‘Zoeken naar’ staan.

Noteer of plak de prefix die je net hebt gekopieerd en wil verwijderen in het veld ‘Zoeken naar’ > ‘Alles vervangen’ > OK.

Excel toont nu mijn dossiernamen. Selecteer de mapnamen en kopieer ze:

Plak de gekopieerde padnamen van de selecteerde mappen (dossiers) in het importsjabloon dat je hebt gedownload:

Vul de dossiernamen aan. Je zou de waarden van cel A2 t.e.m. A13 kunnen hernemen (dus kopiëren) in kolom E, ‘Naam’ of een eigen waarde meegeven.

Vergeet de ‘Openingsdatum’ en ‘Sluitingsdatum’ niet te toe te voegen. Meer info over formattering vind je hier.

Uitlezen van mappenstructuur via Finder (Mac OS X)

Open Finder en selecteer de mappen (dossiers) waarvan je de padnamen wil kopiëren en plakken in het importsjabloon (command + A).

Houdt de option-toets ingedrukt, klik met een secundaire klik (rechtermuisknop) op de bestanden en selecteer ‘Copy Items as Pathnames’.

Open een lege werkmap in Excel. Je neemt bij voorkeur een leeg werkblad en niet het importsjabloon dat je hebt gedownload, omdat je nog enkele bewerkingen moet uitvoeren.

Plak de gekopieerde padnamen in het nieuwe Excel-werkblad: ga in cel A1 staan en plak de gekopieerde dossiernamen via Paste Special > Paste as Text. Excel toont nu een lijst.

Uitlezen van mappen- en bestandsstructuur via Power Query in Excel

Open Excel >Open een lege werkmap.

Klik in de menubalk op Gegevens > Gegevens ophalen.

Uit bestand > Uit map (dossiers op lokale schijf, fileshare) of
Uit bestand > SharePoint-map (dossiers op SharePoint).

In het voorbeeld dat we uitwerken, kiezen we voor Gegevens ophalen > Uit bestand > Uit map.

Navigeer in het selectie-menu dat verschijnt naar de locatie waar de dossiers zijn bewaard. Dit is de rootfolder.

Selecteer de rootfolder > Openen > Gegevens transformeren.

De Power Query-editor wordt geopend > Sluiten en laden.

Nu is het zaak de overbodige informatie te verwijderen en de data te transformeren.

In ons voorbeeld hebben we een werkblad met 636 rijen (635 + kolomtitels) en 6 kolommen.

Om de informatie om te zetten naar een werkbaar formaat dat overeenstemt met de informatie die we nodig hebben om het importsjabloon in te vullen, voeren we bijkomende acties uit.

  • We wensen de dossiers uit deze 635 rijen te halen, aangezien dossiers verplicht moeten worden beschreven in het importsjabloon.

  • We wensen alle bestanden of stukken uit deze dossiers te beschrijven. Bestanden beschrijven in het importsjabloon is echter optioneel en geen verplichting.

In de laatste kolom van onze Excel vinden we Folder Path. Dit is de lijst van dossiers, voorafgegaan door het volledige path (prefix).

We raden aan om deze kolom in zijn geheel te kopiëren en te plakken in een nieuw werkblad.

In ons voorbeeld moeten we het prefix ‘C:\Users\bovyst\OneDrive - Vlaamse overheid - Office 365\Digitaal Archief Vlaanderen\Opleidingsdata\SIP Doss Gn Ext1\’ verwijderen.

Eerder hadden we al beschreven hoe we het prefix konden verwijderen via Zoeken en Vervangen. Na deze actie bekomen we een nieuwe lijst die de gewenste dossiernamen van onze selectie bevat.

We moeten van deze lijst nog twee afgeleide versies maken.

  1. Versie één, waarbij elk dossier één keer wordt vermeld en de dossiernaam geen '\' bevat aan het eind. Deze versie zullen we gebruiken om dossiers apart te beschrijven op de eerste rijen van het importsjabloon.

  2. Versie twee, waarbij per stuk het dossier wordt vermeld en de dossiernaam een '\' bevat aan het eind.
    Deze versie zullen we gebruiken om de stukken te beschrijven onder de dossiers in het importsjabloon.

Versie één, dossiers beschrijven, geen dubbele waarden:

Kopieer de waarden uit de lijst en plak ze in een leeg werkblad.

De lijst dossiers die overblijft bevat nog een ‘\' na de dossiernaam. Dit teken kunnen we weghalen via de functie Zoeken en Vervangen zoals eerder beschrijven. D.w.z. zoeken naar ‘\' en Vervangen door: ‘(leeg)’. Alternatieve functie: de cel splitsen op basis van de '\’. op Gegevens > Tekst naar kolommen > Gescheiden > Volgende > Overige: '\’ > Volgende> Voltooien.

De lijst bevat nu de dossiernamen, elk dossier komt mogelijk meer dan één keer voor.

Verwijder de dubbele waarden.

Gegevens > Dubbele waarden verwijderen.

De bekomen lijst dossiers kunnen we kopiëren en plakken in de kolom 'Path in SIP' van ons importsjabloon.

Versie twee, stukken beschrijven, wel dubbele waarden:

Rest ons nog de beschrijving van de bestanden correct te formatteren.

Om een stuk te beschrijven hebben we het volledige pad nodig van het dossier (onder de rootfolder) t.e.m. de bestandslocatie plus de bestandsextensie, dus dossiernaam/submapniveau1/submapniveau2/bestand.ext.

Ga terug naar de volledige lijst zonder het prefix in de laatste kolom. Kopieer de waarden uit de lijst en plak ze in een leeg werkblad. Zorg ervoor dat je alle waarden selecteert en kopieert. De lijst dossiers die overblijft bevat nog een ‘\' na de dossiernaam. Dit teken hoeven we voor deze versie niet weg te halen. We moeten voor een correcte verwerking het teken ‘\' wel vervangen door '/’. Dat kan als volgt:

Resultaat:

Dossier ‘2015_001/’, …

Kopieer de nieuwe waarden en plak ze in initiële werkblad, wat de output was van de Power Query, onder de kolom Folder Path,

Navigeer naar cel G2 en voeg de info van de cel F2 samen met de waarde in cel A2. Je construeert de padnaam van het stuk. In cel G2 noteer je de formule ‘=TEKST.SAMENVOEGEN(F2; A2)’. De dossiernaam en eventuele submappen wordt gecombineerd met de stuk-bestandsnaam en de bestandsextensie.

Kopieer de bekomen waarden van kolom G (voor het gemak ‘Stuk path’ genoemd in het voorbeeld), vanaf cel G2 tot en met de laatste waarde van deze kolom, naar het importsjabloon in de kolom 'Path in SIP' onder de reeds beschreven dossiers.