Hoe Vind Je Alle Pagina’s van een Website: Een SEO-gids
Binnen de SEO-wereld regeert data. De toegang tot data is cruciaal om weloverwogen beslissingen te nemen en een succesvolle strategie voor je project te kunnen ontwikkelen. Om dit spel te winnen is het zaak om jezelf op twee zaken te richten: blijf op de hoogte van de markt en heb een grondig begrip van je eigen website.
In dit artikel richten we ons op het tweede, het leren kennen van je website, aangezien de grootste kansen en mogelijke valkuilen soms op de meest onverwachte plekken liggen. Zonder een complete lijst van de pagina’s op je website loop je het risico waardevolle kansen op verbetering te missen, wat mogelijk ook betekent dat je de voorsprong op je concurrenten verliest. Hoe vind ik alle pagina’s van een website? Tijd om het te onderzoeken!
Laten we kijken wat voorbeelden van redenen zijn om alle pagina’s van een website te vinden, welke tools je daarbij effectief kunnen helpen en hoe je dat precies doet.
-
SE Ranking’s Website Audit:
Deze tool crawlt je website en verzamelt alle URL’s die zoekmachines kunnen indexeren. Het biedt de mogelijkheid om specifieke secties van de website te scannen en biedt statistieken zoals fouten, URL-structuur en indexeringsstatus.
-
Google Search Console:
GSC toont alle pagina’s die Google op je website heeft gevonden, inclusief de pagina’s die niet zijn geïndexeerd vanwege fouten. Je kunt data exporteren om de zichtbaarheid van je website te volgen en te verbeteren.
-
Google Analytics:
Het registreert alle pagina’s die door gebruikers worden bezocht. Zo krijg je inzicht in pagina’s die mogelijk over het hoofd worden gezien, maar die nog steeds waardevol zijn voor je SEO en online marketing.
-
Bing Webmaster Tools:
Deze tool geeft alle pagina’s weer die door Bing geïndexeerd zijn, wat een alternatief biedt voor de indexering van Google en helpt bij het optimaliseren van je website voor verschillende zoekmachines.
-
Command line:
Met behulp van tools zoals Wget kun je alle URL’s van een website downloaden en weergeven, inclusief de URL’s die diep in de structuur van de website verstopt zitten.
-
Sitemap:
Hoe krijg je alle URL’s van een website? Door de sitemap.xml te openen.
Waarom moet ik elke pagina afzonderlijk vinden?
Zoekmachines introduceren voortdurend nieuwe algoritmes en passen regelmatig handmatige straffen, ook wel penalty’s genoemd, toe op pagina’s en websites. Als je niet alle pagina’s van je website kent, loop je voortdurend op je tenen door het SEO-mijnenveld.
Om een serieuze tegenslag in je prestaties te voorkomen, is het zaak om alle pagina’s die deel uitmaken van een website nauwlettend in de gaten te houden. Zo ontdek je niet alleen de pagina’s die je al kende, maar bijvoorbeeld ook de vergeten pagina’s, pagina’s waarvan je niet meer wist dat ze bestonden, enzovoorts.
Er zijn verschillende scenario’s waarin het wenselijk is om te weten hoe je alle pagina’s van een website kunt vinden, zoals:
- Veranderende architectuur van een website
- Verhuizen naar een nieuw domein of een aanpassing in de URL-structuur
- Bestaan van weespagina’s op een website
- Noodzaak van het vinden van dubbele pagina’s
- Wens om 404 pagina’s te vinden
- Het creëren van redirects op een website
- Creëren van een hreflang file voor je website
- Controleren op canonieke en noindex-tags
- Instellen van interne links
- Aanmaken van een XML sitemap of robots.txt-bestand
Hoe vind ik alle pagina’s van een website?
Als je alle pagina’s wilt vinden die bij een website horen, heb je de volgende opties:
- Gebruik de Website Audit van SE Ranking om alle crawlbare pagina’s te vinden.
- Gebruik Google Search Console om pagina’s te ontdekken die enkel zichtbaar zijn voor Google.
- Gebruik Google Analytics om alle pagina’s te detecteren die ooit zijn bezocht.
- Gebruik de Bing Webmaster Tools om pagina’s te vinden die enkel zichtbaar zijn voor Bing.
- Download de lijst met pagina’s met behulp van de command line.
- Haal website-URL’s uit de Sitemap.xml.
- Bekijk alle pagina’s van een website via WordPress en andere plug-ins.
Laten we eens kijken hoe we deze tools kunnen gebruiken om een website te scannen.
Het vinden van crawlbare pagina’s via de Website Audit van SE Ranking
Hoe krijg je alle URL’s van een website met SE Ranking’s Website Audit? Laten we het bekijken! De tool helpt je bij het verzamelen van alle URL’s die zowel mensen als crawlers van zoekmachines kunnen bezoeken door de interne links van je website te volgen. Het analyseren van dergelijke pagina’s zou de hoogste prioriteit moeten hebben, omdat ze de meeste aandacht krijgen.
Om hiermee te starten, is het zaak om eerst toegang te krijgen tot SE Ranking, een website toe te voegen of een bestaande website te selecteren en het tabblad Overzicht te openen in het Website Audit Report.
Note: Met de gratis proefperiode van 14 dagen krijg je toegang tot alle beschikbare tools en functies van SE Ranking, inclusief de Website Audit.
Laten we vervolgens de instellingen configureren om er zeker van te zijn dat we de crawler vertellen om door de juiste pagina’s te gaan. Om toegang te krijgen tot de Website Audit-instellingen, klik je op het tandwielpictogram in de rechterbovenhoek:
Ga onder Instellingen naar het tabblad Bron van pagina’s voor website audit en sta het systeem toe om Websitepagina’s, Subdomeinen en XML-sitemaps te scannen. Zo weten we zeker dat we alleen scannen wat vooraf gespecificeerd is en dat we tegelijkertijd zowel de subdomeinen van de website, als de pagina’s opnemen:
Ga vervolgens naar Regels voor het scannen van pagina’s en schakel de optie Houd rekening met de robots.txt-richtlijnen in om het systeem te vertellen de instructies in het robots.txt-bestand te volgen. Klik op ‘Wijzigingen toepassen‘ wanneer je klaar bent:
Ga nu terug naar het tabblad Overzicht en start de audit met de nieuwe instellingen toegepast door op ‘Audit opnieuw starten’ te klikken:
Zodra de audit is voltooid, ga je naar Gecrawlde pagina’s om de volledige lijst met alle crawlbare pagina’s te bekijken:
Samen met een lijst van alle gevonden URL’s vind je hier alle essentiële SEO-statistieken van de website, waaronder:
- Verwijzende pagina’s: het aantal pagina’s op je website dat naar een specifieke URL verwijst.
- Aantal fouten op elke pagina.
- Aantal tekens in de URL van de pagina.
- Type en versie van het URL-protocol.
- Of de pagina in de sitemap staat.
- Server response code op de pagina.
- Of de pagina geblokkeerd is door robots.txt.
De bovenstaande statistieken worden weergegeven als standaard kolommen in het tabblad Gecrawlde pagina’s. Je kunt het rapport echter aanpassen aan je specifieke wensen door andere parameters toe te voegen. Ga hiervoor naar het gedeelte Kolommen boven de tabel aan de rechterkant en schakel elke gewenste statistiek in of uit.
Gecrawlde pagina’s kunnen worden gesorteerd op de fouten, waarschuwingen en meldingen die ze bevatten. Hiermee kun je pagina’s prioriteren bij het oplossen van problemen. Ook kun je rapporten vergelijken nadat een website ten minste twee keer een audit heeft doorlopen. Dit helpt je de veranderingen in je gecrawlde pagina’s in de loop van de tijd te observeren.
Het is ook mogelijk om filters te gebruiken om pagina’s te sorteren op basis van verschillende parameters. Als je bijvoorbeeld alleen pagina’s met statuscode 200 wilt zien, voeg je een filter toe zoals:
Nu is het tijd om de resultaten te exporteren. Ga naar Exporteren en kies ervoor om de data op te slaan in .xls- of .csv-formaat.
Alle pagina’s vinden via Google Search Console
Een andere tool die je kunt gebruiken om alle pagina’s op een website te vinden, is Google Search Console. Houd er echter rekening mee dat GSC je alleen pagina’s laat zien waar Google toegang toe heeft.
Hoe vind ik alle pagina’s van een website met GSC? Open je account en ga naar het tabblad Indexering. Kies het rapport Pagina’s en selecteer ‘Alle bekende pagina’s’ in plaats van ‘Alle ingediende pagina’s’.
Het groene vak met het label ‘Geïndexeerd’ geeft je het aantal URL’s dat door Google is geïndexeerd. Klik op ‘Gegevens over geïndexeerde pagina’s weergeven’ onder de grafiek. Vanaf hier kun je alle URL’s op een domein vinden die door Google zijn geïndexeerd, evenals de datum van hun laatste crawl. Je kunt ze exporteren in Google Sheets of downloaden als een .xls- of .csv-bestand.
Ga nog eens terug om de Not Indexed-pagina’s te controleren (pagina’s die niet geïndexeerd zijn en niet in Google verschijnen). Het is tijd om je mouwen op te stropen en het nodige handmatig uit te voeren werk op te pakken.
Terwijl je naar beneden scrolt, zie je een lijst met redenen die verklaren waarom sommige pagina’s op je website niet geïndexeerd zijn.
Je kunt verschillende categorieën bekijken, zoals fouten in de redirects, pagina’s die zijn uitgesloten door de ‘noindex’-tag, pagina’s die zijn geblokkeerd door robots.txt, enzovoorts.
Door op de foutcategorie te klikken, zie je een lijst met de getroffen pagina’s. Bekijk ze allemaal eens om een ongefilterde toegang tot elke pagina die Google op jouw website heeft ontdekt.
Een ander handig rapport in GSC om alle pagina’s van een website te vinden, is het rapport Zoekresultaten. Dit rapport toont alle pagina’s die minstens één impressie in de zoekresultaten hebben gegenereerd. Om het te openen, ga je naar Zoekresultaten in het tabblad Prestaties, stel je de grootst mogelijke periode in en kies je Pagina’s. Exporteer vervolgens je rapport.
Je kunt ook de add-on Search Analytics voor Spreadsheets gebruiken om op aanvraag gegevens uit GSC op te halen en automatisch back-ups te maken in Google Spreadsheets.
Alle pagina’s met paginaweergaven vinden via Google Analytics
Je kunt ook alle pagina’s vinden door de data in je Google Analytics-account te analyseren. Er is maar één voorwaarde: je website moet vanaf het begin aan je Google Analytics-account gekoppeld zijn geweest, zodat de tool achter de schermen data voor je kan verzamelen.
De logica hier is simpel: als iemand ooit een pagina van je website heeft bezocht, heeft Google Analytics de data om dit te bewijzen. Aangezien het om menselijke bezoekers gaat, is het zaak om ervoor te zorgen dat dergelijke pagina’s een duidelijk SEO- of marketingdoel dienen.Ga eerst naar Rapporten → Betrokkenheid → Pagina’s en schermen en klik op Paginapad en schermklasse.
Je kunt ook op ‘Views’ klikken om de pijl omhoog te laten wijzen en de pagina-URL’s te sorteren van minst naar meest bekeken pagina’s. In dat geval worden de minst bezochte pagina’s bovenaan de lijst weergegeven.
Deel of exporteer de data vervolgens naar en met een .csv-bestand.
Alle pagina’s van een website vinden met behulp van Bing Webmaster Tools
Google wordt gezien als de grootste zoekmachine, maar Bing is nog steeds de op één na populairste tot nu toe. Sinds januari 2024 heeft Bing 3,43% van de wereldwijde zoekmarkt in handen, waardoor het goed optimaliseren van je website voor Bing een slimme zet is.
Je kunt de Bing Webmaster Tools ook gebruiken om alle pagina’s op een website te vinden die door Bing geïndexeerd zijn. Dit is heel eenvoudig! Zorg er hierbij allereerst voor dat je jouw website hebt toegevoegd en geverifieerd.
Zodra je website correct is ingesteld, ga je naar Site Explorer in het menu en kies je voor het filteren op ‘Alle URL’s’. Het rapport toont vervolgens alle pagina’s die Bing op jouw website heeft gevonden. Klik op de knop Downloaden om de data te exporteren.
Alle pagina’s op een website vinden met behulp van de command line
Een meer technische benadering om de lijst met alle pagina’s op een website te vinden, is het gebruik van de command line. Deze methode omvat de interactie met een computer via tekstopdrachten.
Hoe krijg je alle URL’s van een website met de command line? Je moet hier eerst Wget voor installeren. Met deze tool kun je bestanden van het web ophalen. Het installatieproces verschilt per besturingssysteem. Zo vereist macOS dat je eerst de Homebrew package manager installeert voordat je tools zoals Wget installeert.
Om Wget te installeren, open je een terminal venster en typ je het volgende command in:
brew install wget
Download vervolgens de website met:
wget -r www.examplesite.com
Wget downloadt je website op een recursieve wijze. De tool begint met de homepage van een website en gaat daarna verder met alle daaraan gelinkte pagina’s, afbeeldingen en soortgelijke bestanden. Dit proces gaat zo door totdat de tool de volledige website gedownload heeft.
Zodra de website gedownload is, kun je Wget vragen de URL’s weer te geven door het volgende te typen:
find www.examplesite.com
Alle pagina’s van een website vinden via Sitemap.xml
Ook het gebruik van een XML-sitemap is een handige manier om de pagina’s van een website te vinden. Het biedt een lijst van alle pagina’s waarvan de eigenaar wil dat zoekmachines deze indexeren. Je kunt het vergelijken met een routekaart, die zoekmachine bots door de structuur van de website leidt en het voor deze robots makkelijker maakt om te begrijpen hoe een en ander georganiseerd is.
Om de lijst te verkrijgen, volg je deze stappen:
- Zoek je sitemap.xml op.
De sitemap is meestal te vinden in de root directory van een website of door “/sitemap.xml” te typen aan het einde van de URL, zoals: http://sitename.com/sitemap.xml. Als de website meerdere sitemaps heeft, worden deze vermeld in het hoofdbestand van de sitemap, dat meestal sitemap-index.xml heet. Hier vind je een lijst met sitemaps en kies je de meest relevante om een lijst met de pagina’s van de website te krijgen.
- Exporteer URL’s uit je sitemap naar Google Spreadsheets.
Hoewel dit een ander voorbeeld van een tech-heavy methode is, bespaart het je een hoop tijd en moeite door alle URL’s in slechts een paar seconden in Google Spreadsheets te importeren. Er is echter eerst wat voorbereidend werk nodig. Begin met het maken van een nieuwe spreadsheet en ga dan naar Extensions. Kies vervolgens ‘Apps Script’.
Kopieer nu de volgende aangepaste JavaScript-code en plak deze in de scripteditor om een nieuwe functie te maken:
function sitemap(sitemapUrl,namespace) {
try {
var xml = UrlFetchApp.fetch(sitemapUrl).getContentText();
var document = XmlService.parse(xml);
var root = document.getRootElement()
var sitemapNameSpace = XmlService.getNamespace(namespace);
var urls = root.getChildren('url', sitemapNameSpace)
var locs = []
for (var i=0;i <urls.length;i++) {
locs.push(urls[i].getChild('loc', sitemapNameSpace).getText())
}
return locs
} catch (e) {
return e
}
}
Sla dat wat je gecreëerd hebt op en voer een test uit. De editor zal om toegangsrechten vragen. Als het script succesvol geïmplementeerd is, zullen er geen foutmeldingen verschijnen. In plaats daarvan zal je zien dat de uitvoering is gestart en vervolgens wordt voltooid.
Nu kun je teruggaan naar je Google Spreadsheet en de volgende formule invoeren:
=sitemap("Sitemap Url","Namespace Url")
Zodra je jouw sitemap gevonden hebt, zou je de URL daarvan moeten kennen, van waaruit je direct de namespace-URL kunt kopiëren. In de onderstaande schermafbeelding zie je hoe dit werkt met de sitemap van SE Ranking:
- De URL van de sitemap staat in de adresbalk van de browser.
- De namespace-URL staat in de eerste regel van de sitemap.
Kopieer deze adressen en plak ze als links in de formule. Dit is wat je uiteindelijk zou moeten krijgen:
=sitemap("https://seranking.com/sitemap.xml","http://www.google.com/schemas/sitemap/0.9")
Plak deze formule in je Google Spreadsheet en druk op Enter om alle URL’s uit je sitemap te extraheren.
Alle pagina’s van een website vinden via WordPress plugins
Als je website op WordPress draait, zijn er plugins die je kunnen helpen alle pagina’s te vinden. De twee meest gebruikte opties zijn:
Om deze plugins te gebruiken, download en installeer je ze in je ‘/wp-content/plugins/’ directory. Na de installatie activeer je ze vanaf je Plugins-pagina in WordPress. Zodra je dit gedaan hebt, kun je alle URL’s van je website weergeven of exporteren.
Als je een ander CMS gebruikt, controleer dan of het standaard ingebouwde functionaliteit heeft voor dit doel of een aparte plugin kent in de lijst met extensies. Joomla heeft bijvoorbeeld veel plugins voor het genereren van sitemaps om je te helpen een lijst met websitepagina’s samen te stellen. Drupal heeft ook een sitemap module die handig kan zijn bij het verzamelen van de pagina’s op je website.
Hoe je alle pagina’s van een website binnen Google kunt bekijken
We hebben al verschillende tools besproken die je kunnen helpen de pagina’s van je website te vinden. De eenvoudigste optie hebben we echter voor het laatst bewaard, en wel om een goede reden. Hoewel deze methode het makkelijkst is, moet je voorzichtig zijn bij het gebruik ervan.
Google je website, maar doe het op de juiste manier. Dit betekent dat je gebruik maakt van Google zoekoperators. Dit zijn speciale opdrachten die de zoekopdracht verder verfijnen op basis van vooraf ingestelde criteria.Ga naar Google en voer “site:website naam” in, zoals in “site:seranking.com”. Je hoeft geen http:// of www toe te voegen. Zorg er wel voor dat er geen spaties tussen de operator en de query staan.
Houd er rekening mee dat deze zoekopdracht in beginsel niet gemaakt is om alle geïndexeerde pagina’s op je website te vinden, zoals John Mueller van Google heeft bevestigd.
Een laatste tip: gebruik Google Search Console, maar dan op een iets andere manier dan eerder is uitgelegd. Concentreer je op de impressies van de pagina (het aantal keren dat de pagina in de zoekresultaten is weergegeven), specifiek voor een korte periode; bijvoorbeeld zeven dagen.
Afsluitende punten
Het lokaliseren van de pagina’s op je website is cruciaal voor het verbeteren van de SEO daarvan en dient als de eerste stap naar verdere optimalisatieslagen. Met deze data kun je pagina’s identificeren die verbetering behoeven, verouderde content updaten, alle links op je website vinden en waar nodig kapotte links repareren. Het helpt je de algehele interne linkstructuur te optimaliseren.
Met behulp van de tools en methoden die in dit artikel worden beschreven, kun je snel en gemakkelijk alle pagina’s op je website in kaart brengen en daarmee waardevolle inzichten in de prestaties ervan opdoen. Neem dus even de tijd om een lijst met pagina’s samen te stellen. Geloof het van het SE Ranking-team: het hoeft helemaal niet veel tijd te kosten als je onze tools gebruikt.