ML Notes - gliner

Address-Analysis-With-Hf

Fri 14 November 2025

# !pip install datasets

from transformers import AutoModelForTokenClassification, AutoTokenizer, Trainer, TrainingArguments
from datasets import load_dataset

# Load data
dataset = load_dataset("json", data_files="train_data.json")

Generating train split: 0 examples [00:00, ? examples/s]

dataset

DatasetDict({
    train: Dataset({
        features: ['text', 'entities'],
        num_rows: 1
    })
})

# Load model and tokenizer
# model = AutoModelForTokenClassification.from_pretrained("urchade/gliner_medium-v2.1")
# tokenizer = AutoTokenizer.from_pretrained("urchade/gliner_medium-v2.1")

from transformers import AutoTokenizer, AutoModelForTokenClassification, AutoConfig

# Path to the local model directory
model_dir = "/home/rajaraman/datasets/gliner/gliner_medium-v2.1"

# Load the configuration manually
config = AutoConfig.from_pretrained(f"{model_dir}/gliner_config.json", local_files_only=True)

---------------------------------------------------------------------------

ValueError                                Traceback (most recent call last)

Cell In[14], line 2
      1 # Load the configuration manually
----> 2 config = AutoConfig.from_pretrained(f"{model_dir}/gliner_config.json", local_files_only=True)


File ~/miniconda3/envs/ml312/lib/python3.12/site-packages/transformers/models/auto/configuration_auto.py:997, in AutoConfig.from_pretrained(cls, pretrained_model_name_or_path, **kwargs)
    994         if pattern in str(pretrained_model_name_or_path):
    995             return CONFIG_MAPPING[pattern].from_dict(config_dict, **unused_kwargs)
--> 997 raise ValueError(
    998     f"Unrecognized model in {pretrained_model_name_or_path}. "
    999     f"Should have a `model_type` key in its {CONFIG_NAME}, or contain one of the following strings "
   1000     f"in its name: {', '.join(CONFIG_MAPPING.keys())}"
   1001 )


ValueError: Unrecognized model in /home/rajaraman/datasets/gliner/gliner_medium-v2.1/gliner_config.json. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: albert, align, altclip, audio-spectrogram-transformer, autoformer, bark, bart, beit, bert, bert-generation, big_bird, bigbird_pegasus, biogpt, bit, blenderbot, blenderbot-small, blip, blip-2, bloom, bridgetower, bros, camembert, canine, chinese_clip, chinese_clip_vision_model, clap, clip, clip_vision_model, clipseg, clvp, code_llama, codegen, cohere, conditional_detr, convbert, convnext, convnextv2, cpmant, ctrl, cvt, data2vec-audio, data2vec-text, data2vec-vision, dbrx, deberta, deberta-v2, decision_transformer, deformable_detr, deit, depth_anything, deta, detr, dinat, dinov2, distilbert, donut-swin, dpr, dpt, efficientformer, efficientnet, electra, encodec, encoder-decoder, ernie, ernie_m, esm, falcon, fastspeech2_conformer, flaubert, flava, fnet, focalnet, fsmt, funnel, fuyu, gemma, gemma2, git, glpn, gpt-sw3, gpt2, gpt_bigcode, gpt_neo, gpt_neox, gpt_neox_japanese, gptj, gptsan-japanese, graphormer, grounding-dino, groupvit, hubert, ibert, idefics, idefics2, imagegpt, informer, instructblip, instructblipvideo, jamba, jetmoe, jukebox, kosmos-2, layoutlm, layoutlmv2, layoutlmv3, led, levit, lilt, llama, llava, llava-next-video, llava_next, longformer, longt5, luke, lxmert, m2m_100, mamba, marian, markuplm, mask2former, maskformer, maskformer-swin, mbart, mctct, mega, megatron-bert, mgp-str, mistral, mixtral, mobilebert, mobilenet_v1, mobilenet_v2, mobilevit, mobilevitv2, mpnet, mpt, mra, mt5, musicgen, musicgen_melody, mvp, nat, nezha, nllb-moe, nougat, nystromformer, olmo, oneformer, open-llama, openai-gpt, opt, owlv2, owlvit, paligemma, patchtsmixer, patchtst, pegasus, pegasus_x, perceiver, persimmon, phi, phi3, pix2struct, plbart, poolformer, pop2piano, prophetnet, pvt, pvt_v2, qdqbert, qwen2, qwen2_moe, rag, realm, recurrent_gemma, reformer, regnet, rembert, resnet, retribert, roberta, roberta-prelayernorm, roc_bert, roformer, rt_detr, rt_detr_resnet, rwkv, sam, seamless_m4t, seamless_m4t_v2, segformer, seggpt, sew, sew-d, siglip, siglip_vision_model, speech-encoder-decoder, speech_to_text, speech_to_text_2, speecht5, splinter, squeezebert, stablelm, starcoder2, superpoint, swiftformer, swin, swin2sr, swinv2, switch_transformers, t5, table-transformer, tapas, time_series_transformer, timesformer, timm_backbone, trajectory_transformer, transfo-xl, trocr, tvlt, tvp, udop, umt5, unispeech, unispeech-sat, univnet, upernet, van, video_llava, videomae, vilt, vipllava, vision-encoder-decoder, vision-text-dual-encoder, visual_bert, vit, vit_hybrid, vit_mae, vit_msn, vitdet, vitmatte, vits, vivit, wav2vec2, wav2vec2-bert, wav2vec2-conformer, wavlm, whisper, xclip, xglm, xlm, xlm-prophetnet, xlm-roberta, xlm-roberta-xl, xlnet, xmod, yolos, yoso

Score: 5

Category: gliner

Address-Classification

Fri 14 November 2025

from gliner import GLiNER

# Initialize GLiNER with a pre-trained model
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")  # Adjust model as needed

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]


/home/rajaraman/miniconda3/envs/ml312/lib/python3.12/site-packages/transformers/convert_slow_tokenizer.py:562: UserWarning: The sentencepiece tokenizer that you …

Category: gliner

Fri 14 November 2025

!pip show gliner

Name: gliner
Version: 0.2.13
Summary: Generalist model for NER (Extract any entity types from texts)
Home-page: 
Author: Urchade Zaratiana, Nadi Tomeh, Pierre Holat, Thierry Charnois
Author-email: 
License: Apache-2.0
Location: /home/rajaraman/miniconda3/envs/ml312/lib/python3.12/site-packages
Requires …

Category: gliner

Fri 14 November 2025

import re
from gliner import GLiNER

# Initialize GLiNER with a pre-trained model
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")  # Replace with a location-specific model if available

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]


/home/rajaraman/miniconda3/envs/ml312/lib/python3.12/site-packages/transformers/convert_slow_tokenizer.py:562: UserWarning …

Category: gliner

Fri 14 November 2025

import re
from gliner import GLiNER
import spacy

# Load SpaCy English model
nlp = spacy.blank("en")

# Get SpaCy's stopword list
stop_words = nlp.Defaults.stop_words

# Initialize GLiNER with a pre-trained model
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]


/home/rajaraman/miniconda3 …

Category: gliner

Fri 14 November 2025

from gliner import GLiNER

# https://genius.com/Genius-english-translations-bts-on-english-translation-lyrics

# Initialize GLiNER with a pre-trained model
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")  # Adjust to a location-specific model if needed

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]


/home/rajaraman/miniconda3/envs/ml312/lib/python3.12/site-packages/transformers/convert_slow_tokenizer.py …

Category: gliner

Fri 14 November 2025

from gliner import GLiNER

# Initialize GLiNER with a pre-trained model
model = GLiNER.from_pretrained("urchade/gliner_medium-v2.1")  # Adjust to a location-specific model if needed

Fetching 5 files:   0%|          | 0/5 [00:00<?, ?it/s]


/home/rajaraman/miniconda3/envs/ml312/lib/python3.12/site-packages/transformers/convert_slow_tokenizer.py:562: UserWarning: The sentencepiece …

Category: gliner

Address-Analysis-With-Hf

Fri 14 November 2025

Address-Classification

Fri 14 November 2025

Base

Fri 14 November 2025

Hybrid-Gliner

Fri 14 November 2025

Improved-Hybrid

Fri 14 November 2025

Location-Bts

Fri 14 November 2025

Location-Sample

Fri 14 November 2025

Address-Analysis-With-Hf

Fri 14 November 2025

Address-Classification

Fri 14 November 2025

Base

Fri 14 November 2025

Hybrid-Gliner

Fri 14 November 2025

Improved-Hybrid

Fri 14 November 2025

Location-Bts

Fri 14 November 2025

Location-Sample

Fri 14 November 2025

Page 1 of 1